歡迎來到 圓球城市 登入 | 註冊 | Help
 
首頁 作者專欄 新聞 市民開講 活動專區 論壇

籃球統計分析101

在 07-21-2016, 12:59 上午 由 kemty16 發表.第 9 篇回覆.
排序方式: 上一個 下一個
  •  07-18-2016, 2:52 下午 505530

    籃球統計分析101

    這是關於籃球統計分析的一些雜感,總不能什麼東西都放在FA那篇萬用文討論。在你到處尋找各種數字,想證明你喜歡的球員確實比別人優秀之前,或許可以先看看。

     

    1.     大部分你看到的指標,其實都不客觀。

     

    大致上,從指標名稱就可以判斷。舉PER為例,它的名字就告訴你這是「球員績效指數」,什麼是績效?老闆為員工評績效,要用什麼東西去計算都隨老闆高興,幫老闆送小三回家也可以算績效。所以,PER很誠實告訴大家,這是一個主觀的指標。

     

    又如Win Share,它很明確告訴你這是「勝場貢獻數」,有明確的定義,所以是個相對客觀的指標。(至於Win Share定義上的瑕疵是另一個故事了。)

     

    2.     主觀未必不好,客觀未必好

     

    所有指標的用意都是在回答問題。只要在適當的範圍內能解決你的問題,就是好指標。

     

    再以PER為例,請考慮火靈哥開發PER的時空背景,使得PER有很濃厚的賤古貴今風格。進攻籃板、火鍋與抄截等統計數字問世之前的上古神獸們被嚴重貶低,攻守節奏(PACE)更成了玩弄數字塑造理想成果的利器。

     

    PER有這樣的問題,但仍不失為一個好指標,只要避免拿不同時代的球員來比較。

     

    再以WS為例,雖然是個相對客觀的指標,但先天問題就是歧視弱隊。如Barkley生涯前期在費城打拼時,年年績效頂天,卻因為老闆爛而戰績不佳,WS自然也不漂亮。

     

    3.     從棒球移植過來的指標,都有難以克服的問題

     

    Win Share為例。棒球的本質是投打對決,所以攻守兩個部門可以明確區隔。(52-48的比例是否合理,又是另一個故事。)移植到籃球,卻忽略了籃球本質上非常注重攻守轉換。

     

    再則,WS在棒球上有非負原則,移植到籃球時想做得更嚴謹(此指Basketball Reference的版本),允許球員的WS為負數,結果卻造成嚴重的問題:所有球員的WS加總,結果卻與球隊的勝場數不符,無法達成初始定義。

     

    其他從棒球移植的指標,如WARP,或多或少有類似或其他方面的問題。

     

    4.     怎樣的指標最常挨罵?

     

    答案:算式最簡單的指標,如PER。因為人人都看得懂,所以隨便抓個係數出來都可以批評。

     

    所以請記住,一個模型整天挨罵,其實只是因為大家看得懂。另一個模型沒人罵,只是因為搞得比較複雜,沒多少人看得懂。幾乎與優劣無關。

     

    5.     正負值比傳統的Boxscore好嗎?

     

    正負值(PM)可以回答許多Boxscore無法回答的問題,但本身也有諸多缺陷,而且沒有客觀的作法可以和Boxscore結合。強行以數學手段解題,反而會造成更多問題。

     

    例如APM,這是以迴歸的方式拆解PM,求出每個球員的真實PM。然而這樣龐大的迴歸計算,勢必得剪掉許多outlier。如某板凳球員上場一分鐘,結果這一分鐘剛好遇到3513分神蹟,這如果不剪掉,會讓整個模型嚴重偏斜(所有這35秒沒上場的球員都損失慘重)。

     

    但是outlier如何判斷?outlier detection怎麼做?這問題非常麻煩。所以你會發現每個網站做出來的APM不盡相同。而且outlier的選擇又牽涉到主客觀問題,你可能用選擇outlier的手段來使模型趨近你的主觀目標。

     

    另外PM也有本質上的大問題:垃圾時間。這個請稍微想一下,應該懂。

     

    6.     如果要自己玩模型,該準備什麼工具?

     

    任何版本的Excel(新的不一定好)、Open Solver(問孤狗就知道他是什麼),以及Basketball-Reference網站。

     

    如果你玩得很認真,可以學一個東西叫「R」。任何比R複雜的東西都沒有必要,像什麼SPSS之類的。

     

    然後可能要學點data science,不用太深,像APM的迴歸計算其實只是data science的新手村,但放在籃球分析已經是小魔王級的模型了。

     

    7.     有沒有現成的原始資料庫?

     

    可花錢買,大約50美元,但未必符合你的需求。

     

    另一個方法是找放暑假的親戚小孩(自己的小孩不好使喚,易子而教的概念),教會他從BR網站把表格匯入Excel,然後付點小錢壓榨童工。

     

    8.     冠軍戒指、年度球隊、入選明星賽,這些成就可以納入數學模型嗎?

     

    若你想實驗,當然可以,但我必須先說,並不恰當。

     

    因為這些數字並不能妥善表現球員的優劣。以冠軍戒指來說,如果當成一個統計數字,則全聯盟每年有15個球員得到1,其他幾百個球員全部是0

     

    想像一下你是出題老師,一個題目只有3%的學生拿到分數,這必然不是一個好題目。至少這一題不能在整張考卷上佔太高的比例。

     

    其他幾個成就也有相同問題。

     

  •  07-18-2016, 10:17 下午 505534 in reply to 505530

    Re: 籃球統計分析101

    不真正了解數據的人→研究某個數據而最後被這個數字誤導→沒有產生有用的結果

    如果他們對籃球不夠了解。(NBA有一堆經濟系的數據分析師)


    球場上還有很多因素是無法預測的,例如球員對教練的領導能力爽不爽,看看BS跟Walton

    或者是裁判(光頭退休了),或者是球迷,這些因素都可能影響數據分析。

    數據分析只是盡可能把籃球場上發生的事找出對應的價值,並且作為決策的參考依據之一。


    Lakers Go
    我湖要起飛了?
  •  07-18-2016, 11:14 下午 505537 in reply to 505534

    Re: 籃球統計分析101

    在big data這個世界,往往問題不在於你怎麼做,而是在發問的人怎麼問。

    從統計分析中得不到有用的結果,最常見的原因是提問錯誤。

    另外微觀有微觀的樂趣,宏觀有宏觀的成就感。看球是樂趣,玩統計模型也是樂趣。

  •  07-19-2016, 6:35 上午 505547 in reply to 505537

    Re: 籃球統計分析101

    對數字最敏感的時候,應該是以前當研究牲的時候。

    雖然現在對Spss、單因子變異數都已經非常陌生,不過還是記得即便收集好的量表擺在哪,還是可以藉由不同面向去分析出不同的結果。

    而要公布的結果取決於什麼?

    取決於能否滿足教獸們的期待。

    so,或許NBA的一堆數據結果,也不過就是取決於球迷們的期待?

    在數字上,NBA的防守數據還很不健全(事實上我還沒找到過對位的球員少得多少分這種資料),單就數據去評斷,當然一定會出現誤差了。
     


    網路是屬言論,言論自然是講道理,不講道理乾脆直接去找人輸贏,混網路太可惜了。

    個人部落格
    http://slightlight.pixnet.net/blog
  •  07-19-2016, 8:33 上午 505558 in reply to 505534

    Re: 籃球統計分析101

    生意人是不會和錢作對的, 怎麼可能會僱用一堆自己認為沒用處的人來

    Bjork本人就是音樂!
  •  07-19-2016, 11:08 上午 505565 in reply to 505547

    Re: 籃球統計分析101

    Slight:

    對數字最敏感的時候,應該是以前當研究牲的時候。

    雖然現在對Spss、單因子變異數都已經非常陌生,不過還是記得即便收集好的量表擺在哪,還是可以藉由不同面向去分析出不同的結果。

    而要公布的結果取決於什麼?

    取決於能否滿足教獸們的期待。

    so,或許NBA的一堆數據結果,也不過就是取決於球迷們的期待?

    在數字上,NBA的防守數據還很不健全(事實上我還沒找到過對位的球員少得多少分這種資料),單就數據去評斷,當然一定會出現誤差了。

    供需是雞與蛋的關係,所以我一開始就說了,大部分指標都不能算是客觀的。

    因為真正客觀的模型,無法滿足大部分球迷的期望。 

  •  07-19-2016, 9:36 下午 505572 in reply to 505558

    Re: 籃球統計分析101

    Kawakami Rinitsu:
    生意人是不會和錢作對的, 怎麼可能會僱用一堆自己認為沒用處的人來

    生意人當然不會和錢作對

    但很多時候他們並不清楚自己所養的員工到底有沒有用 


    Lakers Go
    我湖要起飛了?
  •  07-20-2016, 4:03 上午 505576 in reply to 505537

    Re: 籃球統計分析101

    marchen:

    在big data這個世界,往往問題不在於你怎麼做,而是在發問的人怎麼問。
    從統計分析中得不到有用的結果,最常見的原因是提問錯誤。
    另外微觀有微觀的樂趣,宏觀有宏觀的成就感。看球是樂趣,玩統計模型也是樂趣。

    Marchen大是資訊魂?還是研究魂?怎麼會說出這麼精準的描述?
    同事每次在說大數據,我就淡淡回「你問了對的問題嗎?」 

    回到統計分析,老實說,生意人不會跟錢過不去。
    所有的統計數字,都無法精準標示場上、場內、場外的綜合影響力
    有些人只看場上,這就說明了當年KG的大合約完全不值錢
    但只看場外,Yao應該要是史上最高薪的球員

    統計分析質量指標,很多只是經紀人用來跟老闆談薪水的籌碼之一而已 

  •  07-21-2016, 12:02 上午 505582 in reply to 505576

    Re: 籃球統計分析101

    lucino:

    但只看場外,Yao應該要是史上最高薪的球員

    問題在於:他帶來的市場價值,並非火箭能獨享的,而是全聯盟均分。

    所以他的高薪應該要聯盟補貼 XD 

  •  07-21-2016, 12:59 上午 505583 in reply to 505582

    Re: 籃球統計分析101

    marchen:
    lucino:

    但只看場外,Yao應該要是史上最高薪的球員

    問題在於:他帶來的市場價值,並非火箭能獨享的,而是全聯盟均分。

    所以他的高薪應該要聯盟補貼 XD 

     

    但火箭得到的利益絕對是最大而且淵遠流長的

    即使在Yao退休以後

    火箭仍然是中國球迷最多人支持的球隊 


    人,在開始放棄戰鬥的時候,才算輸
          只要還堅持戰鬥,就還沒輸
以 XML 格式的 RSS 新聞傳送觀看
地址:10646北市大安區羅斯福路3段29號10樓之1
電話:02-2366-1520
Copyright © 2007-2016 圓球城市. All rights reserved
Powered by communityserver®