手把手教你成为数据流懂球帝[篮球篇]
注:本文是系列文章的第二篇,因为最近太懒了,所以距离上一篇发布已经过去三个月了,如果希望了解足球相关的话题请看第一篇介绍的内容:
手把手教你成为数据流懂球帝[足球篇]
NBA官方网站和虎扑之类的就不介绍了。下面直接上数据相关的干货:
一 网站
1 综合类
1.1 NBA官方数据统计(stats.nba.com)
NBA官方的数据统计网站,上面的数据非常齐全,除了常规的统计数据之外还会有一些进阶数据。以某场比赛为例:
常规数据:
各种进阶数据:
还有各种图表:
对于球员个人也有类似的各种统计,而且已经有非常具体的投篮种类分布,
对于普通的爱好者来说这已经是令人发指的地步了,里面还有很多有意思的东西值得好好发掘。
1.2 Basketball-Reference(basketball-reference.com)
Sports-Reference也是一个非常权威的体育数据统计网站,篮球数据只是其中的一部分。里面的数据也非常详细,感觉和官方的数据统计各有千秋。
除了NBA的数据外,Basketball-Reference还有关于NCAA的数据统计,虽然统计的详细程度不如NBA的数据,但也有相当多的内容可以深挖。
1.3 ESPN()
ESPN上面也会有相关的数据统计,不过个人觉得详细程度不如前面两者,另外上面会有霍林格大神的一些指数分析:2015-16 Hollinger NBA Player Statistics - All Players(insider.espn.go.com/nba/hollinger/statistics)。
2 选秀类
上面主要一些综合类的统计网站,如果要关注选秀相关话题的话题有以下网站推荐:
2.1 DraftExpress(draftexpress.com)
在选秀方面感觉DraftExpress的资料最齐全,除了模拟选秀、球员经纪人、历史选秀等各种跟选秀相关的信息外,最重要的是上面有历年选秀的体测数据:
2.2 myNBAdraft(mynbadraft.com/)
2.3 NBAdraft(nbadraft.net/)
其他的一些选秀相关的网站
3 其他
82games(82games.com/index.htm)
NBAsavant()
以上是本巫自己平时发现的一些资源,此外还有知乎上相关问题的答案总结得也很好,
在哪里能看到全面细致的 NBA 数据统计? - 回答作者: 巴巴罗莎
二 数据收集工具
1 py-Goldberry(github.com/bradleyfay/py-Goldsberry)
py-Goldberry是github一个非常有名的收集NBA相关数据的包,数据来源就是前面提到的。里面好多数据都可以直接通过这个python包获取,在这些数据的基础上可以做一些有意思的事情。
这个包是以Kirk Goldsberry大神来命名的。关于Goldsberry大神在下面的章节还会有更详细的介绍。
三 进阶内容
1 March Machine Learning Mania
从2014年开始Kaggle上面每年都会举行对NCAA疯狂三月的比赛结果预测大赛。地址如下:
kaggle.com/c/march-machine-learning-mania
kaggle.com/c/march-machine-learning-mania-2015
kaggle.com/c/march-machine-learning-mania-2016
这个比赛除了组织方使用的原始数据之外允许参与者使用自己通过其他途径收集到的数据。所以可以看到各路爱好者各显神通,不过从今年比赛公开的方法来看额外的数据源和处理方法已经开始稳定,还是期待明年能有更新颖的方法出来和自己能取得更好的结果。此外有趣的地方还有:
1)、预测的是NCAA季后赛的结果,但是每个赛季只有63场季后赛的样本,历史数据太少很难建立复杂的模型,常规赛数据虽多但和季后赛差异很大,所以如何对常规赛数据进行处理使得可以基于处理后的常规赛数据建立可以预测季后赛的模型是非常关键的;
2)、测试集实在太小了!太小了!!太小了!!!一个赛季也就63场季后赛,因此最后结果的随机成分还是很大的。一命二运三风水,四积阴功五读书。把模型训练好之后还是能排在前面的,但是能不能拿冠军就看命了。
另外从每年参赛者里面时不时能发现一些现实中做体育数据分析的牛人。在2015比赛里面排21名的这位是专业的体育数据分析师,还在火箭队任职过。
下面是他的github,里面有不少干货
github.com/octonion
2 MIT Sloan Sports Analytics Conference()
每年的三月份召开,会聚集很多学界和体育界的专业人士,可以投稿,被录取的paper也会在官网上发布。因为有业界人士的参与,所以本巫觉得里面的paper还是值得一看的,像Patrick Lucey 和Kirk Goldsberry各路大牛都在上面发表过文章。
3 相关研究和论文
首先还是推荐一下这篇综述,下载地址请点这里
[1]Gudmundsson J, Horton M. Spatio-Temporal Analysis of Team Sports--A Survey[J]. arXiv preprint arXiv:1602.06994, 2016.
里面的篮球部分同样总结得很好。
另外重点推荐一下Kirk Goldsberry的工作,大家可以自行搜索。下面会简单介绍有代表性的成果:
[2] Miller, Andrew, et al. "Factorized Point Process Intensities: A Spatial Analysis of Professional Basketball." ICML. 2014.
这篇文章首先建立了一个随机过程来描述球员投篮出手位置的分布,然后对分布矩阵进行分解得到一些出手位置的基础模式(下图出自原文,下同):
从上面可以明显看出来篮下强攻,中投,三分等出手位置的区别。另外文章里面对比分析的两个球员是:
要知道这篇文章大概成稿于2014年1月,结合即将到来的总决赛抢七大战,颇有一种预言成真的宿命感。
不少工作是基于对某一类事件(投篮、篮板……)的统计角度的,没有考虑事件之间的序列关系,不过也有工作是基于事件序列的,比较经典是这一篇:
[3]Yue, Yisong, et al. "Learning fine-grained spatial models for dynamic sports play prediction." 2014 IEEE International Conference on Data Mining. IEEE, 2014.
里面主要讨论了球在运转过程中影响球员传球/投篮选择的因素,包括球员的位置等。下图就表示了在图中站位情况下呆呆不对邓肯各种可能选择的可能性预测(蓝线是传球、黑线是投篮,越粗可能性越大)。我觉得作者一定是个老司机,呆呆、我科、萨克雷、慈世平、皇阿玛全在里面,俨然NBA吐槽圈的半壁江山。
总结
可能是因为篮球在美国比足球要火,所以感觉普通球迷能接触到的跟篮球相关的数据分析资源比足球要多,当然也有可能反映的只是民间爱好者的热衷程度,毕竟NBA各大俱乐部和欧洲五大联赛俱乐部也不会轻易把数据和分析成果轻易流出。
预告
下周就是NBA的选秀了,选秀结果出来之后本巫会用一些基础的技术来对各新秀新秀赛季的表现做一个预测(希望最后不要被打脸),敬请期待。
评论