数据解密世界杯足彩预测模型 内马尔害巴西?
2014年7月9日 06:25 来源:南方都市报
原标题: 数据解密世界杯足彩预测模型 内马尔害巴西?
内马尔受伤了,散落世界各地的数据分析师立刻忙碌起来,电脑里原有的算法和模型被迅速修正,巴西对德国的足彩赔率随之变化。
南非世界杯有“神算子”章鱼帝保罗,巴西世界杯也活跃着一群“数据章鱼”,手握大数据分析和算法模型,预测球场胜负,影响足彩赔率。他们既不属于体育产业,也不属于体彩产业,却深刻地影响两者的趋势。
互联网推力
上班族柯彬彬早早把闹钟调到了7月9日凌晨4点,等着半夜爬起来看巴西对德国的半决赛。他在手机上为德国队下了一百元的注,这也是他第一次玩足彩。“我看好德国,巴西前锋乏力,内马尔受伤、席尔瓦停赛。”
不少用户因为世界杯效应、互联网平台提供的购彩入口及移动便捷支付,开始人生中第一次购彩。本届世界杯,中国互联网彩票全面进入“移动时代”和“社交时代”。
国家体育总局体育彩票管理中心竞猜游戏管理处处长刘岳冶公开预测,巴西世界杯期间竞猜型体彩销量将突破100亿元。实际上,截至7月6日,60场比赛光足球竞彩(不含冠军及冠亚军游戏)已经销售96.9亿元。而北京单场的世界杯销量达到20 .22亿元。
数据显示,本届世界杯期间竞彩有70%以上销量来自互联网,北京单场90%以上来自互联网渠道。微信、淘宝、微博等平台加入彩票大战,它们具备天然的流量和用户优势。
世界杯期间,各平台还精心策划活动,比如微信购彩送红包等,放大用户流量导入效果。另外微信彩票提供购彩后在朋友圈晒单的功能。
中国彩票行业沙龙创始人苏国京认为,与4年前的南非世界杯相比,互联网足彩有了质的变化。当年没有手机客户端概念,现在网民可以在A PP上投注,投注之前还能自己做个简单的大数据分析。
更明显的变化在于近两年的“数据热”,预测比赛结果不再只是博彩公司精算师的专利,跟数据相关的公司也在关注博彩行业,还有公司尝试用自己的预测来“对抗”博彩公司。
谁家预测准
等待巴西与德国对决的前夕,点击百度,对决信息下紧跟足彩信息,德国胜赔率2 .63,巴西胜赔率2.72,球迷和伪球迷可以随时掏出手机,用真金白银来预测自己支持的球队。
与其他数字彩票不同,竞技彩票足彩极具可预测性,中奖率也高于其他彩票玩法,大到俱乐部,转会市场,球星,博彩公司,小到阵形,天气,电视转播等,每个因素都会影响预测。
国内某彩票研究院大数据团队负责人介绍,博彩机构会根据历史数据作出一个预测赔率,当越来越多的用户投注时,赔率会随着比例的变化而调整。另外,他们也会参考全球各个机构开出的赔率。
对博彩机构来说,只要最后赔率的差额保证他们的盈利就行,真正对预测有热情的,是擅长跨界的互联网公司,他们各出奇招吸引人流。其中一张王牌,就是赛事预测。
身为时代先锋,互联网公司更懂得挖掘数据,基于云服务,配以不断更新的模型,为用户提供更具互动感的预测体验。
谷 歌 公 司 推 出 新 一 代Clo u dD ataflow大数据处理模型框架,当头案例就是实时监测用户观看世界杯时在T w it-ter上的反应和趋势。当大多数公司仍把数据用批处理的方式分析建模时,谷歌打破了批处理和实时处理的鸿沟,从而更有利于实现实时预测。
相比之下,百度大数据部预测准确率更高。百度将过去三年里全球所有国家队及俱乐部19972名球员1.12亿条赛事数据收入囊中。
擅长数据搜集和处理的金融领域也不甘示弱。高盛在赛前发布了《世界杯与2014经济》报告,收集了1960年以来1.4万场赛事数据,高盛对每场对阵进行10万次蒙特卡洛模拟,确定比分和胜负。
高盛没有采用任何博彩公司的赔率数据,只在16强后利用新的赛事结果数据更新预测,并且对结果相当坚持。更大胆的是,高盛还向博彩公司开出的赔率进行挑战,虽然事实证明其结论并非更高明。
更笃定的分析来自德国科隆体育学院。他们模拟了10万次比赛后,发现巴西夺冠次数超过6万次,因此在赛前发布的新闻稿里预测巴西会夺冠。
繁多的预测报告中,科隆是唯一一个在赛前把4强预测对的机构。他们在数据模型基础上加入了一些专业级的判断,这也是其他公司望尘莫及的地方。
苏国京认为,互联网公司参与世界杯竞彩,与其说是世界杯热,不如说是大数据热。“大家牵强地把任何东西都往里加,都希望从中挖掘一些出来,给一些投注依据。”
然而,足彩大数据分析要走上正轨,仍面临着数据源和预设值的设定两个难题,大多数公司从网上抓取免费信息,这是远远不够的,但公司不可能为了一个小研究有偿买长周期的数据服务。另外,由于一场球赛中涉及到的人为因素非常多,预设值是需要进行长时间的考证和修正的,目前尚没有任何明确的公认标准。
数据哪里来
“巧妇难为无米之炊,模型再好,没有数据,也是白搭。”淘宝技术部“世界杯程序预测大赛”负责人岩岫介绍,比赛是为了推动Spark大数据框架技术。这套技术兼具批处理与实时处理功能,与G oogleD ataflow异曲同工,还具备开源的优点。
岩岫告诉记者,数据的选择在预测中甚是重要。除了历史战绩和排名这类基本数据,还包括场地和自然环境的因素,例如是否主场、是否本州,有的甚至考虑到每天不同时段的炎热指数。
另外,赔率的使用,队员、球队的信息也都影响着最终结论。“有一支预测大赛的参赛队伍在描述每支球队时,每一个位置都给了一个评价数值。”
在数据的实际运用中,各公司亦有千秋。雅虎专注于记录社交网络用户的心声:统计他们提到球队的次数,以此计算球迷们心目中对各球队夺冠的展望;Q Q通过统计用户投票来预测赢家;谷歌则采用英国数据商O pta的实时数据,加上不同联盟杯赛多个赛季的数据、世界杯小组赛各组的统计。
不管数据的来源为何,分析员最后都会将其整合成模型,“双变量泊松回归分析法”是常用方法。“泊松分布”为法国数学家西莫恩·德尼·泊松发现,用来估测人们作出错误判断的几率。而“双变量”指的是在作出某个单一结果的预测时需要参考两个相互影响的因素,比如一场比赛中的X队和Y队的表现。“回归分析法”可用来将即有数据填充到模型中,建立起因果关系。
根据前述大数据团队调研发现,无论是专业体育机构、数据分析公司还是互联网公司,大都采用基于泊松回归的数据化模型,分析方法大同小异。
不同的地方在于,擅长建模的金融公司和专业体育机构倾向于正式发布赛前报告,他们使用历史数据预测分析,较少更新数据和模型;而使用实时数据的互联网公司对大数据的把控能力更强,模型很有核心竞争力。
各家预测
数读足彩
5月报告里16强预测对了9队,8强对了5支。16强出炉后高盛及时修正模型,对16进8比赛胜负进行预测,8场全对,4强也完全正确
预测里48场胜平负对21场,但比分只对了2场
16强进8强预测对了6队,4强全对,但16强预测对的数量只有8家
世界杯前期并未发布任何预测,最近高调宣布成功计算对了16强进8强的8场胜平负结果
48场小组赛中,他们胜平负对了28场,准确率58%。比率远高于高盛和彭博的预测。16强预测对了10强。在16强进8强预测对了6队,4强全对
截至2014年7月6日,世界杯比赛60场比赛,光足球竞彩(不含冠军及冠亚军游戏)已经销售96.9亿元
若将竞猜型体彩包括的传统足彩及北京单场,以及竞彩足球冠亚军玩法、冠军玩法等全计算在内,世界杯销量将要挑战130亿-150亿元
本届世界杯期间竞彩有70%以上的销量来自于互联网,北京单场的销量更是有90%以上来自互联网渠道
据淘宝方面的数据显示,淘宝彩票购买足彩的人数超过400万