阿里大数据竞赛非官方指南第一季终结篇
2014-04-17 00:00:00

一部分指南,一部分评价阿里的比赛,一部分收获感受。少量指南,大量闲话,参赛者慎重围观,官方强势围观。

指南

第一季要结束了,其实没啥太多指南的了,只有几条小小的建议,大神可无视。

  • 训练和测试的数据量都很小,大部分模型如果特征太多的话可能都会过拟合,所以在选择特征的时候要慎重,尽量选比较显著的。
  • 反正都到最后了,什么方法都可以试一下,基于业务基于算法都可以,没必要死钻一个方法,机器学习的前提也是人要会学习。
  • 尽量让方法互补,比如一种用久远的数据预测,一种用近的数据预测;或者一部分预测一类人的,一部分预测另一类人的。
  • 多个方法的结果尽量保证每一部分预测量少但是准确率高,可以用一堆准确率高的小结果合并出一个比较均衡的结果。

比赛评价

鉴于博主7月份毕业很可能就去阿里了(签了个意向,没有实习也还没入职,所以还算无关人士),好的评价就不说了,毕竟作为一个阿里这种级别的公司做的好是应该的,主要讲不好的地方。

整体感受:总体说的过去,比赛开始前没有完整的计划,细节部分粗糙。

有了一日一测,每个人都有更多机会进榜,前面的人也不能踏实,比赛的可玩性明显增加了。可是官方数据集合规则方面的缺陷,让这个机制不是那么完美。

大概阿里没想到会有这么多人来比赛,准备明显不充足,包括线上一日一测、马甲、认证、海外选手参赛之类的事情都是随着比赛进行不断加进来的。虽说这个比较像互联网公司的作风,但是作为一个比赛组织成这样就说不过去了。毕竟此类的比赛阿里可能是第一次,但可以借鉴的例子实在是太多了。有那么多成熟的赛制摆在那里,乃们拿出来的是个这么简陋的几乎可以说没有怎么设计的赛制,乃们做成这样搞比赛的同行们都知道么?

细节方面想吐槽的地方就太多了……那个论坛应该没有经过很好的测试吧,第一次发帖的时候加链接加了好几次才加上,加上后发现跳转的时候带了一些奇怪的参数,把我博客的统计和评论系统都搞乱了,害的我之后发帖只能贴纯文本的链接,不敢用编辑器里的链接。论坛的富文本编辑器还是回炉测一遍吧,怀疑没做好浏览器兼容。

整个网站美工方面就不说了,好看的地方比较难找就是了。用户系统也很奇怪,报名队伍两个人结果只有一个人能看队伍信息查成绩,这个你们当初是这么设计的么,而且比较奇葩的是我用我的账号创建队伍,设的另一个人队长,结果我们队长什么都干不了,每次都是我的账号弄的。那个上传文件的地方还有bug,我的文件名一长,上传之后就会显示一个很奇怪的截断文件名,弄得我好几次都以为传错了。还有就是哪个基本信息页真心太难看了。

各种细节方面的粗糙都很伤体验,毕竟最终拿奖的就那么几个人,这么多人来比赛,弄得一群人体验不好其实对公司也很伤吧。如果之前没料到这么多人的话,那么现在已经有这么多人关注了,希望官方能投入更多的精力,让大家的体验好一些。反正现在的细节体验不像一个大公司的做派,但是考虑到阿里其他的一些产品,他们的细节…………让我对第二季不禁有着深深地忧虑。

由于比赛前的准备不足,初期问题频发,还好官方有着一系列的跟进措施,不过可能主办比赛的人大部分是业务团队不是直接面向客户的,感觉举措言辞都有些生硬,有种强推价值观的感觉。可能作为一个普通客户这样宣泄一下是可以的,不过作为大赛主办方的服务人员,这么做就有些让人不舒服了。毕竟不管你是做技术的还是team leader 给参加比赛的人来看都是客服或者懂技术的客服的角色,服务水平还是第一位的。再碰到比赛中爆发问题的情况可以请教一下阿里的公关或者客服团队看看怎么能柔和的处理这些事情。

反正我去阿里也到不了数据团队,也找不到我的麻烦,吐槽不嫌事大,权当提个建议。

个人收获

博主也是个菜鸟,通过比赛从大神那里学到了很多知识,获益匪浅。通过比赛第一次碰到真实数据真实问题,有收获,玩的开心就足够了。承蒙诸位厚爱,博客在比赛的这个周期内总访问量居然破万了,要知道我之前两年的总访问量也就7k多。还有大牛帮我发现了网站挂马的问题。

然后收到了第一笔donation,虽说博主还没那么缺钱,但是写的东西第一次创造价值,感觉还是还幸福,就好像突然被照亮了。第一笔donation已经捐给壹基金了,把那位同学的礼物和正能量传递下去。最近打算给博客加一个赞助人页,赞助的同学愿意的话可以把姓名、微博、个人主页链接什么的私信或者邮件发给我,我可以在博客上宣传一下。

鉴于比赛结束后就没法在论坛上发帖宣传新博文了,大家可以参考下面rss或者微博的方式获得博客的最新更新。最近读python文档收获良多,之后可能会出一个系列python相关的博文。最后我们是来自北京大学名字多变的葫芦娃队,如果评选最萌队名记得投我们一票。