第二届易观算法大赛自由练习赛——性别年龄预测 进行中

开始 2018.08.29
组队结束 2018.12.31
结束 2018.12.31
举办方:易观
团队477 人数544

大赛背景

易观算法大赛是由易观主办、面向全球技术人才的赛事,旨在激发算法创新,释放数据价值,培养数据人才,促进大数据与实体经济深度融合。通过开放海量的真实数据,用最前沿热门的研究课题,向全球征集更聪明的解决方案,优秀成果有机会将其应用于易观的产品端。

第二届易观算法大赛将由TinyMind与易观联合举办,诚邀全球的算法天才们走进大数据的世界,寻找世界性难题的解决方案。

赛题介绍

当前社会,几乎人人都离不开手机。人们每天使用手机进行上网、购物、社交、办公等等。手机几乎承载了一个人全部的行为和偏好。那么我们对手机设备的用户画像就变得越来越重要了,它不但能帮助APP企业了解自己用户的行为特征,迭代产品;还能帮助企业更精准的投放互联网广告,节省广告费用。

本次算法大赛,要求参赛者根据平台提供的设备数据、应用数据等,进行模型训练,并用训练好的模型预测测试数据的性别和年龄。

一个设备ID会有唯一的性别和年龄段。性别有1、2两种可能值,分别代表男和女。年龄段有0到10十一种可能,分别代表不同的年龄段,且数值越大相应的年龄越大。一个设备只属于一个唯一的类别(性别+年龄段),共有22个类别。

参赛对象

秉承开放、共享的大数据精神,本次大赛面向社会各界开放,高校、科研院所、企业从业人员及有志于大数据技术与研究者,均可以个人身份组队报名参加,海外参赛者亦可报名参与。

竞赛交流群

扫码添加助手备注“年龄预测”进群~~~任何与竞赛相关的通知、资料都会第一时间在群里告知。

主办方

TinyMind易观

本次竞赛以开源组与商业组榜单名次为最终获奖依据。提交评测截止时间为10月16日 24:00

评分方式

假设测试数据有N个设备,则算法的评估通过logloss进行评判:

其中i代表设备,j代表类别,yij代表该设备是否属于该类别,取值为0或1,pij为预测出来的设备属于该类别的概率,取值0到1之间。

提交格式

预测结果的csv文件,格式按照以下示例,1-0代表男性,第0个年龄段。编码统一使用utf8编码。

DeviceID, 1-0,1-1,1-2,…,1-9,1-10,2-0,2-1,2-2, …,2-9,2-10

1111111, 0.05,0.05,0.05,…,0.05,0.05,0.05,0.05,0.05,…,0.05,0.05

注:提交的文件中,从第二行开始,每一行概率之和应为1(绝对误差小于1e-6)

本次竞赛分为2组,开源组和商业组。参赛者可自行选择分组进行排名。(提交结果时选择相应排行榜即可)

开源组设置奖金池和排行榜,商业组最后设置排行榜。

开源组奖品:

活动结束时,开源组排行榜前三名分别获得冠军、亚军、季军名次。

冠军:奖金5万元人民币(税前)+荣誉证书

亚军:荣誉证书

季军:荣誉证书

商业组奖品:

活动结束时,商业组排行榜前三名分别获得冠军、亚军、季军名次。

冠军:荣誉证书

亚军:荣誉证书

季军:荣誉证书

人才绿色通道:

社招:前三名易观直接提供Offer

校招:前十名易观直接提供实习岗位

数据介绍

数据下载链接: https://pan.baidu.com/s/1nKQOe_6m-hnPRWNxvVfOdA 密码: gc99

(下载慢的同学可进群了解加速方法)

(1) 设备数据:每个设备上的应用安装列表,设备应用名都进行了hash处理【deviceid_packages.tsv】

(2) 应用数据:每个设备上各个应用的打开、关闭行为数据【deviceid_package_start_close.tsv】---本数据第三、第四列是带毫秒的时间戳,表示应用打开关闭时间。

(3) 机型数据:每个设备的品牌和型号【deviceid_brand.tsv】

(4) APP数据:每个应用的类别信息【package_label.tsv】

(5) 训练数据:每个设备对应的性别、年龄段【deviceid_train.tsv】

(6) 测试数据:提供设备ID供参赛者进行模型验证【deviceid_test.tsv】

(7) 性别年龄对照表

1、竞赛任务

参赛者根据平台提供训练数据进行模型训练,并用训练好的模型预测测试数据的性别和年龄。 一个设备ID会有唯一的性别和年龄段。性别有1、2两种可能值,分别代表男和女。年龄段有0到10十一种可能,分别代表不同的年龄段,且数值越大相应的年龄越大。一个设备只属于一个唯一的类别(性别+年龄段),共有22个类别。

竞赛时间:8月29日-10月16日

2、提交内容

榜单互不冲突,可单选或全选,每天最多提交5次

商业组:

(1)算法说明文档或PPT

(2)测试数据的预测结果

开源组

(1)算法说明文档或PPT

(2)算法源代码

(3)测试数据的预测结果

注:开源组参赛者务必在活动结束前,通过下图方式,将文档及代码上传至后台,否则该成绩无效,请参赛者务必牢记。

3、提交格式

预测结果的csv文件,格式按照以下示例,1-0代表男性,第0个年龄段。编码统一使用utf8编码。

DeviceID, 1-0,1-1,1-2,…,1-9,1-10,2-0,2-1,2-2, …,2-9,2-10

1111111, 0.05,0.05,0.05,…,0.05,0.05,0.05,0.05,0.05,…,0.05,0.05

注:提交的文件中,从第二行开始,每一行概率之和应为1(绝对误差小于1e-6)

4、比赛小贴士

本次比赛可以个人形式或团队形式参与,每团队不超过5人,第一个创建团队的人是队长。

如果个人参赛有难度,又无团队,可加入竞赛交流群,欢迎线上组队。

5、竞赛交流群

扫码添加助手备注“年龄预测”进群~~~任何与竞赛相关的通知、资料都会第一时间在群里告知。

名次 获奖团队
搜索团队
{{panelTitle}}(14)
支持Markdown和数学公式,公式格式:\\(...\\)或\\[...\\]
阿花菌 2018-12-07 16:54

前三名代码开源地址:https://github.com/analysys/2018_Analysys_2nd_Algorithm_Competition

Top00000000000000001 2018-10-14 22:45

手生了,唉!

Top00000000000000001 2018-10-14 22:19

经典陷阱:买就送陷阱

wei 2018-09-29 16:51

我想问一下,APP类型是不是不全啊,有很多APP id 在类型文件里找不到。。是我下载的数据有问题么

xxllp 2018-09-29 20:49

不是,就是不全的

天大狂徒 2018-09-19 16:30

如果将性别和年龄分别预测,会发现效果有所下降。 我猜测是,在不同性别下,相同年纪的用户常使用的app有很大差别,比如说,男20用虎扑snkrs,女20用小红书蘑菇街...但可能女25开始用虎扑了呢... 无法预测女生心态

阿花君霸占路人 2018-09-17 17:17

参赛经验1

开源一波 https://github.com/neuronblack/yiguan

线上1.19128 思路:对packages使用lda算法,主题数设置为5----由neuronblack 分享

参赛经验2

匿名开源的大佬——https://www.tinymind.cn/articles/3736

现在好像流行开源完就跑啊。。。

xxllp 2018-09-17 16:38

这个提交的代码不需要能跑吧

无解大数据 2018-09-14 10:10

请问,今天的结果为什么不给验证了?

无解大数据 :@阿花菌 2018-09-14 11:14

好的

阿花菌 2018-09-14 11:07

稍等

Jervis_Juar 2018-09-13 11:07

请问 应用数据:每个设备上各个应用的打开、关闭行为数据【deviceid_package_start_close.tsv】中的第三列和第四列代表什么意思呢

阿花菌 2018-09-13 14:59

带有毫秒的时间戳

爱上静静的傻子 2018-09-11 09:15

这个比赛是两个组都能参加吗

阿花菌 2018-09-11 16:01

可以,但提交次数是2边一共5次哈

关注微信公众号