进行中 【练习赛】新闻智能分类

举办方:达观数据
开始 2019.07.01
组队结束 2019.12.31
结束 2019.12.31
奖励 GPU、技术书籍

参赛团队

47

参赛人数

47

大赛介绍

现代信息爆炸般地产生,信息如海如潮。信息分类,不仅有利于加快信息检索速度,且有利于提高查准率。Internet是信息的重要载体,深入地研究与探讨网上信息自动分类的方法、技术和理论,已成为时代的迫切需求和新的研究热点。

赛题针对文本智能分类技术,请学员们深入分析文本内在结构和语义信息,构建文本分类模型,实现精准分类。

规则及评估

本练习赛以学习交流为主,赛题长期有效。如果你有一定NLP基础,希望充实自己的实战能力或结交志同道合的伙伴,欢迎踊跃参赛,欢迎加入交流群~

扫码添加助手备注“新闻分类”进群~~

description

赛题介绍

通过长文本数据正文(article),预测文本对应的类别(class)

参赛者使用已标记好的训练数据集进行模型训练,然后使用训练好的模型对测试数据集进行推断,推断结果按照要求格式保存为csv文档,上传到TinyMind测评系统,得到评分与排名。

评分标准

采用各个品类F1指标的算术平均值,它是Precision 和 Recall 的调和平均数。F1越高,则结果越好。

$$ F1 = \frac{1}{n}\sum^n_iF1_i = \frac{1}{n}\sum^n_i{\frac{2\cdot P_i \cdot R_i}{P_i + R_i}} \in[0, 1] $$

其中,\(P_i\)是表示第i个种类对应的\(precision\), \(R_i\)是表示第i个种类对应\(recall\)。

提交文件要求

参赛者需要提交如下格式的文件,逗号分割的csv文件,utf-8编码:

idx,labels
0,6
1,3
2,8
3,20
4,3
5,20
6,1
7,13
8,3
......
99977,21
99978,5
99979,9
99980,11
99981,22

idx应与相应的榜单测试数据idx一一对应,分类数为1~27,从1开始的。

数据说明

  • train_data.csv.zip:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有3列:

  • 第一列是文章的索引(idx);第二列是文章正文在“字”级别上的表示(article);第三列是在“词”级别上的表示(article_word)。文件有199963行,包含199962条数据。

  • train_labels.csv.zip:train_data.csv对应的标签。文章共有27个分类,分类编号从1开始。

  • test_data.csv.zip:此数据用于模型验证。数据格式同train_data.csv。文件有99983行,包含99982条数据。

注:每一个数字对应一个“字”或“词”,或“标点符号”;“字”的编号与“词”的编号是独立的;test_data与train_data中文章idx的编号是独立的。

友情提示:请不要尝试用excel打开这些文件!由于一篇文章太长,excel可能无法完整地读入某一行!

本练习赛数据由达观数据提供。感谢达观数据的大力支持!

您尚未登录TinyMind,请 后下载数据

奖励

1、自上线之日起,排行榜前5名达到80分(含)以上的团队将获得由矩池云(MATPool )提供的GPU(2080ti )运算时长100小时,获奖人产生后立即发放。

MATPool 矩池云,国内领先的GPU云共享平台,通过连接闲置的GPU节点,提供稳定而强大的GPU算力,支持多种应用场景,支持Jupyter、TensorFlow等多种环境,助力您的深度学习任务。官网:https://www.matpool.com/?from=tinymind

2、自上线之日起,排行榜前10名达到80分(含)以上的团队将获赠《文本数据管理与分析——信息检索与文本挖掘的实用导论》书籍一本,获奖人产生后立即寄送。

description

简介:信息检索与数据挖掘领域世界知名学者、ACM Fellow、美国伊利诺伊大学香槟分校(UIUC)翟成祥教授厚积薄发之作,基于UIUC数据管理与分析相关课程多年的积累,覆盖作者两门在线课程“文本检索与搜索引擎”和“文本挖掘与分析”的主要内容。 本书以文本数据处理为核心,从理论到实践介绍了文本数据管理与分析的关键问题,广泛涵盖了信息检索和文本数据挖掘领域的主要概念、技术和方法,并包括许多专门设计并辅以配套软件工具包(例如META)的动手练习,来帮助读者学习如何运用文本挖掘和信息检索的技术来分析和处理现实世界中的文本数据,以及如何试验数据和为具体应用任务来改进一些算法。详细介绍:https://item.jd.com/12591034.html

感谢MATPool 矩池云、机械工业出版社华章科技奖品赞助!

description description

学习交流群

扫码添加助手备注“新闻分类”进群~~任何与比赛相关的通知、资料都会第一时间在群里告知。

description

搜索团队
{{panelTitle}}(3)
支持Markdown和数学公式,公式格式:\\(...\\)或\\[...\\]
风雨一程 2019-09-22 10:05

感觉这个任务并不简单啊,数据量很大,标签种类也很多

wblgers1234 2019-08-14 18:15

提示上传文件失败,请问是什么原因呢?

并非菜鸟 2019-08-19 18:32

刷新,多试几次

GDP 2019-07-28 11:23

评分是每天的什么时间进行评分的 是在哪些特定的时间点呢?

阿水真的很严格 2019-07-29 11:12

提交答案之后十分钟内出分好像,排行榜是每天早上刷新。

关注微信公众号