TinyMind 汉字书法识别自由练习赛(初级难度) 进行中

开始 2018.04.02
组队结束 2018.12.31
结束 2018.12.31
举办方:TinyMind
团队538 人数606

大赛介绍

书法是中国及深受中国文化影响的国家和地区特有的一种文字美德艺术表现形式,书法也是一种特殊的汉字手写字体。

手写字体识别一直是人工智能领域一个热门研究方向,这次我们联合书法领域的权威合作伙伴举办这次书法字体识别大赛,给广大人工智能和手写字体识别技术爱好者提供一个练习和交流的机会,也希望能通过这次比赛发现一些该领域的技术人才。

本次比赛考核的是单字书法图片的文字识别,识别准确度越高得分越高,相应的排名也就越靠前,具体规则和数据可以参考相关说明。

优胜者将获得《中国软件协会智能应用服务分会》颁发的证书和奖品。

适合人群

  • 对人工智能、深度学习或计算机视觉感兴趣的零基础爱好者/职场人士;
  • 以从事人工智能,深度学习或机器视觉相关工作为目标的高等院校在校生;
  • 渴望提高人工智能和深度学习以及计算机视觉技能、工作效率的技术工作者

欢迎大家踊跃参赛,积累宝贵经验,不断优化算法,精益求精。

学习交流群

扫码添加助手备注“竞赛”进群~~任何与挑战赛相关的通知、资料都会第一时间在群里告知。

参赛者使用已标记好的训练数据集进行模型训练,然后使用训练好的模型对测试数据集进行推断,推断结果按照要求的格式保存到csv文件中(具体格式见"规则"),由队长提交到平台,平台会自动对推断结果进行打分。排行榜每天更新,以每个团队所有提交中得分最高的一次作为排名依据。

测试数据集分为两个部分,分别对应两个排行榜,第一部分作为参赛队伍验证自己的模型使用,不作为最后评奖的依据,第二部分作为最终获奖排名的依据,为了防止作弊,第二部分的测试数据集会在比赛的最后阶段给出,前期参赛队伍只能拿到第一阶段的测试数据集。

导师介绍

任何问题,可在竞赛交流群向老师问题~~~

自由练习赛阶段,不提供奖品。

挑战赛以学习交流为目的,在动手实践中学习并巩固相关知识点,共同进步。

最终榜单前十名可在以下图书中任选一本!

前10名参赛团队获得由《中国软件行业协会智能应用服务分会》颁发的TinyMind第一届汉字书法识别挑战赛优秀团队/个人荣誉证书

感谢机械工业出版社华章科技友情赞助! 华章科技成立于1995年,是机械工业出版社华章公司创立最早的子品牌,专注于为计算机、电子工程等IT领域的专业读者提供学习解决方案。

竞赛数据提供100个汉字书法单字,包括碑帖,手写书法,古汉字等等。图片全部为单通道灰度jpg,宽高不定。

训练集:

训练集每个汉字400张图片,共计40000张图片,供参赛人员测试和开发参赛算法模型,训练集是标注好的数据,图片按照图片上的文字分类到不同的文件夹中,也就是说文件夹的名字就是文件夹里所有图片的标签。

测试集分两部分:

第一部分每汉字100张图片共10000张图片,在竞赛过程中,开放数据下载但不提供标签。比赛中第一阶段的排行榜对应参赛队伍第一部分数据的评测得分,这部分得分和排名不影响比赛的最终成绩,其目的是供参赛人员测试算法模型。

第二部分测试数据每汉字50张以上图片(单字图片数不固定)共16343张图片,比赛的最后阶段公开下载,不提供标签。

最终比赛结果以参赛队伍的算法排名在第二部分测试数据上的结果为准。

自由练习赛数据下载地址:

训练集:链接: https://pan.baidu.com/s/1UxvN7nVpa0cuY1A-0B8gjg 密码: aujd

测试集: https://pan.baidu.com/s/1tzMYlrNY4XeMadipLCPzTw 密码: 4y9k

4、挑战赛交流群,请扫码添加助手备注“竞赛”进群~~

任何跟挑战赛相关的通知、资料都会第一时间在群里告知。

*本挑战赛数据由中国书法网提供并持有版权。中国书法网( www.shufa.com )是由山东省当代艺术教育研究中心主办,是以书法为主要内容,汇集国画、篆刻等艺术门类为一体的综合性艺术门户网站。

*本数据有中国书法网提供并保留相应权利,参数人员不能把数据用于除参加本次比赛的其他目的,不能把数据共享给第三方或者发布到公共领域供第三方下载,不能利用本数据形成最终的产品或者服务。

1、测试集分两部分:

第一部分每汉字100张图片共10000张图片,在竞赛过程中,供参赛人员测试算法模型使用,开放数据下载但不提供标签。比赛过程中,参赛队伍排名以第一部分数据的结果为准。

第二部分测试数据每汉字50张以上图片(单字图片数不固定)共16346张图片,比赛后期公开下载,不提供标签。

最终比赛结果以参赛队伍的算法排名在第二部分测试数据上的结果为准。

决赛结束后,本竞赛开放为自由练习阶段。

2、参赛者须提交csv格式的运行结果,格式如下:

文件第一列是测试集中图片文件的文件名,第二列是参赛队伍推断出来的图片上文字的可能的五个汉字(每个图片上一个汉字,但是参赛队伍可以给出5个可能的值)。

经竞赛方数据审核后,准确率较高的参赛者获胜。 Csv文件编码统一使用utf8编码,因编码问题导致评测失败的不予排名。

PS: 目前已开放TOP1高难度榜单,用户自选,不参与最终排名。有时间精力的同学可以进一步挑战。

我的提交-切换到【高难度挑战】TOP1榜单,然后在右侧【提交】即可。

3、团队最大人数为5人

4、挑战赛交流群,请扫码添加助手备注“竞赛”进群~~

任何跟挑战赛相关的通知、资料都会第一时间在群里告知。

名次 获奖团队
搜索团队
评论(10)
支持Markdown和数学公式,公式格式:\\(...\\)或\\[...\\]
图图 2018-10-12 18:00

https://github.com/worksking/Charactor-Recognition ,这是我的代码,是基于pytorch 0.3, python 3.6的,top5有97.78,top1也超过93,后面没怎么花时间优化了,有兴趣的可以再优化一下。

chen-sunshine 2018-07-23 16:57

训练集的数据在哪下载?多谢!

NiceSoup 2018-06-08 13:21

为什么训练的时候,正确率是97%,提交上去只有15%呢

阿花菌 2018-06-13 11:56

进群咨询,很多人和你一样

红耳 2018-06-04 15:31

提交成功了 为什么得分是0? 我检查了几个是正确的 不可能是0?

阿花菌 2018-06-13 11:56

进群咨询 有几个人跟你一样

rengongzhizhang 2018-05-05 19:42

数据源可以提供torrent或者其他下载方式吗?百度网盘国外根本下不动啊 :(

AI壹对壹 2018-05-05 20:04

可以自己转存到自己的百度网盘, 然后下载就很快。

suxi的deep_travel 2018-05-03 16:14

https://github.com/610265158/tinymind_competition

用mxnet做的比较简单 0.985上下, 可以供大家参考

suxi的deep_travel 2018-05-11 16:39

update, 更新了一下 0.989+了, 稍加技巧是可以训练到单模型0.99的: )

suxi的deep_travel :@popper0912 2018-05-06 14:19

resnext50,其他的网络也都可以,我都试过

popper0912 2018-05-05 09:04

用的什么网络结构

yxzt 2018-05-04 16:52

thx

挠挠-王奇勋 2018-04-26 22:06

搜索队伍那里,功能不能使用。。。。

Jason :@挠挠-王奇勋 2018-04-27 14:08

不客气

挠挠-王奇勋 :@Jason 2018-04-27 11:08

谢谢您!!十分感谢!!

Jason :@挠挠-王奇勋 2018-04-27 10:00

我的主页里有组队请求

挠挠-王奇勋 :@Jason 2018-04-26 22:49

您好!请问队员申请加入团队后,去哪里处理这个申请啊

Jason 2018-04-26 22:34

收到

阿花菌 2018-04-20 15:29

【参赛经验】深度学习入门指南:从零开始TinyMind汉字书法识别—by:link https://www.tinymind.cn/articles/116

【参赛经验】汉字书法识别入门—by:真的学不会 https://www.tinymind.cn/articles/122

感谢上面两位同学的分享,如果有其他同学想动笔写写笔记,欢迎投稿到tinymind~~

核桃大枣 :@勇敢的仙人掌9 2018-04-25 09:08

同样是这个问题,不知是否解决

勇敢的仙人掌9 2018-04-23 23:23

训练到 98.4 了,但是不知道怎么保存预测结果 csv ,过两天一定搞出来,提交。

啥也学不会 2018-04-16 11:45

https://github.com/FlyEgle/chinese_font_recognition 大家可以用来练手,刷到99没问题。加油吧

小白 :@勇敢的仙人掌9 2018-06-26 20:51

大佬,你用的tensorflow代码可以分享给我嘛

勇敢的仙人掌9 2018-04-23 23:22

感谢分享,我用的是 TensorFlow ,你的保存 csv 很有用。

dwSun 2018-04-13 10:20

一种划分测试集的方式(linux shell)

for d in $(ls datadir); do                        
    for f in $(ls datadir/$d | shuf | head -n 100 ); do
        mkdir -p valid_dir/$d/
        mv datadir/$d/$f valid_dir/$d/;
    done;
done

这里,每个目录拿出100张图片作为验证集,目录需要根据需要设置

啥也学不会 2018-04-14 11:49

谢谢,不过我自己也有python脚本。我有浮动的ratio可以随机划分