提起科大讯飞,人们总津津乐道于 “让机器能听会说”的先进智能语音技术。其实除此之外,科大讯飞的 “攻城狮们”也一直致力于让机器 “能看会认”。

近日,科大讯飞 A.I. 研究院联合中科大语音及语言信息处理国家工程实验室,以显著优势获得 ICFHR 2020 OffRaSHME 数学公式识别挑战赛冠军。这是科大讯飞继 ICPR 2018 MTWI 图文识别挑战赛上获得三项冠军、ICDAR 2019 CROHME 数学公式识别挑战赛上获得两项冠军后,在复杂版面文档图像识别理解方向上所取得的又一佳绩,再次展现科大讯飞在相关领域的技术先进性。

da39d2c0609445059576b78d702a2518.jpg

离线手写数学公式识别 (官方数据)榜单

dda12b98afbb4d028ca2fc7240e2f6da.jpg

离线手写数学公式识别 (外源数据)榜单

备注:“Correct”表示公式识别的句正确率,“

7cea54f444aa4dd2ba98b60c0576382c.jpg

”和

e02a5ede72ba47a3ae5f86f416dd6442.jpg

分别表示整条公式中允许出现 1 处和 2 处错误的识别的句正确率

技术顶天,掌握图文识别 “金字塔”级别难题 “解法”

此次 OffRaSHME(Offline Recognition and Spotting of Handwritten Mathematical Expressions)数学公式识别挑战赛由 ICFHR 2020(International Conference on Frontiers of Handwriting Recognition)举办,参赛队伍包括韩国三星、东京农工大学、华南理工大学、中山大学等多家常年深耕文档分析理解领域的研究机构。

相比于常规的图文识别,对数学公式的识别难度和技术挑战往往更高。本次 OffRaSHME 官方比赛任务为 “离线手写数学公式识别”,该任务相比 ICDAR 2019 CROHME 的离线手写公式识别任务,难度再度升级,有以下三大难点:

公式结构复杂,尤其是各种结构的嵌套:

86f607a9be26432fa91963a7cac858c1.jpg

难以辨别的形近字符,如 X 和 x,Z 和 2,

30ce85ba4026416a9129422922dae632.jpg

和 r:

6d5177f188de4a99bd06eb483834ff0f.jpg

本次比赛添加了很多非常规符号的组合,容易和公式混淆:

1e8ce99ee5794607b0cef203af379cce.jpg

难度虽高,但这样的任务对于科大讯飞来说并不算陌生。

基于在手写数学公式识别领域深耕多年的技术积累,科大讯飞从基于上下文无关文法的传统数学公式方法到创新性地提出基于 LaTeX 建模的 Encoder-Decoder 识别算法,其中,LaTeX 作为最常用的数学公式表达之一,研究人员将数学公式识别问题看作图像到 LaTeX 序列的翻译问题,借助注意力机制实现更精准的端到端识别能力,该方案在 2019 CROHME 中一举打败了常年占据 CROHME 冠军地位的 MyScript。

而针对数学公式识别中最难的复杂结构嵌套问题,科大讯飞提出了基于树形结构信息建模的 Encoder-Decoder 识别算法,这种算法在复杂公式结构嵌套上更具泛化能力。针对形近符号区分难度大的问题,科大讯飞提出使用基于 LaTeX 语言模型的数据增强策略,利用数学公式的树形结构表达,合理地拆分分解数学公式,并利用这些公式训练 LaTeX 语言模型,最后使用语言模型增强出合理的、符合上下文语义关联的数据,该策略可以很大程度上缓解形近符号识别困难的问题。

通过以上多项技术能力的综合运用,此次科大讯飞以显著优势拿下了此次任务难度极高的数学公式识别挑战赛冠军,证明了其在数学公式识别领域的技术先进性;在实际应用中,学生作业试卷文档存在版面结构复杂、书写风格差异显著等难点问题,这一系统将为其提供更为丰富有效的解决方案。

通过多项技术能力的综合运用,在 “能看会认”上,科大讯飞做得更好了!不仅能识别更复杂的数学公式,还能做到 “中文 + 数学公式”混合搭配的内容识别,此后将在更多 A.I. 产品中应用。

https://v.qq.com/x/page/s3080uld0xk.html

应用立地,打造 “能看会认”的 A.I. 产品

在数学公式识别比赛之外,近期科大讯飞还在另一项自然场景的文字检测分割识别的相关技术成果在 ICDAR ReCTS(Reading Challenge on Reading Chinese Text on Signboard)评测任务取得显著突破,刷新单字识别、文本行识别、文本行检测和端到端识别全部四项榜单世界记录,使得系统在解决复杂场景下文字检测和识别的难题中更为游刃有余。

c1d0c202e7964daa9ce66251f4b3eec7.jpg

这些成绩并非一簇而就。

事实上,科大讯飞在图文识别领域已有多年核心技术积累,拥有自主知识产权,并伴随着每次技术迭代,产品都迎来大规模更新升级,更好满足用户在多个场景下使用需求。

2015 年,轻量级的卷积神经网络首次在手机设备上使用,使得在线手写字符识别任务上取得突破性进展。依托此项技术,讯飞输入法用户手写输入体验感显著提升。

2016 年,CNN-HMM框架在文本行识别任务中得到成功应用,该套系统无需进行文本行切分等规则化的复杂版面分析,有效避免切分带来的错误,使得篇章级的中、英文手写文档识别效果达到人工相当水平。依托此项技术,科大讯飞智能辅助评卷系统能够对语文作文、英语作文、英语翻译、数学填空、英语填空等题型进行辅助评卷,应用全国多省市的中高考,累计处理题卡数量过亿张。

2018 年,基于注意力机制的 Encoder-Decoder 模型在自然场景文字识别任务上大放异彩,融合语言模型进行端到端训练,使得拍照模糊的文字也能通过语言模型 “联想”而被正确识别。依托此项技术,在讯飞翻译机中,对复杂场景下的多种字体也能一拍即译,让拍照翻译更清晰更准确,能够满足更多消费者在国外旅游、购物的场景应用需求。

今年,在数学公式识别任务的诸多关键技术上继续突破,相关核心技术也将应用在讯飞智能学习机等产品中,帮助用户精确地进行大数据学情分析,找到知识点的薄弱项,实现 “个性化精准学”,帮助广大同学提升学习效率、巩固学习效果。

在技术应用的过程中,手写图文识别也与智能语音等关键技术深度融合,让大家切实感受到技术进步带来的高效、便利性。如 “出口成章,跃然纸上”的讯飞智能办公本,可以实现语音直接搜索手写笔记内容,“一句话找到手写笔记”,满足用户在更多笔记场景下的记录、写作、搜索、多端同步需求,有效提高办公效率。

在即将到来的 618 年中大促中,还有更多产品将和大家见面,大家可以进一步、零距离体验这些新技术。

坚守人工智能道路 21 年,科大讯飞不断攀越技术高峰,在智能语音、计算机视觉、自然语言理解等技术领域摘得一项又一项桂冠,但这并不是终点。科大讯飞将始终秉承 “顶天立地”的技术信仰,打造一件件 “能听会说”、“能看会认”、“能理解会思考”的人工智能产品,用人工智能点亮人间烟火。