日前,第 24 届国际模式识别大会 ICPR 2018 在北京国家会议中心召开,这也是其创办以来第一次在中国内地召开。讲者包括南京大学周志华教授,香港科技大学权龙教授,福特汽车公司高级技术主管 K. Venkatesh Prasad,牛津大学 Alison Noble 教授。除了阵容强大的讲者,这次会议还包括多个研讨会、讲习班等,其中不乏中国企业和高校的身影。

ICPR 2018 上,阿里巴巴举办首届深度学习文本分析与识别研讨会-阿里客栈

会议首日,阿里巴巴「图像和美」团队联手华中科技大学、中科院自动化所共同举办首届 Deep Learning for Document Analysis and Recognition 研讨会。此外,阿里巴巴「图像和美」团队联合华南理工大学共同举办的 ICPR MTWI 2018 挑战赛也在当天进行了报告和颁奖,这一挑战赛基于阿里标注并公开的 MTWI 数据集,这是现有难度最大、内容最丰富的网络图片 OCR 数据集,也是阿里首个公开的 OCR 数据集。

Deep Learning for Document Analysis and Recognition 研讨会主席王永攀目前是阿里巴巴「图像和美」团队读光 OCR 负责人,她对雷锋网AI 科技评论表示,举办此次研讨会的原因有二,「一方面,希望向大家展示阿里在 OCR 上的一系列工作;另一方面,想把阿里关注 OCR 这件事情告诉大家,吸引到更多的学者教授来关注阿里所关注的问题。」

她进一步说道,阿里 OCR 团队对外发声并不多,但实际上,在阿里集团内部,读光 OCR 的应用已经非常广泛,早在 2016 年,他们就已经实现了大规模的集团内系统。目前,读光 OCR 在办公自动化、文档电子化、数据智能等场景均有应用。

华中科技大学白翔教授也是此次研讨会主席,负责部分讲者的邀请以及程序上的安排。他的主要研究领域为计算机视觉与模式识别、深度学习,已在相关领域一流国际期刊和会议如 PAMI、IJCV、CVPR、ICCV、ECCV、NIPS、ICML、ICDAR 上发表论文 30 余篇。

对于与阿里携手举办这次研讨会的契机,他表示,此前他曾与阿里「图象和美」团队进行过一次学术交流,阿里在 OCR 产品落地方面所取得的成绩令他印象深刻。「王永攀和阿里巴巴的小伙伴成功将我之前的工作 CRNN 落地于中文识别,在网络文本识别上取得了 90% 以上的惊人识别精度。这在 CRNN 原著论文里也不曾做到。」

但他们双方都感到 OCR 的实际需求和学术研究之间存在着两大方面鸿沟:1)现有的公开 OCR 测试集并不能完全反映实际应用里面临的一些瓶颈问题;2)工业界一直有在关注学界关于 OCR 的研究进展,但面对面交流的机会太少,影响了 OCR 产业化的进程。

针对以上问题,他们经过多次反复协商,共同完成了 ICPR 2018 MTWI 挑战赛和 OCR 学术研讨会。「非常高兴阿里巴巴起到了表率作用,免费开放一大批数据给学界,并参与组织了一次成功的学术研讨会。希望这次成功的尝试是未来工业界与学术界更加紧密合作的一个良好开端。」白翔如是表示。

这次研讨会的报告嘉宾有 IAPR 主席 Simone Marinai 副教授、华南理工大学金连文教授、海得拉巴信息技术国际研究所(IIIT Hyderabad)C.V.Jawahar 教授、码隆首席科学家黄伟林、阿里高级算法专家赵华厦、阿里读光 OCR 负责人王永攀,讨论内容涉及文档图像分析、端到端识别、信息提取等多个话题。

王永攀表示,希望能和大家一起合作,让这次研讨会发挥实际意义,让更多 OCR 产品与技术走出去。

研讨会特别设立圆桌讨论环节,议题是深度学习在 OCR 和 DAR 上的未来发展趋势。对于这些问题,王永攀、白翔也与雷锋网 AI 科技评论进行了更进一步的探讨。以下为问答环节:

问:文字识别任务场景众多,例如手写、场景、文档,追求端到端统一的解决方案是否可行?是否有必要?

王永攀:在特定场景,端到端的方案是可行的,但可能不是最优解法。端到端的方法看起来比较优雅,但是会导致更大的不确定性,比如可能会导致问题定义不清,网络参数和训练数据都会剧增。我们也在尝试一些端到端的方案,端到端的本质是打破算法之间的壁垒。以文字识别为例,端到端表面上看似乎是去掉了检测的流程,直接由整图得到文字内容,实际上这是一个试图打破检测和识别壁垒甚至矛盾的过程。在研究者意识到检测和识别之间有不可调和的矛盾时,当他们试图解决这个矛盾的过程中,会诞生出很多新的思想和方法。我们觉得在尝试打破检测识别壁垒这条道路上走下去是没问题的,至于最终是不是端到端反而不那么重要。

深度学习目前取得的突破也得益于数据集的发展,基于此,圆桌讨论上也提出如下问题:为了促进学术发展,学术界需要哪些数据集,需要什么样的数据集?怎样才能激励数据拥有方提供数据?

王永攀:首先,我们认为数据集不仅是数据,构建数据集是一个系统工程,「图像和美」团队在《视觉求索》上发表的文章「如何做一个实用的图像数据集」对数据集的建立有系统的描述:

数据集奠定的技术发展,建立系统的数据集是学术界和工业界共同的话题。

构建一个数据集,首先要考虑数据集的知识价值和应用价值,知识价值有的时候可以理解为学术价值,指的是该数据集是否映射特定的知识点,这些知识点是否值得去研究。应用价值是指数据集能否解决实际需求。其次,从知识价值和应用价值角度出发,才能做好数据收集、标注、标准制定等后续工作。我们所构建的 MTWI 数据集,来源于真实的工业界,侧重收集那些具有普适性难点的数据。所以,在我们看来,无论是学术界的数据集还是工业界的数据集都要考虑到对方的需求,不能只看研究知识点,也不能只解决工业应用问题。

未来工业界和学术界要有更多的交流,学术界了解技术落地时遇到的新问题,工业界去学习如何把问题抽象成通用的知识难点。最后说一点,我们应该鼓励更多的数据持有者贡献非机密数据,也希望数据使用者能让数据提供者有知情权,尊重知识产权。

OCR 涉及文字识别与文本理解,与计算机视觉(CV)以及自然语言处理(NLP)紧密相关,那么 CV 和 NLP 该如何结合,两个领域应该如何建立长效合作?

王永攀:视觉是捕捉信息最常用最直接的方式,而语言是人类对信息进行抽象思维的媒介,对于大量的真实的人工智能应用来说,两者是密不可分的前后步骤。文字识别和文档分析就是一个典型的案例。然而 CV 和 NLP 现在是完全独立的研究领域,各自都有大量问题没有解决,没有强烈的意愿进行合作,因此如何建立长效合作机制是一个很困难的问题,也是我们一直在探索的方向。

要想解决这个问题,我们认为首先需要有一批勇敢的跨界研究者,他们熟悉两个领域的问题和方法,能够定义清楚背后的理论问题,进而还可以清晰地划分出 CV 和 NLP 适用的边界。这样才能降低门槛,吸引到更多的参与者,包括那些专精 CV 或 NLP 领域的研究者。

其次还需要逐渐完善跨界研究的基础设施,例如公开的有挑战性的数据集和竞赛,长期的学术讨论会议,以及从研究到产业化的落地渠道等。只有这样才能让合作变得长久。

目前阿里在实践中对传统算法和深度学习算法的使用情况如何?

王永攀:现在主流的偏应用的方法基本上都是深度学习,传统方法更多的是做研究,或者做 baseline。当涉及到一个新问题时,我们可能会先用传统方式去尝试,看传统方法是否能解决这个问题,然后再做 baseline。这时候,如果传统方法能做到 70%,我们会用深度学习的方法尝试能不能把结果提升到更高,如 80%、90% 以上。

此外,传统方法对我们还具有很多借鉴意义。深度学习方法很多时候是一个黑盒子,确定输入,约束好输出,实际上中间并不知道发生了什么。在这样一个情况下,我们很难去提升。通过传统方法,我们基本上可以理清问题的脉络,有一些可以分析借鉴的部分。

目前将深度学习用于 OCR 的局限性有哪些?在 OCR 领域,有哪些值得我们研究和思考的问题?

白翔:目前深度学习在 OCR 领域的局限性仍然比较大,当前有几个比较迫切的方向值得我们深入思考:

1)不规则排列的文字检测与识别仍然非常棘手。如果不结合足够的先验知识,仅仅通过大量的标注样本学习并不能彻底解决。

2)深度学习模型的泛化能力有限。这一问题在文本检测任务上尤为明显,现有的方法基本是在与测试场景相关的数据上进行训练,更换一个场景可能会完全没有办法使用。

3)非拉丁文识别,尤其是中文识别仍然是难点问题,这反映在中文的长短效应、样本类别多、相近汉字的细粒度差别等方面。