乐鱼体育-官方网站

首页 > 新闻中心

Bet|体育-首页:“法研杯”人工智能挑战赛拿下三大奖项,汉王科技在下一盘NLP的棋

发布时间:2020-12-09  作者:Bet|体育

【Bet|体育-首页】作为人工智能的众多关键,NLP(自然语言处置)技术于是以越发多转入实际应用于场景。特别是在在法律、金融、教育等文本密集的领域,使用NLP技术处置和挖出文本的市场需求越发显著。

今年5月,在最头角峥嵘民法院信息中心的指导下,中国司法大数据研究院等团结举行了“中国法研杯”司法人工智能挑战赛。以刑事案件治罪量刑为配景,角逐设置了罪名预测、法律条款引荐、刑期预测三项任务,也步入了微软公司、阿里巴巴等在内的600余支队伍参赛。

Bet|体育-首页

其中,汉王科技也派遣了以旗下汉王数字首席数据科学家聂昱派的团队参赛,基于NLP和深度自学技术,汉王从国内外600余支队伍中脱颖而出,在罪名预测、法律条款引荐和总分项目中进帐三座奖杯。此次“法研杯”上的佳绩,也使得在NLP领域向来深藏不露的汉王科技,在司法应用于上闯进了主流视野,挤身国内领先行列。

始自OCR,相识NLP自然语言处置想起汉王科技,许多人的最高级反映约莫不会是OCR领域的大佬。自从80年月,一脉相承于中科院自动化所文字辨识实验室,汉王科技很早已开始展开脱机手写汉字识别系统的研究,并在1995年研发出有最高级支电磁笔,1998年作为微软公司的中国技术供应商、向微软公司展开手写辨识技术的许可。

到2001年,汉王科技手写辨识技术已取得中流砥柱科技一日千里一等奖,2006年,OCR技术取得中流砥柱科技一日千里二等奖……作为业界最先致力于OCR辨识技术研发和应用于的公司之一,汉王科技其中一项最重要应用于就是文档电子化。2013年,汉王科技将文档电子化的触角伸延至图书馆、档案馆,银行、医院、法院等多个中流砥柱级项目。

在OCR技术领域,汉王科技仍然是努力探索的先行者。但在这些明确项目的实行中,汉王科技也开始徐徐意识到,文档电子化的“山河”虽已奠基,但这只是已完成了科学知识、信息应用于的一部门,构成的电子文本所谓结构化数据。

也就是说,只有OCR是过于的。OCR技术是光学字符识此外简写,是通过扫瞄等光学输出方式将种种票据、报刊、书籍、文稿及其它印刷品的文字转化成为图像信息,再行使用文字辨识技术将图像信息转化成为可以用于的盘算机输出技术。

Bet|体育

但意味着将纸质文档变为数字化文本,这样的电子文档没对文本展开挖出、科学知识之间缺少关联,被电脑检索也只是对比完全相同字符收集信息。要将海量的电子文档智慧化,就必须将文字信息构成结构化数据,只有构成结构化数据,信息和科学知识之间构成关联,才气为大数据应用服务。

作为汉王数字首席数据科学家,聂昱也指出,“静态的文字是没生命的”,扫瞄出来了,但无法解读其中的意思,依旧无法展开智慧简化的应用于。而要将文档的非结构化数据展开结构化处置,转化成为技术术语,就要中用NLP自然语言处置技术,这也是未来盘算机科学领域与人工智能领域中的一个最重要偏向。

跟上首班车,汉王科技先行结构NLP领域NLP研究人与盘算机交互的语言问题。从语音辨识,到语义解读,从而确实做可以交互。

业界普遍认为,NLP是人工智能中最好的部门,也是要求AI否智能的关键因素。2015年,归功于深度自学算法的较慢希望,大规模社交文本数据以及语料数据的大大累积,NLP技术有了一日千里式的生长。

在这一年,各大厂商致力于解决问题语音辨识、语义解读、智能交互、搜寻优化等领域越发简朴、艰难的问题,一连大大地对原先产物的算法、模型展开优化与革新。汉王科技也在2016年,顺势开始了自己在NLP技术方面的结构。

2016年,汉王科技与武汉大学的自然语言处置团队牵头展开文档大数据化研发事情,力争突破NLP技术,建设起自己的文档大数据库体系,研发种种新的应用于,主攻还应有尽有文本分类、聚类、结构化数据提取、科学知识提取、科学知识图谱、机械读者等在内的NLP技术。(汉王科技的NLP技术累积)明确而言,文本分类,可以推断出等价的文本(句子、文档等)的标签,如凭据“体育”、“音乐”等标签展开区分;文本聚类,是指自动找到一些相近的文章,并单体。

聂昱解说道,文本分类和聚类两项技术更为初级,现在早已很成熟期。结构化数据提取,则是指盘算机自动解析文本,并辨识其中的关键要素。

Bet|体育-首页

在金融、司法、教育等文本密集的行业,提取关键信息就很有适当。如从上市公司的财报中,提取财政数据、股东更改情况等给股民或投资机构,以便其直观读者、分析等。

科学知识图谱,就是指文字中提供科学知识,将其的组织成科学知识图谱。较量种种机械学习算法在预测强劲、叙述能力很弱的特点,科学知识图谱的叙述能力上占优,可用作精准查找、信息单体、分析推理小说。

机械读者,即教会机械学会读者解读文本数据。现在,汉王已将机械读者应用于到金融文本、档案、合约等方面,不仅可以已完成基于读者内容的解说,还可以把内容中的科学知识与信息做到萃取与提取,用作更进一步的分析和挖出。

前进NLP行业应用于,汉王科技下了一盘人工智能大棋不仅有技术,汉王科技高级副总裁李志峰回应,汉王在大数据偏向的NLP技术累积,还通过各个子公司,应用于到医疗、法院、银行及图书馆等领域。2016年,汉王科技并购了在医疗和法院的文档信息化方面极具竞争力的影研科技,结构医疗和法院文档大数据市场。

作为专门从事行业档案信息化与流程服务的公司,影研科技为司法、医疗、社保、不动产等领域内的千余家公司,获取了全业务链条的文档治理服务。在对北京法院系统的服务上,影研科技使用基于模式识别和深度自学的OCR技术,对复印件、种种证照质料等简朴版面内容展开低准确率辨识;依赖NLP技术,对卷宗内关键要素内容展开精准萃取;倚赖大数据技术,构建海量数据的高效检索。

在OCR、NLP和大数据技术的基础上,影研科技构成了诉讼档案随案实时分解、诉讼档案智能时光、集约文档、库房存储四大服务环节,构建了对北京三级法院的全笼罩面积。而在此前古籍、文献辨识的基础上,融合近年来在科学知识图谱方面相识扩展的技术优势,汉王也开始对文献资料展开智慧治理。

在对文史出书社丛书文献展开科学知识加工过程中,汉王通过从文献中碎片化提取、清除、归集、融合获得基础数据,深度加工挖出获得人物、地址、机构、事件类的科学知识条目,再行基于科学知识条目建构人物库、地址库、机构库、事件库等科学知识资源库,并通过关系界说构建横跨类此外科学知识关联,获取了打破图书内容信息的深度科学知识服务。(汉王科技科学知识图谱检索示例)从2016年开始NLP的技术累积,到各子公司的行业应用于,汉王科技在NLP领域,构成了从技术研发,到法院、医院、图书馆、档案馆、银行等多行业应用于的闭环,各子公司也在技术和场景应用于的协同中,构成了较好的同步效应。

首页

对于汉王科技在NLP上的结构,李志峰也回应,近几年来,汉王科技在NLP投放相当大,现在NLP方兴未艾,汉王科技的结构也是“小荷才露尖尖角”。未来结构的优势,随着NLP技术和市场的关上,还不会大大显出。

聂昱也指出,人工智能现在正处于从感官智能向理解智能过渡阶段。现在NLP领域的技术难题依然许多,但对自然语言的深条理理解的执着或许不会鼓舞并引起算法技术的突破性厘革。

据2018全球人工智能技术成熟度Gartner曲线,NLP、深度自学、机械学习等现在正处于巅峰期,并预计在未来5-10年内之后维持热度。“死气沉沉地期望,未来NLP不会经常泛起相当大的技术希望,甚至经常泛起突破深度自学框架的希望。

语言比图像越发简朴,语言处置好了,人工智能时代有可能就知道来临了。”聂昱说。

可以想象,随着NLP的技术生长,及场景的不断深入,文本应用于上将发生新的厘革:未来,法院法律文档大数据平台将可以为法律事情者获取海量的同类案例参照;而在文献资料上,可以通过科学知识图谱等获取打破档案内容信息的深度科学知识服务……在文档电子化上,汉王将率领人们先行触碰着人工智能的曙光。。

本文来源:Bet|体育-www.hnxfjzc.com

点击返回
下一篇:新型物联管理让电网更“聪明”【Bet|体育-首页】 上一篇:Bet|体育-光伏智能运维:光伏电站发电量提升的运维攻略