近日,在美国休斯敦闭幕的第13届网络搜索与数据挖掘国际会议(WSDM 2020)上,华为云带领的联合团队摘得WSDM Cup 2020大赛“论文引用意图识别任务”金牌。
WSDM被誉为全球信息检索领域最有影响力也最权威的会议之一,会议关注社交网络上的搜索与数据挖掘,尤其关注搜索与数据挖掘模型、算法设计与分析、产业应用和提升准确性与效果的实验分析。今年已经是WSDM的第十三届会议。
本次WSDM Cup共有三个赛题任务,华为云夺金赛题内容为“论文引用意图识别”:比赛提供一个论文库(约含80万篇论文),同时提供对被引用论文的引用文本描述,参赛选手需要根据论文引用描述从论文库中匹配三篇最相关的论文。
论文是人类最前沿知识的媒介,如果可以理解论文中的数据,可以极大地扩充计算机理解知识的能力和范围。在论文中,作者经常会引用其他论文,并对被引论文做出对应描述。如果通过计算机可以自动地理解、识别描述对应的被引论文,不仅可以加深我们对科研脉络的理解,还能在科研知识图谱、科研自动问答系统和自动摘要系统等领域有所进步。
华为云语音语义创新Lab带领华南理工大学、华中科技大学、武汉大学、江南大学学生组成的联合团队,针对该问题制定了“整体召回+重排+集成”的方案。在整体召回阶段,通过轻量化的文本相似度计算方法(如BM25、TFIDF、Word2Vec等),以较少的计算代价从大规模论文库中检索出给定查询的可能相关的论文集合。在重排阶段,通过计算量大但更准确的方法对这些候选论文中的每一篇论文计算和引用描述的相似度值并重新排序,例如采用基于深度学习的预训练语言模型BERT等。华为云团队观察到,赛题中所给语料都是生物医学领域,因此采用了基于生物医药和科学领域语料进行预训练的BioBERT和SciBERT语言模型对论文进行重排。通过对所有模型的结果进行集成,最终得到三篇最相关的论文。
华为云在本次比赛中运用的文本匹配技术,可广泛用于搜索、对话机器人、知识图谱构建等领域。
凭借在自然语言处理领域的全栈技术积累,华为云连续斩获了多个相关领域权威比赛冠军。2019年10月华为云在DigSci科学数据挖掘大赛(学术论文搜索匹配大赛)上夺冠,精准率超过第二名5个百分点。在2019 CCF大数据与计算智能大赛决赛中,上海佳吉物流 ,华为云获得金融实体级情感分析大赛冠军,体现了在文本情感分析和知识图谱领域的实力。
目前,华为云语音语义相关服务已经成功应用于政务、金融、油气、医疗、汽车、物流、保险、电商、税务、媒体等具有语音识别、语言理解、知识管理等需求的业务领域。
特别提醒:本网内容转载自其他媒体,梅州物流 ,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
千航国际 |
国际空运 |
国际海运 |
国际快递 |
跨境铁路 |
多式联运 |