负责人

avatar刘康,博士,中科院自动化所模式识别国家重点实验室助理研究员,CCF会员,中国中文信息学会青年工作委员会执行委员。2010年于中科院自动化所获得博士学位。研究领域包括信息抽取、问答系统等。在自然语言处理、知识工程等领域国际重要会议和期刊发表论文二十余篇(如TKDE、ACL、IJCAI、EMNLP、COLING、CIKM等),曾带领团队获得KDD-CUP 2011 Track2全球亚军、COLING 2014最佳论文奖。

梦想成果

通过自然语言处理、信息抽取、知识工程等手段从海量网页中自动抽取知识,并建立多源异构知识间的链接与映射,构建大规模知识图谱。

基于已构建的海量知识图谱,通过语义分析、智能检索与推理等手段,向普通用户在多个不同场景下提供自然语言接口的知识检索、问答服务。

项目综述

网络中存在大量的垂直领域(酒店、餐馆等)的结构化知识,如果我们能够对于这些领域数据进行分析,将这些结构化的知识(例如每个酒店的属性信息)抽取出来,构建一个领域知识库。然后将用户输入的问题精准地匹配到结构化的数据上,则能够有效地提高领域内问答的精度。其关键在于正确理解用户所输入的自然语言问句中所包含的语义,将其转化为结构化的查询语句,这也是知识库问答(Knowledge-based QA)的核心问题之一。

Achievements

项目目标:

1)研究精准知识库的问答技术、文本观点挖掘技术、问句理解技术;2)构建面向垂直领域的精准知识问答系统。

项目成果:

论文:在国际顶级学术期刊和会议共发表论文六篇(TKDE一篇、ACL2014两篇、COLING2014一篇、EMNLP2014一篇、QALD-4一篇);专利:一项(腾讯公司级专利奖);获奖:COLING2014 Best Paper Award、中国中文信息学会“钱伟长中文信息处理科学技术奖-汉王青年创新奖”(已公示);评测:参加知识问答权威评测QALD-3和QALD-4,分别获得QALD-3自动评测第1名,QALD-4自动评测第2名;资源:标注了餐馆名词典(13388条)、菜名词典(10982条)以及餐馆问句语料库(1075条);应用系统:开发了一套餐馆领域的美食精准问答Demo系统(可在微信订阅号中搜索“美食任我选”)。

Achievements

我的感言

对于已有大规模网络知识库的有效利用,建立知识服务的自然语言接口,研发面向知识库的深度问答技术,是搜索引擎精准化核心问题之一;其关键问题是将普通用户的自然语言问句解析为结构化的查询语句(如SPARQL),其中包含大量自然语言处理、网络信息挖掘、人工智能等多项关键技术,因此这是一个极具价值的研究问题。

CCF-腾讯犀牛鸟基金是一个很好的科研平台,尤其对于青年学者,有助于拓宽研究思路,提升个人及团队学术影响力,帮助青年学者加速成长。

在本项目进展过程中,通过与腾讯微信部门的深入探讨和交流,开拓了研究视野,获取了实际问题,使得自己的研究成果得以应用和检验。感谢腾讯微信组刘怀军、路彦雄在项目进行中提供的思路、技术和数据支撑;感谢腾讯高校关系部的管刚、刘婷婷等同事给予的帮助。