在社交网络中,网民喜欢用自己个性化的语言表达对政治、社会、文化等的看法。通常,个性化语言被越多的人传播越容易成为新的网络热词(简称“新词”)。新词(例如“给力、坑爹、不明觉厉”等)对于自然语言处理是一个非常显见的挑战,因为新词会对中文分词、句法分析和语义分析造成错误。因此,新词检测也是一些常见的自然语言处理任务的前置条件,在中文词性标注、句法分析、命名实体识别、文本聚类/分类、信息检索、情感分析等方面有着很重要的应用。据统计,每年互联网上出现超过1000个的中文新词,这些新词大多为各个领域具有时效性的专业术语,由于这些新词大多不存在字典中,因而使得现有的分词算法很难将这些新词从文档集中识别。
联合实验室研究骨干黄民烈的研究小组提出了一种利用海量大数据发现新词的方法。不同于传统方法,所提出的方法是一种无监督的、数据驱动的、不依赖规则的新颖方法,该成果发表在自然语言处理的顶级会议ACL 2014上。在2.4亿的微博文本上,利用新词如果流行之后,会被固定的使用在各种场合下(所谓场合,即语言学模式)这一观测,提出了利用统计度量和自举学习框架的方法检测新词。论文提出了似然比检测(likelihood ratio test) 、左侧模式熵(left pattern entropy),新词概率等统计度量,相比其它的方法,性能获得了巨大的提升。,该框架还无缝地支持其它的非合成性度量,例如改进互信息度量(Enhanced Mutual Information) ,规格化多词度量(normalized multi-word expression distance) 。论文还验证了,新词对于情感分析的性能提升具有非常显著的作用。检测出来的新词还可以显著的改进中文分词的性能。