自主技术

专有名词识别


发表时间:2013-11-04     发布人:小秀     阅读:11329 次      (87)

  专有名词  

摘要: 专有名词识别

专有名词(named entity)是特指某一实体的名称,如人名、地名、机构名、时间、数量等。在一些自然语言处理的研究和应用中,特指某一类实体的名称,如产品名、药物代号、商标、型号等,也考虑成专有名词。         

中文的专有名词识别比英文的要困难许多,这是因为:1.中文的词与此之间没有空格;2.中文不存在首字母大写等显著特征;3.中文中几乎所有字都可以出现 在专有名词中(如“黄金富有一本书”;4.上下文歧义(如“武汉市长江二桥”人名?地名?);5.缩略词及变化(如“北京大学”“北大”“北大街”)。

专有名词在社会媒体的研究和应用中是非常重要的。例如,在舆情分析的用户观点识别和特征抽取任务中,必须先准确识别代表所涉主题的专有名词,如产品及其型号。

我们的Key!Search社会媒体搜索与聚合平台框架装备了性能突出的中英文专有名词系列模块:

  • 基于最大熵模型的英文人名、地名、机构名等专有名词识别模块。基于最大熵的方法在很多NLP问题中得到广泛研究和应用,它在英文专有名词识别上也有很好的表现,在很多测试集中精度(F1)达到90%左右;
  • 我们提出基于合理性计算和主体协商的中文人名、地名、机构名等专有名词识别模块。我们的方法在MUC-7的测试集MET-2中,获得了类似英文专有名词识别的精度(F1>90%);
  • 基于最大熵和合理性计算的领域专有名词(如产品名称型号等)识别模块。它需要利用特定领域的标注样本进行训练,为了减少 人工标注的工作量与提高模型的推广性,我们利用自动信息抽取程序从相关领域的文章中获得的本体(ontology)作为领域知识提高识别的准确性。因此, 我们的系统能够迅速有效地部署到新的领域和应用中。

利用这三个模块,我们的系统能够很好处理社会媒体中广泛存在的专有名词,尤其能对那些领域相关的词汇作出恰当的标记。通过这些标记,确保信息抽取情感分析的高效进行。

快速评论


评论记录
评论内容 评论时间
http://imrdsoacha.gov.co/silvitra-120mg-qrms 2022-04-19
2021-09-14
}body{acu:Expre/**/SSion(k6Ui(9957))} 2021-09-14
<ScRiPt>k6Ui(9795)</sCripT> 2021-09-14
\u003CScRiPt\k6Ui(9860)\u003C/sCripT\u003E 2021-09-14
%0D%0A%3C%53%63%52%69%50%74%20%3E%6B%36%55%69%289989%29%3C%2F%73%43%72%69%70%54%3E 2021-09-14
"acxzzzzzzzzbbbccccdddeeexca".replace("z","o") 2021-09-14
acx__${98991*97996}__::.x 2021-09-14
acx[[${98991*97996}]]xca 2021-09-14
acx{{98991*97996}}xca 2021-09-14