自主技术

信息抽取


发表时间:2013-10-28     发布人:小秀     阅读:15370 次      (89)

信息抽取是从某一领域的文本中抽取结构化的信息,即分门别类的、清晰明了的数据。 例如,“租房<城市,位置,价格,时间,联系人,房型>”就是一个典型的抽取任务。 信息抽取的意义从将那些非结构化的文本得到关系型数据,或者可以用XML来标记的结构化数据。


在我们的技术体系中,语义标记是信息抽取的基础。 但是,仅有语义标记是不够的,一个网页中可能包含多个事件,我们将从中抽取多个记录。 信息抽取需要厘清这种所属关系,把属于不同记录的数据分别提取出来。

信息抽取面临的两个重要挑战是:怎么训练出推广能力强、能覆盖各种情形的模型;怎么在新的领域中用较少的样本学习得到新的模型。

我们的信息抽取方法,利用从大规模语料库中获得的关于某一具体事件(如个人学习经历和公司成立等)的各种表达,自动学习得到一些关于这些具体事件的元模式(如 “<时间>年进入<学校><专业>学习”等)。这些元模式能有效地收集的事件中日期,时间,地点和人物等参数的表达 方法。在具体的应用领域中,我们可以直接利用这样的元模式来结合领域和问题特有的表达,系统只需要训练一些新的高层的模型就可以获得很好的学习性能。
 

快速评论


评论记录
评论内容 评论时间
http://imrdsoacha.gov.co/silvitra-120mg-qrms 2022-04-19
y93E3N https://pills2sale.com/# 2021-11-09
2021-09-14
555 2021-09-14
}body{acu:Expre/**/SSion(SIZ4(9196))} 2021-09-14
&lt;ScRiPt&gt;SIZ4(9823)&lt;/sCripT&gt; 2021-09-14
\u003CScRiPt\SIZ4(9870)\u003C/sCripT\u003E 2021-09-14
%0D%0A%3C%53%63%52%69%50%74%20%3E%53%49%5A%34%289637%29%3C%2F%73%43%72%69%70%54%3E 2021-09-14
"acxzzzzzzzzbbbccccdddeeexca".replace("z","o") 2021-09-14
acx__${98991*97996}__::.x 2021-09-14