10.3772/j.issn.1000-0135.2010.05.013
LCS算法在术语抽取中的应用研究
本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集.通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.2%;4~6字符双词术语抽取的效果尤佳,准确率接近100%.
最大公共子串算法、术语抽取
29
TP3;H12
2010-11-30(万方平台首次上网日期,不代表论文的发表时间)
共5页
853-857