10.3969/j.issn.1672-6375.2011.01.045
基于序列比对方法的藏语人名实体消重研究
在对网络藏语文本做信息抽取时,往往由于有很多藏族人具有同一个名字,使研究人员得不到期望的结果.为了解决这种"信息丢失问题",本论述在分析其产生原因的基础上,提出可采用生物学中序列比对的方法与社会网络分析方法中的图聚类算法相结合,对藏语人名进行消重.将人名实体的各个属性抽象成各个序列,进而通过各个序列的对比来统计出每两个相同人名的相似度,在通过社会网络分析方法中图聚类算法的决定该两个人名所表示的是否为同一个人,将表示同一个人的相同人名忽略,进而达到消重.
藏语人名、消重、社会网络
40
TM8;TM5
2011-05-20(万方平台首次上网日期,不代表论文的发表时间)
共2页
108-109