10.3969/j.issn.1002-137X.2007.09.042
领域Ontology的自动丰富——基于ADL地名表的实例研究
本文以一个地理特征词表(Feature Type Thesaurus,FTT)为研究实例,提出了一种对领域Ontology进行自动丰富的方法.FTT描述了200多种地理特征类型,依照等级结构组织,用于标引和组织美国亚历山大数字图书馆地名表(ADL Gazetteer)中的6百万个地名.为了对FTT进行自动丰富,(1)首先从地名中抽取和发现有检索价值的、表示地理特征类型的通用词;(2)根据它们和标引主题词间的同现关系,在相同词族词汇的聚类过程中,确定与之相对应的主题词,进而将提取出的通用词定位到FTT的等级结构中.充分利用已经存在的大量标引语料,实现通用词的定位分析是核心内容,并且实验结果证明有效性达到82.7%.这项研究的实质是从Ontology标引的语料库中自动提取领域知识和标引知识,达到对Ontology的自动丰富.这一方法可以应用到类似的语料库和知识库上,实现新术语的发现、Ontology自丰富及其互操作.
领域Ontology、自动丰富、词汇抽取、通用词、地名词典
34
TP3(计算技术、计算机技术)
国家自然科学基金70303002
2007-11-19(万方平台首次上网日期,不代表论文的发表时间)
共7页
156-162