一种通过内容和结构查询文档数据库的方法
文档是有一定逻辑结构的,标题、章节、段落等这些概念是文档的内在逻辑.不同的用户对文档的检索,有不同的需求,检索系统如何提供有意义的信息,一直是研究的中心任务.结合文档的结构和内容,对结构化文件的检索,提出了一种新的计算相似度的方法.这种方法可以提供多粒度的文档内容的检索,包括从单词、短语到段落或者章节.基于这种方法实现了一个问题回答系统,测试集是微软的百科全书Encarta,通过与传统方法实验比较,证明通过这种方法检索的文章片断更合理、更有效.
文档数据库、信息检索、段落检索、结构化文档
14
TP311(计算技术、计算机技术)
Microsoft Research Asia访问学者基金
2004-01-08(万方平台首次上网日期,不代表论文的发表时间)
共8页
976-983