专利信息服务中的术语抽取
研究专利信息服务中面向信息分析、机器翻译和文本挖掘三种应用的术语抽取.使用包括与电动汽车有关专利数据和NTCIR的PatentMT数据集合.研究结果显示,合适的候选术语长度随应用而变化;加权方法和文档频率的影响与数据来源相关;文档频率对于评估机器翻译的术语重要性有重要作用.进而,讨论了面向信息服务的文本挖掘研究的特点和评价方法.本研究可为相关文本挖掘研究提供实践经验,同时初步探讨了面向信息服务的文本挖掘研究的理论问题.
术语抽取、文本挖掘、专利、信息服务、信息分析、机器翻译、自动分类
33
G254(图书馆学、图书馆事业)
中国博士后科学基金第6批特别资助项目2013T60151;中国科学技术信息研究所学科建设项目XK2015-6
2015-10-10(万方平台首次上网日期,不代表论文的发表时间)
66-71