面向中文专利权利要求书的分词方法研究
[目的]解决中文专利权利要求书分词问题,满足专利相似研究需求.[方法]总结中文专利权利要求书分割特征词、分割子串规则和术语抽取规则,构建领域词典,提出一种基于领域词典和规则相组合的分词方法.[结果]实验结果表明:分词的准确率为90%,召回率为95%,F值为92%.[局限]由于领域词典的庞大,使得大规模分词的效率降低.[结论]该方法能够进一步提高中文专利权利要求书的分词效果和效率.
中文专利权利要求书、中文分词、领域词典、术语抽取
TP391(计算技术、计算机技术)
本文系北京市自然科学基金项目“中文专利侵权检测与分析理论方法及关键技术研究”项目编号:9132005和北京工业大学人文社会科学基金项目“知识产权侵权检测服务方法、模型及相关技术研究”项目编号:X5011019201201的研究成果之一.
2014-10-16(万方平台首次上网日期,不代表论文的发表时间)
91-98