10.3772/j.issn.1673-2286.2010.09.004
自组织映射在专利文本聚类中的应用研究
自组织映射(SOM)是一种基于人工神经网络的聚类方法,通过将相似的输入数据映射到相同或者相近神经元达到相似相聚的目的,有着不需要先验知识,保持拓扑结构不变、无监督自我学习和易于可视化的优点.由于专利文献有着数量大、文字晦涩冗长、专业性强等特点,分析难度较大,自动聚类分析能挖掘专利文献内在相似性,作为基础性处理用于后期应用,例如专利数据清洗,专利检索,主题分析和专利地图生成等众多领域.基于SOM的专利文本聚类与传统聚类方法相比效率和准确率较高,并且易于可视化展示.本文使用了SOM、k-means和TwoStep算法分别在专利文本聚类中作了对比,得出SOM较优的结论.
自组织映射、专利聚类、文本挖掘、可视化
G35;TP3
国家科技部"十一五"科技支撑计划2006BAH03B03;中国科学技术信息研究所重点工作项目2009KP01-7-1;中国科学技术信息研究所2009年度预研基金项目项目YY-200906等项目的资助
2010-11-05(万方平台首次上网日期,不代表论文的发表时间)
共7页
13-19