10.14081/j.cnki.hgdxb.2021.01.004
融入领域短语知识的专利主题提取
在对专利文本进行提取主题时,存在大量语义丰富的短语被拆分的问题,导致生成的主题难以理解.已有的将相似性约束的短语融入主题模型中的方法,没有考虑不同领域间短语的区别.因此,根据专利文本的特点,提出了一种融入领域短语知识的主题模型,通过序列化标注的方式抽取专业术语,句法分析的方法抽取功能短语,构建领域短语表.用语义相似度计算的方法对领域短语表进行扩展,将其作为先验知识融入到主题模型中,使用GPU模型(Generalized Pólya urn)强化领域短语,同时缓解领域短语带来的稀疏性,提高主题质量.在中文专利文本上的实验结果表明,融入领域短语知识的主题模型有效地解决了领域短语被拆分和主题可解释性差的问题.
专利文本、专业术语、功能短语、主题模型、Generalized Pólyaurn模型
50
TP391.1(计算技术、计算机技术)
创新软件设计及公共应用服务平台项目15240118D
2021-03-26(万方平台首次上网日期,不代表论文的发表时间)
共9页
28-36