期刊专题

10.14081/j.cnki.hgdxb.2021.01.004

融入领域短语知识的专利主题提取

引用
在对专利文本进行提取主题时,存在大量语义丰富的短语被拆分的问题,导致生成的主题难以理解.已有的将相似性约束的短语融入主题模型中的方法,没有考虑不同领域间短语的区别.因此,根据专利文本的特点,提出了一种融入领域短语知识的主题模型,通过序列化标注的方式抽取专业术语,句法分析的方法抽取功能短语,构建领域短语表.用语义相似度计算的方法对领域短语表进行扩展,将其作为先验知识融入到主题模型中,使用GPU模型(Generalized Pólya urn)强化领域短语,同时缓解领域短语带来的稀疏性,提高主题质量.在中文专利文本上的实验结果表明,融入领域短语知识的主题模型有效地解决了领域短语被拆分和主题可解释性差的问题.

专利文本、专业术语、功能短语、主题模型、Generalized Pólyaurn模型

50

TP391.1(计算技术、计算机技术)

创新软件设计及公共应用服务平台项目15240118D

2021-03-26(万方平台首次上网日期,不代表论文的发表时间)

共9页

28-36

暂无封面信息
查看本期封面目录

河北工业大学学报

1007-2373

13-1208/T

50

2021,50(1)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn