期刊专题

10.11925/infotech.2096-3467.2020.0192

基于医学主题词标引规则的词共现聚类分析结果自动判读和表达的研究

引用
[目的]探索一种易于用户理解的规范化、自动化聚类结果判读和表达方式,促进主题词共现聚类的发展.[方法]以肿瘤诊断主题为例,参考标引教材梳理相关的主题词/副主题词标引规则,选取10组肿瘤为训练集进行高频主题词共现聚类分析,人工审读聚类结果,结合标引规则,梳理高频主题词语义类型/副主题词组合规则.基于规则编写Python程序,自动解读验证集中4组肿瘤的聚类结果,并请专家对其揭示类团内容的准确性、全面性、实用性、易理解性和简洁性进行评价.[结果]整理标引规则30条,梳理面向主题词共现聚类结果解读的语义类型/副主题词组合规则98条.验证集的5个评价指标(准确性、全面性、实用性、易理解性和简洁性)分值分别为4.282、4.435、4.209、4.457、4.206(满分5分).[局限]探索语义类型/副主题词组合规则时,研究结果与每次聚类过程中高频阈值的选择、聚类结果数的确定均有关联.利用组合规则解读类团内容难以揭示类团"隐藏信息".[结论]基于规则自动解读主题词共现聚类分析结果具有较强适用性,在一定程度上促进了主题词共现聚类分析结果表达的客观化与规范化.

共词分析、聚类分析、类团描述、知识表达、自动解读

4

G202(信息与传播理论)

2020-12-09(万方平台首次上网日期,不代表论文的发表时间)

共12页

133-144

相关文献
评论
暂无封面信息
查看本期封面目录

数据分析与知识发现

2096-3467

10-1478/G2

4

2020,4(9)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn