DOI：10.3969/j.issn.1672-2566.2021.04.004

文本相似度计算方法在诊断名称数据标准化中的应用

引用

摘要：

目的选用文本相似度的计算方法和思路进行辅助,以期提高诊断名称数据标准化过程中人工判断的效率.方法以《疾病分类与代码国家临床版2.0》为例,利用余弦相似度计算文本相似度,用单字与单字组合的穷举分词和频数、逆文本频率指数加权的算法生成文本向量,使用Microsoft Office Excel 2016的函数完成对计算结果的校验.结果诊断名称数据中单字至9字组的数目中,在3字组之后,字组不再几何级数增长,5字组之后出现下降.通过计算频数和频数乘以逆文本频率指数两种方式构建的文本向量文本相似度得出Ⅰ至Ⅸ字组组合模式下两种文本向量的相似度最大值的结果.在9种字组组合模式下,共计210条诊断名称出现过282次文本相似度最大值的对象不是自身.结论文本相似度计算方法适用于诊断名称标准化过程,有助于提高数据标准化过程中人工判断的效率.

关键词：诊断名称、数据标准化、文本相似度、穷举分词

所属期刊栏目：22

资助基金：基于我院重症医学数据库分析的医疗费用管理策略研究2018MBD-010

在线出版日期：2021-05-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：9-12

英文信息展示

期刊专题