DOI：10.3969/j.issn.1006-2475.2016.04.001

病理镜检文本数据的结构化处理方法

引用

摘要：

目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库，而通用分词工具对专业术语的识别效果并不理想，且国内的中文医学术语标准化进程不足。针对此问题，提出一种基于统计信息对镜检文本数据进行结构化处理的方法。该方法以聚类文本为基础，基于断点词与重合串分词，利用分词词串的统计信息获取关键词以及词语类别信息，并进行词语扩充，从而得到最终词库作为字典。利用基于字典的双向最大匹配分词算法，对文本数据进行分词，并通过添加否定检出的规则，获取结构化数据。实验结果表明，该方法获取的医学词库的准确率达到了80％，实现了不依赖分词工具获得结构化数据的功能。

关键词：医疗文本数据、文本数据结构化、统计、分词、双向最大匹配

分类号：TP391.1(计算技术、计算机技术)

资助基金：上海市科委科技创新行动计划资助项目15511106900

在线出版日期：2016-05-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：1-6

英文信息展示

期刊专题