10.3969/j.issn.1673-7571.2020.05.026
基于自然语言处理进行新冠肺炎确诊患者流行病学史的变化趋势分析的探索
目的:探讨陕西省自1月23日以来确诊患者接触史的变化趋势,以及不同时期应关注的重点场所.验证自然语言处理和大数据分析技术在流行病学史分析中应用的可行性.方法:收集陕西省2020年1月23日至2月20日卫健委公布的疫情数据,应用自然语言处理技术对确诊患者情况进行分词处理,计算每日的热点词语出现频率并排序.通过对词频和共词频率的统计,分析确诊患者的流行病学史变化趋势.结果:陕西省自1月23日起,前8日确诊患者描述中,标志着输入性疫情的"返回"等词频较高;自第9日起,标志以家庭为主要场所的聚集性疫情的各类"亲属关系"词频显著提高;第14日开始,体现其他场所的聚集性疫情的词汇频率明显提升.发病地区词频较高的为:西安市、安康市等;与陕西确诊病例相关的外省市地区词频较高为武汉/湖北、孝感市和杭州市.结论:通过词频分析可以发现陕西省疫情由输入性转向聚集性的转折点大致发生在2月1日.家庭作为聚集场所的传播方式为主要传播方式,后期有其他传播场所值得关注.本研究也验证了使用自然语言处理和词频分析等大数据分析技术可以在经典的流行病学史分析基础上,拓展新的思路,呈现新的表达方式.
自然语言处理、词频分析、新型冠状病毒肺炎、流行病学史
15
R319;TP391(医用一般科学)
北京市自然科学基金-海淀原始创新联合基金编号:L192047
2020-07-07(万方平台首次上网日期,不代表论文的发表时间)
共4页
76-78,106