10.3969/j.issn.1673-9469.2022.01.014
融合LDA和GloVe模型的病症文本聚类算法
针对隐含狄利克雷分布(LDA)模型特征提取时忽略语义信息的问题,提出一种融合LDA和全局文本表示(GloVe)模型的病症文本聚类算法LG&K-Medoide.首先,利用LDA对病症文本数据建模,采用JS(Jensen-Shannon)距离计算文本相似度;其次,利用GloVe对病症文本数据建模获取词向量,根据病症词性贡献度,对词向量权重进行标注,采用余弦距离计算基于GloVe建模加权的文本相似度;最后,将两种相似度进行结合,改进距离公式,实现K-Medoide聚类.实验结果表明,LG&K-Medoide算法较基于LDA,LDA+TF-IDF,LDA+Word2Vec模型的聚类算法具有较高的精度.
病症文本、LDA、GloVe、相似度结合、聚类
39
TG391(金属压力加工)
河北省自然科学基金资助项目;河北省自然科学基金资助项目
2022-04-14(万方平台首次上网日期,不代表论文的发表时间)
共7页
92-98