10.16157/j.issn.0258-7998.211437
一种基于成词率和谱聚类的电力文本领域词发现方法
考虑到当前电力行业仍缺少有效的领域词发现方法,以电力行业科技项目文本为原始语料库,将基于互信息与左右熵的统计特征与传统语言构词规则特征相融合,提出了电力文本成词率的概念.所提方法首先利用成词率对电力文本进行无监督筛选得到初始候选词集,然后对候选词集进行文本切片算法和常用词过滤操作,最后进行词嵌入和谱聚类得到最终所需的电力文本领域词.实验结果表明,所提出的方法准确有效,为电力文本的领域词发现提供了一种新方法.
成词率;谱聚类;领域词发现;电力文本
47
TP311(计算技术、计算机技术)
国家自然科学基金面上项目;教育部-中国移动人工智能建设项目
2021-11-02(万方平台首次上网日期,不代表论文的发表时间)
共5页
29-32,37