10.3778/j.issn.1002-8331.2203-0286
科技资源文本层次多标签分类方法
科技资源文本层次多标签分类(hierarchical multi-label text classification,HMTC)用于将科技资源文本分配到一个具有层级结构的标签体系中.提出基于注意力机制的科技资源文本层次多标签分类算法(academic resource text hierarchical multi-label classification based on attention,AHMCA).通过整合文本、关键词、层次结构等特征构造注意力机制层,对HMCN-F(hierarchical multi-label classification network-feed-forward)网络进行改进,将科技资源文档逐级分类到最相关的类别中.细节上,主要利用word2vec与BiLSTM来获得文本、关键词、层次结构的嵌入向量和隐向量表示;利用层次注意力机制捕获关键词、标签层次结构与文本词向量之间的关联关系来强化重点词向量的权重,从而生成特定于层级的文档嵌入向量,替代HMCN-F中原始的文本嵌入.实验结果验证了AHMCA方法的有效性.
层次多标签分类、注意力机制、BiLSTM、word2vec
59
TP391(计算技术、计算机技术)
国家重点研发计划;国家自然科学基金;国家自然科学基金
2023-07-18(万方平台首次上网日期,不代表论文的发表时间)
共7页
92-98