基于POS-CBOW语言模型的相似词分析
相似词分析是自然语言处理领域的研究热点之一,在文本分类、机器翻译和信息推荐等领域中具有重要的研究价值和应用意义.针对新浪微博短文本的特点,给出一种带词性的连续词袋模型(POS-CBOW).该模型在连续词袋模型的基础上加入过滤层和词性标注层,对空间词向量进行优化和词性标注,通过空间词向量的余弦相似度和词性相似度来判别词向量的相似性,并利用统计分析模型筛选出最优相似词集合.实验表明,基于POS-CBOW语言模型的相似词分析算法优于传统CBOW语言模型.
自然语言处理、语言模型、词向量、相似词、POS-CBOW
36
TP391(计算技术、计算机技术)
河北省社会科学发展研究课题资助项目2015030344
2015-12-11(万方平台首次上网日期,不代表论文的发表时间)
共7页
532-538