《红楼梦》词和N元文法分析
[目的]研究《红楼梦》前八十回与后四十回的关系,从而判定《红楼梦》是否为一人所写.[方法]定量统计和定性分析相结合,比较前、中、后四十回的独有词;利用虚词、词及词类的N元文法模型、实词以及词长进行聚类;计算三个部分的相似度.[结果]证明前八十回与后四十回有差异.前八十回用词连贯性较高,更重视细节描写,长词较少,可读性更强;后四十回更重视动作和场景化描写,长词较多,可读性稍弱.[局限]仅限于词和N元文法,未能进一步考察语义、语篇等方面的特征.[结论]从词、词类、短语串和词类串等方面分析,前八十回与后四十回很可能并非一人所作.
风格分析、层次聚类、K-means、聚类、N元文法
P315.69(大地(岩石界)物理学(固体地球物理学))
本文系国家自然科学基金项目“基于语用信息的交互行为与语言特征的建模研究”项目编号:61171114和教育部自主科研项目“基于大规模语料库的社会语用信息网的构建”项目编号:20111081010的研究成果之一.
2015-05-12(万方平台首次上网日期,不代表论文的发表时间)
50-57