基于NLP的北京中轴线设计因子提取研究

引用

摘要：

为了更好地挖掘北京中轴线蕴含的丰富设计元素,提出一种基于自然语言处理的设计因子提取方法.首先利用爬虫爬取与北京中轴线及其南北延长线上各重要地标相关的语料数据,然后利用jieba对爬取的语料数据进行分词并删除停用词.获得分词结果后,利用词频-逆文档频率(term frequency-inverse document frequency,TF-IDF)技术提取各地标的关键词及其权重,选取其中权重较高的关键词作为该地标的主题词.利用词语间的相似度对各地标的主题词进行聚类,并根据聚类结果提取语义因子.提取的大致流程包括首先要求参与者在充分阅读相关材料后通过投票排除无意义的聚类结果,然后利用卡片分类法将聚类结果进行合并,最后要求参与者用感性词汇对卡片分类结果进行恰当命名以获得各地标的语义因子.根据各地标的语义因子编制语义差异法问卷,邀请参与者对各地标的典型颜色进行打分以筛选与之匹配的色彩因子.最终提取出22个地标共计64个语义因子及22个色彩因子.提取的语义因子及色彩因子能够很好地反映各地标的内涵语义及其外延的风格特征,为未来北京中轴线的相关设计提供了设计元素.

关键词：土木建筑工程其他学科、北京中轴线、设计因子、自然语言处理、语义差异法

所属期刊栏目：15

分类号：TU-8

在线出版日期：2022-04-14（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：66-72

英文信息展示

期刊专题