10.16652/j.issn.1004-373x.2023.11.021
基于改进多模态RCNN的音频情感识别与分类模型设计
在海量音乐素材库的建设和音乐应用的自动推荐等场景中,由于乐曲特征具有复杂性与非线性的特点,因此计算机对音乐情感的自动识别效果并不理想.针对传统机器学习算法存在准确率偏低、鲁棒性较差的问题,文中基于改进的RCNN网络提出一种多模态的音乐情感识别及分类算法模型设计方案.该模型通过加重、分帧和加窗等手段对多模态数据进行预处理,并使用MFCC提取乐曲频率的特征向量,同时采用RCNN网络提取特征向量的全局及局部特征,利用双向LSTM算法获取数据的时序特征,再将训练得到的数据经自注意力机制加权后输出分类结果.在实验测试中,所提算法的二分类和四分类测试结果均优于对比算法,且平均分类准确率领先同类算法1.9%,证明其具有较为理想的综合性能.
音乐情感识别、分类模型、多模态RCNN、数据预处理、特征提取、数字音频、分类结果输出
46
TN912.3-34;TP391
国家自然科学基金62262067
2023-06-05(万方平台首次上网日期,不代表论文的发表时间)
共5页
114-118