面向算法模型的语音数据集质量评估方法研究
随着智能语音技术和产品应用大规模的成熟落地,对高质量语音数据集的需求与日俱增.目前,针对结构化数据的质量评估方法有一定的研究,但尚未形成面向非结构化的语音数据集质量评估标准.通过研究语音算法模型的构建原理,分析语音数据集的建设需求,建设统一的语音数据集质量评估体系.该评估体系从4个维度对面向算法模型训练的语音数据集进行质量评价,包括广度覆盖性、选集区分性、领域深入性和数据完整性.通过提出具体的语音数据集质量评估指标、计算方法和评估步骤等,对车载应用领域语音数据集的质量进行评估并对结果进行分析,对评估语音数据集质量、促进数据集建设提供参考.考虑了语音数据集构建的多样化适用能力、隐私问题、效率要求、自动化需求等,提出了构建高质量的语音数据集的未来发展建议.
人工智能、语音数据集、质量评估、算法、模型、智能语音
49
TN912.34
2023-05-22(万方平台首次上网日期,不代表论文的发表时间)
共6页
507-512