司法大数据文本挖掘与量刑预测模型的研究
大数据时代,计算机数据正以海量速度增长,尤其是非结构化的文字数据最为惊人.利用自动化文本挖掘技术处理非结构化数据,获得有价值的预测或趋势信息,已成为近年来的热门议题.法院判决书是典型的非结构化数据,本研究以中国裁判文书网毒品判决书为文本挖掘对象,利用TF-IDF、N-Gram、关联性分析及CRISP-DM等技术方法,对388份判决书进行自动化分类及数据化转换,并利用统计线性回归方法,实时分析法院判决数据,建构出量刑预测模型.经评估后发现,本研究所提出的判决分类及量刑预测模型均有良好的预测能力.本研究所提出的判决书文本挖掘流程与自动化模型架构,未来可以为司法大数据应用提供参考.
大数据、判决书、文本挖掘、统计回归、量刑预测模型
C02;TP311.13;D926.13
国家社会科学基金16BFX059
2020-09-25(万方平台首次上网日期,不代表论文的发表时间)
共17页
113-129