数据科学平台:特征、技术及趋势
以2015年以来的《Gartner数据科学平台魔力象限系列年度报告》为线索,分析调研35种数据科学平台产品,提出数据科学平台的定义和类型.数据科学平台相关学术研究中的主要科学问题涉及数据科学平台的设计、数据科学平台的可扩展性、基于数据湖的数据科学平台研发、数据科学平台的支持团队协作能力、数据科学平台的开放策略以及数据科学平台工程方法论.数据科学平台的主要特征包括模块化开发及集成能力、开发运维一体化、重视可扩展性、强调用户体验、重视非专业级数据科学家以及重视人机协同场景;数据科学平台的实现需要的关键技术为机器学习、流处理技术、数据规整化、容器化技术和数据可视化;数据科学平台的未来发展趋势主要体现在与人工智能的融合、对开源技术的支持、对非专业级数据科学家的重视、数据治理的集成、数据湖的引入、高级分析及应用的探索、向数据科学全流水线的转型和应用领域的多样化等;数据科学平台的研发活动应遵循以激活数据价值为中心、人在环路(human-in-the loop)的设计模式、开发运维一体化、可用性和可解释性的平衡、数据科学产品生态系统的培育、强调用户体验以及与其他业务系统的集成等设计原则.现阶段的数据科学平台研发亟待在数据偏见与公平性、鲁棒性及稳定性、隐私保护、因果分析、可信任/负责任数据科学平台等方面进行理论突破.
数据科学平台;数据科学家;开发运维一体化;可解释性;可扩展性
48
TP391(计算技术、计算机技术)
国家自然科学基金项目72074214
2021-08-20(万方平台首次上网日期,不代表论文的发表时间)
共12页
1-12