最新版栏目
一、研究背景和目的
人工智能大模型热度持续攀升,落地应用横向拓面、纵向深化,已进入快速发展的时代,但仍存在学术打榜、能力参差不齐、实际应用效果存在差异、安全隐患、模型切换成本高等问题。本研究旨在探索构建人工智能大模型应用评价指标体系,通过评估大模型的应用能力与赋能效果,为大模型技术提供者和服务使用者在选择大模型时提供参考,为本市全力打造具有国际影响力的人工智能“上海高地”注入动能。
二、主要研究内容
全球人工智能大模型发展的现状趋势。研究指出,数据、算法、算力核心三要素更新迭代脚步加快,共同驱动AI大模型性能提升,大模型市场规模将持续增长,预计到2023年末,全球AI大模型市场规模将达到210亿美元,并在2028年达到1095亿美元。多模态大模型拉开通用AI的序幕,模型开源成为大模型发展新趋势。MaaS重构商业化生态,显著降低AI应用开发门槛。智能终端应用趋势明显,具身智能有望实现新突破。覆盖全生命周期、具有可操作性的AI安全风险治理体系将进一步完善。
国内外大模型测试体系的特点和不足。一是综合性测试指标更多集中在自然语言应用方面,在计算机视觉方面较少有公开资料。二是测试指标聚焦大模型的通用功能和性能,围绕特定行业和场景的测试指标较少。三是测试范围逐步由大模型本身向前端数据及训练环境延伸,大模型应用能力测试维度未实现全覆盖。四是大模型应用赋能能力除了自身产品的性能和安全可信之外,未考虑应用生态维度;五是安全评测在具体实施中主观性评估依然缺乏参考标准。
大模型应用评价指标体系的构建思路。形成“4+14”人工智能大模型应用评价指标体系框架,包括技术能力、经济能力、安全能力、推广应用能力。同时对上海大模型应用评价体系发展提出建议:一是构建大模型评价标准体系;二是支持社会开发更多自动化测评工具;三是推动测评工作平台化开展;四是推动产业生态培育。
(本课题由上海华东电信研究院、市数转中心联合研究)
附件: