人工智能大模型应用评价指标体系研究

发布日期：2023-12-10来源：市数转中心字号：大中小

一、研究背景和目的

人工智能大模型热度持续攀升，落地应用横向拓面、纵向深化，已进入快速发展的时代，但仍存在学术打榜、能力参差不齐、实际应用效果存在差异、安全隐患、模型切换成本高等问题。本研究旨在探索构建人工智能大模型应用评价指标体系，通过评估大模型的应用能力与赋能效果，为大模型技术提供者和服务使用者在选择大模型时提供参考，为本市全力打造具有国际影响力的人工智能“上海高地”注入动能。

二、主要研究内容

全球人工智能大模型发展的现状趋势。研究指出，数据、算法、算力核心三要素更新迭代脚步加快，共同驱动AI大模型性能提升，大模型市场规模将持续增长，预计到2023年末，全球AI大模型市场规模将达到210亿美元，并在2028年达到1095亿美元。多模态大模型拉开通用AI的序幕，模型开源成为大模型发展新趋势。MaaS重构商业化生态，显著降低AI应用开发门槛。智能终端应用趋势明显，具身智能有望实现新突破。覆盖全生命周期、具有可操作性的AI安全风险治理体系将进一步完善。

国内外大模型测试体系的特点和不足。一是综合性测试指标更多集中在自然语言应用方面，在计算机视觉方面较少有公开资料。二是测试指标聚焦大模型的通用功能和性能，围绕特定行业和场景的测试指标较少。三是测试范围逐步由大模型本身向前端数据及训练环境延伸，大模型应用能力测试维度未实现全覆盖。四是大模型应用赋能能力除了自身产品的性能和安全可信之外，未考虑应用生态维度；五是安全评测在具体实施中主观性评估依然缺乏参考标准。

大模型应用评价指标体系的构建思路。形成“4+14”人工智能大模型应用评价指标体系框架，包括技术能力、经济能力、安全能力、推广应用能力。同时对上海大模型应用评价体系发展提出建议：一是构建大模型评价标准体系；二是支持社会开发更多自动化测评工具；三是推动测评工作平台化开展；四是推动产业生态培育。

（本课题由上海华东电信研究院、市数转中心联合研究）

附件：

【返回】

打印