最新版栏目
牵头单位:上海库帕思科技有限公司
参与单位:上海人工智能创新中心、北京慕华信息科技有限公司、上海南湖职业技术学院
获得奖项:国家数据要素x大赛开放性创新赛道 三等奖
我国教育AI 产业面临方法论缺失、主力军缺位、技术创新滞后、要素割裂等问题,丰富的应用场景数据难以形成协同生态,制约数据价值释放。上海库帕思科技有限公司提出“三个重构”,聚焦教育垂类大模型全流程数据供给需求,按“2+2+1”模式(即教育行业通识数据集,包括文本数据集和音视频数据集;教育行业专业专识数据集,包括思维链强推理数据集、监督微调数据集;教育大模型评测数据集)构建高质量数据集,为教育大模型训练、微调、评测提供支撑。
一是汇聚教育行业多模态多层次数据,构建全阶段数据集。汇聚教育行业多模态、多语言、多层次数据,包括专业书籍、专业教材、在线课程、教学案例、教学过程、教学行为等各类知识与数据。分类构建数据集,覆盖预训练阶段的大规模文本与视频数据,后训练阶段的高质量思维链与精调数据,以及应用阶段的实用型测评数据。
二是全流程保障教育大模型数据供给,以多元运营开放赋能教育生态。聚焦教育大模型“事前、事中、事后”全流程数据供给需求,综合采用公开数据再生产、合作开发、众包采集等方式获取数据。建立分级分类运营可持续发展模式和“3+X”业务矩阵(即语料产品和服务、数据基础设施服务、咨询服务、生态链接服务),兼顾商业运营和开源开放,开放数据公共服务平台,开源超100 万条数据,累计下载次数超150 万次。
三是多主体赋能全领域数据应用,海量供给支撑大模型研发落地。数据应用覆盖多类主体,基模公司利用多模态数据集进行预训练;高校院所利用微调数据集开展场景适配、特色数据集构建和人才培养;智能体开发者利用开源数据进行二次开发。数据集规模突破7029TB,涵盖教育、医疗、工业等全领域1106 个子项数据集,为100 余家企业提供数据服务,支持不少于10 个大模型研发。
四是营收增效驱动教育AI 发展,以体系创新填补行业方法空白。在经济效益方面,产生1.2 亿元直接营业收入,推动教育AI产业降本增效;在社会价值方面,培养AI 人才,促进教育数字化转型,提升教育服务质量;在产业创新方面,构建“4+1+X”高质量数据体系(即基石数据、SFT 数据、CoT 数据、评测数据、知识图谱、专业数据集),构建“Data4AI”技术体系,为行业提供可复制范式。
附件: