基础教育领域缺乏统一技术规范,难以构建和清洗高质量教育数据,缺乏全场景集成化的多模态基础教育大模型评测方法,以及高效训练基座大模型的策略,导致教育大模型在实际教学场景中适用性和专业性不足,难以满足新课标要求。
突破了面向基础教育大模型的统一技术规范、支持全场景集成化的多模态基础教育大模型评测方法、基础教育领域数据的构建和清洗方法、基础教育基座大模型的高效训练策略等关键技术。研发了'师承万象'基础教育大模型,采用继续预训练、指令微调和直接偏好优化相结合的训练路径,实现了模型对课程标准内涵的深度理解与教育任务偏好的有效对齐。同时,研制了'北极星'基础教育大模型评测场,突破了传统解题评测局限,关注新课标要求的启发引导、素养导向、情境创设等能力评估。
20251119
教育
中央引导地方专项
北京市科学技术委员会;中关村科技园区管理委员会
北京师范大学和北京世纪好未来教育科技有限公司于2024年承接了北京市科技计划课题“基础教育大模型关键技术研究及示范应用”,课题执行期1年。该课题突破了面向基础教育大模型的统一技术规范、支持全场景集成化的多模态基础教育大模型评测方法、基础教育领域数据的构建和清洗方法、基础教育基座大模型的高效训练策略等关键技术,研发了可参考的技术规范、开放的评测平台、开源的基座大模型以及基于大模型的基础教育应用解决方案。代表性成果如下: 成果一:“师承万象”基础教育大模型 将大模型应用于基础教育领域,应遵循教育基本理论,全面理解并灵活运用新课标所倡导的育人理念与核心知识体系,深度契合教育实际场景,通过技术赋能推动教育高质量转型。 在市科委的支持和市教委的指导下,北京师范大学联合北京世纪好未来教育科技有限公司研发了首个紧扣新课标知识体系的基础教育大模型“师承万象”。该模型采用继续预训练、指令微调和直接偏好优化相结合的训练路径,创新性地实现了模型对课程标准内涵的深度理解与教育任务偏好的有效对齐,具备知识理解型智能解题、启发引导式智能答疑、情境创设型智能出题、素养导向型教案生成等教育能力,显著提升了模型在真实教学场景中的适用性和专业性。 目前,“师承万象“基础教育大模型支持初中学段数学、物理、化学学科,在教育专业能力与教育应用能力的全面评测中,于同等规模(14B参数量)大模型中综合表现排名第一,提升超过8.6%。为降低技术应用门槛,“师承万象”基础教育大模型将开源基础版本,供开发者进一步改进,以推动教育创新开放生态形成。 日前,师承万象基础教育大模型已封装为一体化应用系统,并入驻北京市教委AI应用超市。目前已在北京市超100所学校使用。三帆中学信息中心刘晓辉主任表示“系统操作便捷、功能实用,显著提升了备课与作业反馈效率,有效减轻了教师日常教学负担”。 成果二:“北极星”基础教育大模型评测场: 为规范人工智能在教育领域中的应用,需搭建教育领域人工智能大模型评测场。在市科委的支持和市教委的指导下,北京师范大学联合北京教育科学研究院、??北京智源人工智能研究院建设基础教育大模型评测场,其中北京师范大学和北京教育科学研究院负责教育和安全能力,北京智源人工智能研究院负责通用能力。 为了建立合理、科学的监管和安全保障体系,以标准化支撑测试场建设工作,北京师范大学联合北京教育科学研究院和中国电子技术标准化研究院等单位编制并发布了团体标准《人工智能基础教育大模型评测指标与方法》。 在标准的指导下,北京师范大学研制了首个基础教育领域的大模型评测场“北极星”,突破了传统解题评测局限,更加关注新课标要求的启发引导、素养导向、情境创设等能力评估,填补了教育大模型在真实教学场景中的评测空白。 当前,“北极星”评测场已覆盖初中“语/数/英/物/化/生/史/地/信息技术”9门学科、“备/教/练/考/评/管”6大教育场景,支持110多个维度的评测。评测结果显示,现有大模型大多数能力离实际应用需求尚有差距,例如在学科解题性能上会因题目改写受到较大影响,实验探究方面效果欠佳;在智能出题方面,大模型题目和解析的准确性仍有待提升,情境题生成能力普遍较差。经北师大二附中和101中学等6所学校的多位教师验证,“北极星”评测结果与具备多年教学经验的资深教师高度一致。 目前,“北极星”V1.0版本正式上线,已全面评测70多个主流大模型,评测榜单以网站形式向公众开放。未来,“北极星”基础教育大模型评测场将继续迭代更新,以更全面的评测维度、更科学的评测方法推动基础教育大模型安全、可靠、健康发展。
