讲习班
讲者1:何俊贤

讲者:何俊贤
讲者单位:香港科技大学
题目:以强化学习为中心的大模型深度推理
报告摘要:
本次报告将系统回顾大模型深度推理的基本原理与关键技术。首先,梳理大模型推理的发展脉络,重点阐述从传统思维链到长思维链的范式演变。其次,聚焦驱动此演变的核心技术——强化学习,并围绕推理性能与效率两大目标,对比分析不同强化学习算法的基本原理与设计思路。最后,探讨当前深度推理技术面临的发展瓶颈及未来潜在研究方向。
个人介绍:
何俊贤,香港科技大学计算机科学与工程系助理教授。他于2022年从卡内基梅隆大学计算机学院获得自然语言处理领域的博士学位。他最近的研究重点是大模型推理。他担任ICLR、ACL和EMNLP的领域主席。代表作有Unify-PEFT, C-Eval, CodeIO, SimpleRL等。
讲者2:王希廷

讲者:王希廷
讲者单位:中国人民大学
题目:探索大语言模型精准神经元控制与基本价值观对齐
报告摘要:
大语言模型复杂的结构让人们越来越难对它们进行理解、预测和掌控。我们应该怎么找到大模型瓶颈,找到性能提升的方向,又确保大模型在各个复杂的现实场景都安全、与人类意图对齐呢? 通用人工智能的新范式给解释和对齐带来了什么挑战和机遇呢?这个讲座将围绕这些问题进行探讨,介绍大模型解释和对齐方面的最新进展,聚焦高普适性概念解释及其如何解读神经元功能,探讨宏观基础价值对齐及其与社会学、测量学的可能结合点。
个人介绍:
王希廷,中国人民大学高瓴人工智能学院副教授,中国人民大学杰出学者。2011年本科毕业于清华大学,2017年博士毕业于清华大学。研究方向为大模型可解释与安全对齐。发表论文60余篇,两次获选A类期刊IEEE TVCG封面论文奖,获得CCF自然科学二等奖(第四完成人)。担任IJCAI、AAAI领域主席,Q1期刊Visual Informatics编委,AAAI杰出资深程序委员会委员。相关成果落地三个微软产品。
讲者3:魏忠钰

讲者:魏忠钰
讲者单位:复旦大学
题目:大模型智能体驱动的社会模拟:进展与挑战
报告摘要:
社会模拟通过构建现实世界的参照,达到建模目标个体或者群体的行为模式、预测事件的演化趋势、辅助现实决策的目的。随着大语言模型角色扮演能力的提升,越来越多的学者将大语言模型引入到社会科学研究中,在模拟社会调查、评估传播效果、仿真政治行为等场景都取得了正面的结果。大模型智能体驱动的社会行为模拟可以分为三个层级:(1)个体模拟:模拟特定个体或人口属性群体;(2)场景模拟:模拟多智能体在特定场景的交互和协作;(3)社会模拟:模拟更大规模人群的交互,反映社会动态。本次讲习班将综述近期大模型智能体驱动的社会模拟的研究进展,并勾勒相关研究的未来趋势和挑战。
个人介绍:
魏忠钰,复旦大学大数据学院副教授、博士生导师、数据智能与社会计算(Fudan DISC)课题组负责人,上海创智学院全时导师,香港中文大学博士。主要研究领域包括多模态大模型和社会模拟,在ICML、ICLR、ACL等国际期刊会议发表学术论文100余篇,代表成果包括图文混合的多步推理大模型Volcano和国内首个开源社会媒体仿真框架HISim。担任ACL 2023,EMNLP 2024和 NAACL 2025高级领域主席(SAC),担任YSSNLP 2019,CCAC 2023和NLPCC 2024程序委员会主席。担任CIPS情感计算专委会秘书长,曾任CIPS青工委执委会副主任,曾获得CIPS社会媒体处理专委会新锐奖,上海市启明星计划,CCF自然语言处理专委会新锐学者奖。
讲者4:李文曦、詹卫东、孙薇薇



讲者:李文曦、詹卫东、孙薇薇
讲者单位:中央民族大学、北京大学、剑桥大学
题目:语言模型与语言理论
报告摘要:
近年来,随着大语言模型的迅猛发展,其在语言学习与使用方面展现出的能力,不断拓展着我们对语言的科学认知。语言模型与语言理论之间,正在形成前所未有的深度互动。本讲座聚焦于语言模型与语言理论的交叉研究,旨在探讨语言理论如何为语言模型提供新的认知基础与建模范式,并研究语言模型如何反作用于语言理论以加深其对语言的理解。我们将从以下三种研究视角出发,系统探讨两者融合的可能方式:
• 在资源评测维度,如何基于语言理论设计评测数据,揭示语言模型在语法、语义、语用等方面的表现?
• 在理论验证维度,如何将语言模型视为可控、可重复的实验平台,落实、细化和验证语言学理论假设?
• 在工程实践维度,如何将语言理论融入语言模型的设计与训练中,使其更加贴近人类的语言处理机制?
个人介绍:
李文曦,北京大学中文系汉语言学士、现代汉语(中文信息处理专业)博士,剑桥大学计算机科学技术系联合培养博士。现为中央民族大学助理教授。研究方向为计算语言学,主要关注面向多语言的句法、词汇、语义计算建模。在Computational Linguistics、语言科学等国内外学术期刊及ACL、NAACL等国际会议发表多篇论文。
詹卫东,北京大学中文系教授,博士生导师。北京大学中国语言学研究中心副主任,北京大学计算语言学研究所副所长。主要从事现代汉语形式语法、语言知识工程与中文信息处理、语言文字应用方面的研究。代表性成果有《面向中文信息处理的现代汉语短语结构规则研究》,国家语言文字标准《出版物上数字用法》及配套读本《〈出版物上数字用法〉解读》。参编《计算语言学概论》《自然语言处理》《现代汉语》等多部教材。在国内外学术刊物发表论文多篇。近年来研究兴趣主要集中在现代汉语构式资源库建设,面向认知智能的机器语言理解能力评测等。
孙薇薇,剑桥大学计算机科学技术系副教授,博士生导师。主要探索如何用计算模型解释语言的结构与变化,致力于构建兼具理论深度与应用价值的多语言计算模型。目前已在计算语言学领域的顶级会议、期刊上发表论文四十余篇。多次担任ACL、EMNLP、CCL等国际会议的程序主席和领域主席。
讲者5:曹艺馨

讲者:曹艺馨
讲者单位:复旦大学
题目:模型效用定律:迈向可泛化评估之路
报告摘要:
近年来,众多评估基准的提出极大地推动了大模型训练与应用,但这些基准依旧难以避免快速过时、数据污染与不公正比较等问题,逐渐成为人工智能“下半场”的核心瓶颈。 本报告首先总结了大模型带来的两种评估范式转变:从任务到能力的评测,以及从手动到自动的评测。其次,以此为基础深入剖析传统评估范式在大模型时代的根本局限:受规模效应(scaling laws)驱动,模型能力可通过扩充数据、参数与算力持续跃升,而评估数据集出于成本与效率考虑无法同步扩张。于是,我们被迫用有限样本去衡量近乎无限的模型能力,即所谓的“评估泛化性”难题。最后,为破解此困境,可泛化评估范式的目标是预测并衡量模型尚未显性展现的潜在能力。为此,我们提出模型效用指数(Model Utilization Index, MUI),引入机制可解释性手段,对传统性能指标形成补充,从“效用”视角全面评估模型能力(涵盖数据集之外的潜在能力)。大规模实验表明,MUI 与性能呈反向关系,由此我们总结出在主流 LLM 中普遍存在的“效用定律”(Utility Law)。基于该定律,我们进一步推导出四条推论,分别针对训练判定、数据污染问题、模型比较公平性以及数据多样性等关键挑战。
个人介绍:
曹艺馨,复旦大学青年研究员、博士生导师。于清华大学获得博士学位,曾先后在新加坡国立大学、南洋理工大学和新加坡管理大学担任博士后、研究助理教授和助理教授职位。国家级青年人才计划入选者、上海市青年领军人才计划入选者。研究领域为自然语言处理、知识工程和多模态信息处理,在国际知名会议和期刊发表论文80余篇,谷歌学术引用8600余次,并多次被领域内国际顶级会议评为口头报告。研究成果获得两项国际会议的最佳论文及提名,曾获Lee Kong Chian Fellowship、Google South Asia & Southeast Asia Awards和AI 2000最具影响力学者奖的荣誉提名,Elsevier 2024全球前2%顶尖科学家。担任多个国际会议演示程序主席、领域主席和国际期刊审稿人。