评测日程


特邀报告1

讲者:邵婧

题目:大模型及智能体安全评测体系构建:近端漏洞发现与远端风险预测

个人简介:邵婧,博士毕业于香港中文大学MMLab,曾任商汤科技研究总监,现任上海人工智能实验室安全可信AI中心联合负责人、青年科学家,兼上海交通大学、复旦大学博士导师,研究自主、可控、可信AI,聚焦多种模态大模型及智能体安全评估与价值对齐相关研究工作。在国际顶会期刊发表论文50余篇,引用11100余次,并于ACL2024获得杰出论文奖。入选上海东方英才拔尖人才、深圳市海外高层次人才计划,中国青年科技工作者协会会员,2024年度斯坦福前2%科学家榜单。已授权专利20余项,并在智慧城市、智慧交通、智能手机等产业领域落地验证,曾获2022年度“深圳人工智能科技进步奖”。

特邀报告2

讲者:张岳

题目:大模型推理能力的综合鲁棒评估

个人简介:张岳,西湖大学教授,工学院副院长。2003年获得清华大学计算机科学本科学位,2009年获得牛津大学计算机科学博士学位,2010~2012在剑桥大学从事博士后研究工作。主要研究领域为自然语言处理、语言模型、可信赖的人工智能等。著有剑桥大学出版社《自然语言处理—机器学习视角》,编写牛津参考文献自然语言处理。担任国内外顶级会议CCL 2020、EMNLP 2022程序委员会主席,以及TACL、TASLP等期刊编委。获ACL 2018 (提名)、COLING 2018、IALP 2017、SemEval 2020、ACL 2023(提名)等国际会议的最佳论文奖。入选斯坦福全球2%科学家、爱思唯尔中国高被引学者等榜单。

评测日程表

时间:8月12日
地点:待定

时间段 时长 (分钟) 流程
8:30-8:35 5 开幕式
8:35-9:20 45 特邀报告 1: 邵婧 大型模型及智能体安全评测体系构建
9:20-9:50 30 任务 1: 第五届空间语义理解评测
9:50-10:10 20 任务 2: 第三届汉语框架语义解析评测
10:10-10:30 20 任务 3: 第五届中文抽象语义表示解析评测
10:30-10:40 10 休息
10:40-11:10 30 任务 4: 第一届中文叙实性推理评测
11:10-11:40 30 任务 5: 第一届中文诗词赏析评测
11:40-12:10 30 任务 6: 第二届中文作文修辞识别与理解
12:10-13:40 午饭
13:40-14:25 45 特邀报告 2: 张岳 大型模型推理能力的综合鲁棒评估
14:25-14:55 30 任务 7: 第一届中国文学语言理解评测 (争鸣)
14:55-15:10 15 任务 8: 中文电子病历 ICD 诊断编码评测
15:10-15:40 30 任务 9: 中医证辨病及中药处方生成评测
15:40-15:50 10 休息
15:50-16:20 30 任务 10: 细粒度中文仇恨言论识别评测
16:20-16:50 30 任务 11: 大学生汉字硬笔书写质量评测
16:50-17:20 30 任务 12: 面向中文语音的实体关系三元组抽取评测
17:20-18:00 40 Pannel 讨论