评测日程
特邀报告1

讲者:邵婧
题目:大模型及智能体安全评测体系构建:近端漏洞发现与远端风险预测
个人简介:邵婧,博士毕业于香港中文大学MMLab,曾任商汤科技研究总监,现任上海人工智能实验室安全可信AI中心联合负责人、青年科学家,兼上海交通大学、复旦大学博士导师,研究自主、可控、可信AI,聚焦多种模态大模型及智能体安全评估与价值对齐相关研究工作。在国际顶会期刊发表论文50余篇,引用11100余次,并于ACL2024获得杰出论文奖。入选上海东方英才拔尖人才、深圳市海外高层次人才计划,中国青年科技工作者协会会员,2024年度斯坦福前2%科学家榜单。已授权专利20余项,并在智慧城市、智慧交通、智能手机等产业领域落地验证,曾获2022年度“深圳人工智能科技进步奖”。
特邀报告2

讲者:张岳
题目:大模型推理能力的综合鲁棒评估
个人简介:张岳,西湖大学教授,工学院副院长。2003年获得清华大学计算机科学本科学位,2009年获得牛津大学计算机科学博士学位,2010~2012在剑桥大学从事博士后研究工作。主要研究领域为自然语言处理、语言模型、可信赖的人工智能等。著有剑桥大学出版社《自然语言处理—机器学习视角》,编写牛津参考文献自然语言处理。担任国内外顶级会议CCL 2020、EMNLP 2022程序委员会主席,以及TACL、TASLP等期刊编委。获ACL 2018 (提名)、COLING 2018、IALP 2017、SemEval 2020、ACL 2023(提名)等国际会议的最佳论文奖。入选斯坦福全球2%科学家、爱思唯尔中国高被引学者等榜单。
评测日程表
时间:8月12日
地点:待定
时间段 | 时长 (分钟) | 流程 |
---|---|---|
8:30-8:35 | 5 | 开幕式 |
8:35-9:20 | 45 | 特邀报告 1: 邵婧 大型模型及智能体安全评测体系构建 |
9:20-9:50 | 30 | 任务 1: 第五届空间语义理解评测 |
9:50-10:10 | 20 | 任务 2: 第三届汉语框架语义解析评测 |
10:10-10:30 | 20 | 任务 3: 第五届中文抽象语义表示解析评测 |
10:30-10:40 | 10 | 休息 |
10:40-11:10 | 30 | 任务 4: 第一届中文叙实性推理评测 |
11:10-11:40 | 30 | 任务 5: 第一届中文诗词赏析评测 |
11:40-12:10 | 30 | 任务 6: 第二届中文作文修辞识别与理解 |
12:10-13:40 | 午饭 | |
13:40-14:25 | 45 | 特邀报告 2: 张岳 大型模型推理能力的综合鲁棒评估 |
14:25-14:55 | 30 | 任务 7: 第一届中国文学语言理解评测 (争鸣) |
14:55-15:10 | 15 | 任务 8: 中文电子病历 ICD 诊断编码评测 |
15:10-15:40 | 30 | 任务 9: 中医证辨病及中药处方生成评测 |
15:40-15:50 | 10 | 休息 |
15:50-16:20 | 30 | 任务 10: 细粒度中文仇恨言论识别评测 |
16:20-16:50 | 30 | 任务 11: 大学生汉字硬笔书写质量评测 |
16:50-17:20 | 30 | 任务 12: 面向中文语音的实体关系三元组抽取评测 |
17:20-18:00 | 40 | Pannel 讨论 |