中国计算语言学大会(CCL 2020)技术评测任务发布

 


        “第十九届中国计算语言学大会”(The Nineteenth China National Conference on Computational Linguistics, CCL 2020)将于2020年10月30日—11月1日在海口举行,会议主办单位为中国中文信息学会,承办单位为海南大学。

        本次大会继续组织中文技术评测。经过前期评测任务征集与筛选,评测委员会最终确定了5个评测任务:智源-京东多模态对话挑战大赛、“讯飞-法研杯”司法阅读理解、“小牛杯”幽默计算—情景喜剧笑点识别、“古联杯”古籍文献命名实体识别、中文语义依存图分析。“新冠”疫情给各个评测任务的组织筹备带来很大困难,感谢各任务组织者及单位为支持CCL技术评测付出的艰苦努力。欢迎广大研究者参与,共同推动相关技术发展。各任务组织方将为优胜者提供奖金,中国中文信息学会提供荣誉证书。

一、评测任务

任务1:智源-京东多模态对话挑战大赛

任务简介:
        人机对话系统是自然语言理解领域重要的研究方向之一。目前的人机对话系统局限于语音和文本的交互方式,然而近些年随着语音助手、虚拟数字人、智能服务机器人的普及,兼备视听言的多模态对话系统在零售、旅游等领域变得越来越重要。
        多模态人机交互需要综合自然语言处理、机器视觉等多项技术才能更加细致的理解用户的意图,从而给出准确而快速的回答。本次比赛聚焦于人机交互中对于多模态输入信息的理解,目的在于研究如何在对话过程中有效融合使用多模态用户问题信息,产生任务导向型对话的文本回答,使对话系统具备多模态语义理解的能力。
        此次大赛将同步发布JDDC Corpus 2.0多模态多轮任务导向型对话数据集,共包含多品类约24万session的对话,每session平均交互轮次约为7轮, 其中用户问题涉及约40余万张图片。此外,数据集还提供一个约3万商品的小型商品知识库作为相关商品知识的补充。大赛将提供免费的GPU供比赛队伍使用,资源有限,先到先得。

评测任务负责人: 何晓冬博士,京东AI研究院
                                 吴友政博士,京东AI研究院
                                 赵楠,京东AI研究院

奖励设置: 一等奖(1名),奖金50000元
                     二等奖(2名),每名奖金20000元
                     三等奖(3名),每名奖金10000元

任务网址:https://jddc.jd.com



任务2:“讯飞-法研杯” 中文司法阅读理解

任务简介:
        CCL 2020与CAIL 2020司法人工智能挑战赛联合举办“讯飞-法研杯”中文司法阅读理解评测。在CAIL 2019阅读理解评测基础上,本年度中文司法阅读理解评测体现两大新特点:(1)文书种类由民事、刑事扩展为民事、刑事、行政;(2)问题类型也由单步预测扩展为多步推理,难度有所升级。对于给定问题,只通过单句文本很难得出正确回答,系统需要结合多句话通过推理得出答案。
        本任务技术评测训练集包括两部分,一部分为去年的CAIL 2019司法阅读理解评测训练集,一部分为重新标注的约3000个问答对,其中民事、刑事、行政各1000个问答对,均为需要多步推理的问题类型。

评测任务负责人: 伍大勇,哈工大讯飞联合实验室
                                 崔一鸣,哈工大讯飞联合实验室
                                 胡振,中国司法大数据研究院
                                 王宝鑫,哈工大讯飞联合实验室

奖励设置: 一等奖(1名),奖金15000元
                     二等奖(2名),每名奖金7500元
                     三等奖(4名),每名奖金5000元

任务网址:http://cail.cipsc.org.cn/instruction.html



任务3:“小牛杯”幽默计算—情景喜剧笑点识别

任务简介:
        幽默计算近年来已成为自然语言处理领域的新兴热点之一,主要研究如何基于计算机技术进行幽默的识别、分类与生成。
        幽默的产生往往依赖于上下文信息,如对话中的幽默通常需要一个铺垫过程。在情景喜剧中,部分话语承担了引人发笑的作用,通常称其为笑点(Punchline)。本年度幽默计算任务以情景喜剧为载体,要求参赛者从剧情对话中识别笑点。
        本次评测选取了两部不同语种的情景喜剧(英文为《老友记》,中文为《我爱我家》)作为数据来源。根据场景和剧情的变化,情景喜剧被划分成对话(Dialogue)及连续的对白(Utterance)。参赛者需要结合上下文语境内容对对白是否幽默作出判断,识别出情景喜剧中的笑点。在数据规模方面,英文数据约包含700个对话,10000个对白;中文数据包含约500个对话,18000个对白。

评测任务负责人: 林鸿飞教授,大连理工大学
                                 杨亮博士,大连理工大学

奖励设置: 一等奖(1名),奖金10000元
                     二等奖(2名),每名奖金3500元
                     三等奖(3名),奖每名金1000元

任务网址:http://cips-cl.org/static/CCL2020/humorcomputation.html



任务4:“古联杯”古籍文献命名实体识别

任务简介:
        本评测任务由古联(北京)数字传媒科技有限公司举办。古籍文献的整理和分析对数字人文研究和中华文化传承具有重要意义。命名实体识别在古籍文献处理过程中极为重要,是其他工作得以顺利开展的关键。该项工作会影响到古文自动标点、文白翻译等一系列自动化处理工作,因此,能够从古籍文献中自动识别出专名信息是一项非常重要且有价值的工作。
        具体任务为:根据给定的古籍篇章,将候选篇章中的命名实体提取出来,并且按照既定类别进行归并。提取出来的实体名称大致分为两类:书名和其他专名(含人名、地名、朝代名、民族名等)。
        数据集方面:分为训练数据和评测数据,涉及经、史、子、集等1900多篇古籍文本。训练数据为带有标签的文本文件,共计1063291字符(计空格),含11068组书名,10040组专名。

评测任务负责人: 洪涛,古联(北京)数字传媒科技有限公司
                                 程瑞雪,古联(北京)数字传媒科技有限公司
                                 朱翠萍,古联(北京)数字传媒科技有限公司

奖励设置: 一等奖(1名),奖金20000元
                     二等奖(1名),奖金10000元
                     三等奖(2名),每名奖金5000元

任务网址:http://match.ancientbooks.cn



任务5:中文语义依存图分析

任务简介:
        语义依存分析是依存句法和语义的有机结合,其建立在依存理论基础上,是对语义的一种深层分析。语义依存用“图”而非“树”来表示,允许一个节点拥有多个父节点,且弧之间可以交叉。
        该任务可分解为两个部分,首先是根据依存语法建立依存结构,即找出句子中的所有修饰词与核心词对,然后再对所有的修饰词与核心词对指定语义关系。这样我们就能够解析出句子中词语间的语义关系,进而回答“Who did what to whom when where and how”等问题。和传统的句法依存分析任务相比,语义依存分析得出的结果能够为自然语言处理的其他下游任务提供更为直接和丰富的语义信息。
        评测由北京语言大学信息科学学院和哈尔滨工业大学社会计算与信息检索中心联合推出,根据语义依存图结构语义标注方案中粗粒度标准标注的语料共35430条,其中涉及新闻、中小学语文课本、散文、剧本四个领域。

评测任务负责人: 邵艳秋教授,北京语言大学,
                                 车万翔教授,哈尔滨工业大学

奖励设置: 一等奖(1名),奖金12000元
                     二等奖(1名),奖金6000元
                     三等奖(1名),奖金2000元

任务网址:http://ir.hit.edu.cn/sdp2020ccl

二、 技术评测总体时间安排

  • 任务征集截止:2020年4月15日
  • 评测任务发布:2020年5月26日
  • 评测时间:2020年5月26日—2020年9月30日
  • CCL 2020评测研讨会:2020年10月30日—2020年11月1日


  • 有任何问题请与任务组织者或评测主席联系。

    CCL2020 评测主席                                                               

    刘挺,哈尔滨工业大学,                                   

    宋巍,首都师范大学(wsong@cnu.edu.cn)