2019语言与智能技术竞赛

阅读量:754
2019-02-22

(2019 Language and Intelligence Challenge)

2019语言与智能技术竞赛由中国计算机学会(CCF)和中国中文信息学会(CIPS)联合主办,百度公司、CCF中文信息技术专委会和中国中文信息学会评测工作委员会联合承办。竞赛将于2019年2月25日正式开启报名通道,获胜团队将分享总额27万人民币的奖金,并将在第四届“语言与智能高峰论坛”举办技术交流和颁奖。在此,诚邀学术界和工业界的研究者和开发者参加本次竞赛!

竞赛背景

中国计算机学会中国中文信息学会于2016-2018年联合发起了三届“语言与智能高峰论坛”,邀请了国内外学术界和工业界的知名专家学者,共同探讨语言与智能领域的新发展和新技术。第四届“语言与智能高峰论坛”将于2019年8月24日在北京召开,除向社会公众介绍国内外语言与智能及相关领域的发展趋势和创新成果外,本届会议还将举办语言与智能技术竞赛,进一步推动语言与智能领域的技术交流和发展。

语言是人类信息传递最重要的媒介,让机器理解语言并使用语言进行交互是走向通用人工智能的重要挑战,本届竞赛设立了三个任务:机器阅读理解、知识驱动对话和信息抽取。机器阅读理解是指让机器阅读文本然后回答和阅读内容相关的问题,旨在使机器具备理解自然语言的能力;知识驱动对话是一种人机对话任务,让机器根据构建的知识图谱进行对话,旨在使机器具备模拟人类用语言进行信息交流的能力;信息抽取是指让机器自动从自然语言文本中抽取实体、属性、关系等知识信息,旨在使机器具备从海量文本信息中自动构建知识的能力。本次竞赛的任务涉及到语言理解、人机对话、知识抽取等复杂技术,极具挑战。这些任务的研究对于智能搜索、智能推荐、智能交互等人工智能应用具有重要意义,是自然语言处理和人工智能领域的重要前沿课题。本次竞赛设立的三个任务都将提供大规模中文数据集,为研究者提供学术交流平台,推动语言理解和人工智能领域技术研究和应用的发展。

奖项设置

竞赛的每个任务都将分别评出一等奖1名,二等奖2名,三等奖2名,主办方中国计算机学会(CCF)和中国中文信息学会(CIPS)将为获奖者提供荣誉证书认证。同时,百度公司将为获奖者提供奖金和参会交流赞助。

●  一等奖: 30,000 +荣誉证书

  二等奖: 20,000 +荣誉证书

  三等奖: 10,000 +荣誉证书

重要时间

●  2019/2/25: 启动竞赛报名,竞赛平台开放,发放样例数据

  2019/3/31: 报名截止,对报名者发放全部训练数据和第一批测试数据

  2019/5/13: 发放最终测试数据

  2019/5/20: 系统结果提交截止

  2019/5/31: 公布竞赛结果,接收系统报告和论文

  2019/7/31: 最终版论文提交截止日期

●  2019/8/24: 在“语言与智能高峰论坛”上交流和颁奖

  2019/10:   NLPCC 2019主会议日期,在workshop上交流

注册报名

预报名:即日起至2019年2月24日,有意向参加的队伍可以扫描下方二维码进行预报名登记。登记的队伍在竞赛网站开启正式报名后会收到邮件通知,请根据邮件提示进行正式报名。预报名且正式报名成功的队伍将获得百度定制礼品一份。

1

正式报名:竞赛网站将于2019年2月25日正式开放注册报名,请及时关注。正式报名并最终提交有效结果的队伍的每位成员均将获得一件大赛定制T恤(3个任务不重复领取)。

竞赛任务

介绍竞赛任务1 - 机器阅读理解

■   任务描述

对于给定问题q及其对应的文本形式的候选文档集合D=d1, d2, ..., dn,要求参评阅读理解系统自动对问题及候选文档进行分析,输出能够满足问题的文本答案a。目标是a能够正确、完整、简洁地回答问题q。

输入/输出:

☆  输入: 问题q及其对应的候选文档集合D

☆  输出: 满足用户问题q的文本答案a

    数据集

本届竞赛的机器阅读理解任务是“2018机器阅读理解技术竞赛”的延伸。任务数据集包含约28万来自百度搜索的真实问题,每个问题对应5个候选文档文本,以及人工撰写的优质答案。数据集划分为包含27万个问题的训练集、3000个问题的开发集和7000个问题的测试集。本次任务的训练集与2018年竞赛的训练集相同,已在DuReader发布,可自由下载(下载地址),供参赛者训练和调试模型使用。开发集和测试集则由2018年竞赛中的优胜系统未能较好回答的复杂问题构成。对于这些复杂问题,机器的答案质量仍然显著低于人类的答案,是当前阅读理解模型和系统需要进一步攻克的难关。报名截止后,新的开发集和测试集将向竞赛报名团队开放。

    评价方法

基于测试集的人工标注答案,采用ROUGE-L和BLEU-4作为评价指标。全部测试集结果作为最终评价结果。

    基线系统

竞赛将提供两个开源的阅读理解基线系统,基线系统的实现及结果评价请参考:开源系统和数据集论文

竞赛任务2 - 知识驱动对话

    任务描述

给定对话目标g及相关知识信息M=f1,f2,...,fn。要求参评的对话系统输出适用于当前对话序列H=u1,u2,...,ut-1的机器回复ut使得对话自然流畅、信息丰富而且符合对话目标的规划。在对话过程中,机器处于主动状态,引导用户从一个话题聊到另一个话题。因此,对话系统为机器设定了一个对话目标,g为“START->TOPIC_A->TOPIC_B”, 表示从冷启动状态主动聊到话题A,然后进一步聊天到话题B, 提供的相关知识信息为话题A的知识信息,话题B的知识信息,话题A和话题B的关联信息。

输入/输出:

☆  输入: 对话目标g,知识信息M和对话历史H

  输出: 适合回复对话历史,且符合对话目标的回复u

    数据简介

数据中的知识信息来源于电影和娱乐人物领域有聊天价值的知识信息,如票房、导演、评价等,以三元组SPO的形式组织。对话目标中的话题为电影或娱乐人物实体。数据集中包括10万训练集,1万开发集,1万测试集。

    评价方法

自动评估指标:

  F1:评估输出回复相对于标准回复在字级别上的准确召回性能,是评估模型性能的主指标;

  BLEU: 评估输出回复相对于标准回复在词级别上的性能,是评估模型性能的辅助指标;

  DISTINCT:评估输出回复的多样性,是评估模型性能的辅助指标;

以上自动指标将用于排行榜上的排行。

人工评估指标:

排行榜前10个对话系统进入人工评估阶段,从流畅性、一致性和主动性等几个维度进行评估。

最终排名以人工评估结果为依据。

    基线系统

竞赛将提供开源的知识驱动对话基线系统,基线系统的实现及结果评价请参考官方网站的更新。

竞赛任务3 - 信息抽取

    任务描述

给定schema约束集合及句子sent,其中schema定义了关系P以及其对应的主体S和客体O的类别,例如 (S_TYPE:人物,P:妻子,O_TYPE:人物)、(S_TYPE:公司,P:创始人,O_TYPE:人物)等。任务要求参评系统自动地对句子进行分析,输出句子中所有满足schema约束的SPO三元组知识Triples=[(S1, P1, O1), (S2, P2, O2)…]。

输入/输出:

☆  输入:schema约束集合及句子sent

☆  输出:句子sent中包含的符合给定schema约束的三元组知识Triples

    数据集

本次竞赛使用的数据集是业界规模最大的基于schema的中文信息抽取数据集,其包含50个预定义的schema、21万中文句子及43万三元组数据。数据集中的句子来自百度百科和百度信息流文本。数据集划分为17万训练集,2万验证集和2万测试集。其中训练集和验证集用于训练,可供自由下载,测试集分为两个,测试集1供参赛者在平台上自主验证,测试集2在比赛结束前一周发布,将作为最终的评测排名。

    评价方法

参赛者在测试集上给出的SPO结果和测试集标注结果进行精准匹配(考虑了别名情况,本次竞赛使用了百度知识图谱现有的别名词典来辅助评测),采用Precision, Recall和F1值作为评价指标。

    基线系统

竞赛将提供一个开源的信息抽取基线系统,将于3月8日前发布在竞赛官网。

竞赛组织

    主办方:中国计算机学会,中国中文信息学会

    组织方

      ●  百度公司

      ●  中国计算机学会中文信息技术专委会

      ●  中国中文信息学会评测工委会

    指导委员会

      ●  周 明  微软亚洲研究院

      ●  孙 乐   中国科学院软件研究所

      ●  赵东岩   北京大学

      ●  杨尔弘  北京语言大学

      ●  吴 华   百度公司

    评测委员会

      ● 王 泉   百度公司

      ● 孙薇薇   北京大学

      ● 韩先培  中国科学院软件研究所

      ● 段 楠   微软亚洲研究院

      ● 刘 璟   百度公司

      ● 吴文权   百度公司

      ● 史亚冰   百度公司

联系我们

任何与本次技术竞赛相关的问题,请随时联系竞赛会务组。

竞赛会务组邮箱:lic2019@126.com