基于文心NLP大模型的阅读理解可解释评测
大赛名称 基于文心NLP大模型的阅读理解可解释评测
详情链接 https://www.datafountain.cn/competitions/589
大赛简介

• 赛题背景

深度学习模型常被当作一个黑盒使用,其内部决策机制是不透明的。这种不透明性导致使用者对其结果的不信任,增加了落地难度,尤其是在医疗、法律等特殊领域。近年来,深度学习模型的可解释性受到广泛关注,涌现出很多致力于分析和增强模型可解释性的工作,如模型预测依赖证据提取、基于证据的可信增强等。为了进一步推动该方向研究发展,我们构建了可解释评测数据集和评估指标,用来评测模型的可解释性,及证据抽取方法的准确性。本次比赛提供了阅读理解任务的评测数据,本数据集是基于DuReader_chechlist的测试集构建的,针对每一条评测数据都人工标注了证据。同时,针对每一条数据,我们从抗干扰性、敏感性、泛化性等维度标注了扰动数据。旨在从合理性、忠诚性角度评估模型的可解释性。希望通过本次比赛,推动模型可解释性研究进一步发展。

神经网络(NN)模型已经成功地应用于很多NLP任务并取得了不错的成绩。但由于NN模型的黑盒性质,降低使用者对其结果的信任度,阻碍了NN模型更大规模地落地应用,尤其是对模型可靠性和安全性要求较高的领域,如医疗、法律等。因此,NN模型的可解释性、鲁棒性等问题受到广泛关注。为进一步推动模型可解释性研究的发展,评测数据和对应的评估指标是必需的。

本次比赛提供阅读理解任务的可解释评测数据集和相应的评估指标,评估模型的可解释性以及解释方法的精准性。本次比赛旨在为研究者提供学术交流平台,推动模型可解释的发展,以协助构建更加可信赖的深度学习模型和系统。

• 赛题任务

本次比赛聚焦于阅读理解任务的可解释评测。选手需使用飞桨(PaddlePaddle)深度学习框架,根据给定的一段文本T及与其相关的问题Q,从文本T中抽取问题Q对应的的答案,同时给出模型预测答案所依赖的证据。如下方示例所示,“答案”和“证据”字段对应模型输出,其中答案和证据皆来自输入文本T。

举办方 中国计算机学会 & 百度
参赛方式

参赛人群:大赛面向全球征集参赛团队,不限年龄、国籍,高校、科研院所、企业从业人员等均可登录官网报名参赛;
报名要求:参赛选手可报名不同赛道多个赛题,但在同一赛题中仅能报名参加一支团队。报名时所有团队成员需提供个人基本信息,并进行实名认证;参赛选手应当保证身份信息的真实性。大赛组委会承诺其中涉及个人隐私的内容予以保密;
组队要求:所有报名参加同一赛题的参赛者,可进行组队操作。所有参赛选手应在截止日期前自行完成组队,每队1-5人,不可重复组队。并以团队身份提交各阶段的作品材料,一旦进入团队,不可退出队伍。为保证每支参赛团队享有相对平等的提交机会,各赛题组队需满足组队成员在赛题中的提交总次数≤开赛天数*赛题每天提交次数;
队长责任制:各团队队长作为团队的负责人,需自行进行团队内部分工和协调,并承担与大赛组委会对接沟通(包括但不限于晋级入围、团队信息收集、作品审核、线下活动、奖金发放等)的责任;
回避原则:大赛出题的人员及所在部门人员禁止参与所出具的赛题(可参与其他赛题),直接参与大赛策划、组织、技术服务的工作人员等相关人士禁止参赛,禁止委托他人参赛或违规指导参赛团队。

注:信息来源于赛事平台,侵删