大赛名称 | 基于文心NLP大模型的阅读理解可解释评测 |
---|---|
详情链接 | https://www.datafountain.cn/competitions/589 |
大赛简介 | • 赛题背景 深度学习模型常被当作一个黑盒使用,其内部决策机制是不透明的。这种不透明性导致使用者对其结果的不信任,增加了落地难度,尤其是在医疗、法律等特殊领域。近年来,深度学习模型的可解释性受到广泛关注,涌现出很多致力于分析和增强模型可解释性的工作,如模型预测依赖证据提取、基于证据的可信增强等。为了进一步推动该方向研究发展,我们构建了可解释评测数据集和评估指标,用来评测模型的可解释性,及证据抽取方法的准确性。本次比赛提供了阅读理解任务的评测数据,本数据集是基于DuReader_chechlist的测试集构建的,针对每一条评测数据都人工标注了证据。同时,针对每一条数据,我们从抗干扰性、敏感性、泛化性等维度标注了扰动数据。旨在从合理性、忠诚性角度评估模型的可解释性。希望通过本次比赛,推动模型可解释性研究进一步发展。 神经网络(NN)模型已经成功地应用于很多NLP任务并取得了不错的成绩。但由于NN模型的黑盒性质,降低使用者对其结果的信任度,阻碍了NN模型更大规模地落地应用,尤其是对模型可靠性和安全性要求较高的领域,如医疗、法律等。因此,NN模型的可解释性、鲁棒性等问题受到广泛关注。为进一步推动模型可解释性研究的发展,评测数据和对应的评估指标是必需的。 本次比赛提供阅读理解任务的可解释评测数据集和相应的评估指标,评估模型的可解释性以及解释方法的精准性。本次比赛旨在为研究者提供学术交流平台,推动模型可解释的发展,以协助构建更加可信赖的深度学习模型和系统。 • 赛题任务 本次比赛聚焦于阅读理解任务的可解释评测。选手需使用飞桨(PaddlePaddle)深度学习框架,根据给定的一段文本T及与其相关的问题Q,从文本T中抽取问题Q对应的的答案,同时给出模型预测答案所依赖的证据。如下方示例所示,“答案”和“证据”字段对应模型输出,其中答案和证据皆来自输入文本T。 |
举办方 | 中国计算机学会 & 百度 |
参赛方式 | 参赛人群:大赛面向全球征集参赛团队,不限年龄、国籍,高校、科研院所、企业从业人员等均可登录官网报名参赛; |
注:信息来源于赛事平台,侵删 |