千言数据集:问题匹配鲁棒性
大赛名称 千言数据集:问题匹配鲁棒性
详情链接 https://aistudio.baidu.com/aistudio/competition/detail/130/0/introduction
大赛简介

问题匹配(Question Matching)任务旨在判断两个自然问句之间的语义是否等价,是自然语言处理领域一个重要研究方向。问题匹配同时也具有很高的商业价值,在信息检索、智能客服等领域发挥重要作用。
近年来,神经网络模型虽然在一些标准的问题匹配评测集合上已经取得与人类相仿甚至超越人类的准确性,但是在处理真实应用场景问题时,这些模型鲁棒性较差,在非常简单(人类很容易判断)的问题上无法做出正确判断,造成了极差的产品体验和经济损失,如下表所示。

问题1 问题2 标签(Label) Model
婴儿吃什么蔬菜好 婴儿吃什么绿色蔬菜好 0 1
关于牢房的电视剧 关于监狱的电视剧 1 0
心率过有什么问题 心率过有什么问题 0 1
黑色裤子配什么上衣 黑色上衣配什么裤子 0 1

当前大多数问题匹配任务在与训练集同分布的测试集上进行测试,夸大了模型能力,缺乏对模型细粒度优势和劣势的评测。因此,本次评测关注问题匹配模型在真实应用场景中的鲁棒性,从词汇、句法、语用等多个维度检测模型的能力, 发现模型的不足之处,推动语义匹配技术的发展。本次评测集中的样本均来自于搜索问答和对话型问答两个场景,难度大,考察点丰富,覆盖了真实应用中诸多难以解决的问题。

本次竞赛主要基于千言数据集,采用的数据集包括了哈尔滨工业大学(深圳)的LCQMC和BQ数据集、OPPO的小布对话短文本数据集、谷歌PAWS数据集,以及百度的DuQM数据集。本次评测,训练集由LCQMC、BQ、小布对话短文本、PAWS数据集组成,测试集由DuQM、小布对话短文本数据集组成,从词汇、句法、语用3大维度评估模型,期望从多个维度、多个领域的角度评价模型的鲁棒性,进一步提升问题匹配技术的研究水平。

举办方 中国计算机学会、百度
参赛方式
  • 公平竞技: 参赛者禁止在比赛中抄袭他人作品、交换答案、使用多个小号,经发现将取消比赛成绩并严肃处理;

  • 组织声明: 组委会保留对比赛规则、赛事安排进行调整和修改的权利、比赛作弊行为的判定权利和处置权利、收回或拒绝授予影响组织及公平性的参赛团队奖项的权利;

  • 基线模型: 基线模型供参赛选手参考,可以选择在其基础上改进。参赛选手不能直接提交基线模型的预测结构;如果提交结构与基线模型预测结果高度相似,则将取消比赛成绩;

  • 作品产权: 参赛者同意授予举办方在全球范围内、无限期、不受限制的免费使用前款成果的权利,包括但不限于用于服务提供、进一步开发服务、用于商业用途及分许可他人使用。为免歧义,基于上述成果使用所产生的新成果,举办方享有完整的知识产权,参赛者同意对新成果不主张任何权益,包括但不限于所有权、以及基于对上述成果享有的所有权而阻碍新成果的实施等。


注:信息来源于赛事平台,侵删