• 什么蘑菇?

    蘑菇中富含多种呈味氨基酸、核苷酸和糖类,这些物质造就了极其鲜美的味道,使得被端上餐桌上的它们深受人们喜爱。特别是在野生菌种类繁多的云南,夏天的几场雨便能开启人们的吃菌盛宴。蘑菇虽然味美,但也不能随便食用,我国存在的有毒蘑菇就近 200 种,食用后轻则恶心呕吐、致晕致幻、看到七彩的开花藤蔓和会飞的小人绕圈跳舞,重则生命垂危、一顿送走。

    本次竞赛使用的数据集由北欧真菌学家协会(Mycologist's Society of Northern Europe)提供的 9 种常见北欧蘑菇属的图像组成,FlyAI 平台旨在就相关趣味话题举办图像分类的练习赛事,让大家能够在多种场景下提升算法能力,而不对数据集中所包含蘑菇分类的生物学正确性及可食用性做出任何保证。请勿食用种类不明的蘑菇,严禁使用该竞赛数据集训练得到的模型鉴别食用蘑菇。

  • “移动杯”2021扬州公共数据开发应用创新大赛——创意类赛道

    党的十九届五中全会明确提出“加强数字社会、数字政府建设,提升公共服务、社会治理等数字化智能化水平”。2020年,江苏省作为国家公共数据资源开发利用试点省份,将五大基础库建设和应用工作列入全省高质量发展考核任务。2021年2月,扬州市委市政府召开优化提升营商环境大会,提出“让数据多跑路,群众少跑腿”,着力打造“好地方事好办”政务服务品牌。同时,扬州市正在推进市域社会治理现代化试点城市和国家社会信用体系示范城市建设,对公共数据的开发利用提出了明确的需求。
  • 京东物流科技创新挑战赛-开发者赛道

    京东物流是中国领先的技术驱动的供应链解决方案及物流服务商,基千5G,人工智能,大数据,云计算及物联网等底层技术,构建了一套全面的智能物流系统,实现服务自动化、运营数字化及决策智能化,推动物流成为科技创新最佳应用场景。
    随着生活水平的提升和企业降本增效的要求,智能物流的重要性愈加凸显。通过本次比赛,希望参赛队伍能体会科技物流,并用技术驱动物流产业迭代。
  • 京东物流科技创新挑战赛-创新者赛道

    京东物流是中国领先的技术驱动的供应链解决方案及物流服务商,基于5G、人工智能、大数据、云计算及物联网等底
    层技术,构建了一套全面的智能物流系统,实现服务自动化、运营数字化及决策智能化,推动物流成为科技创新最佳
    应用场景。
    随着生活水平的提升和企业降本增效的要求,智能物流的重要性愈加凸显。通过本次比赛,希望参赛队伍能体会科技
    物流,并用创新驱动物流产业迭代。
  • 面向金融领域的小样本跨类迁移事件抽取

    在金融领域,事件抽取是一项十分重要的任务,也是自然语言处理领域一项比较复杂的任务,而小样本下的事件抽取模型在落地应用中也极为需要。本任务需要从金融领域新闻资讯句子中,抽取事件知识(包括事件类型、触发词和事件元素),并将大样本下训练的模型跨类迁移到小样本的其他事件类型上。
     
    其中,事件类型分为两类,初始事件类型限定为:质押、股份股权转让、投资、起诉和减持,需要迁移的事件类型为:收购、担保、中标、签署合同和判决,每个事件类型都有其对应的事件框架,需要抽取出每个事件对应的事件元素 。即给出一段句子级新闻资讯文本,针对该文本需要判断其所属的事件类型,抽取该事件的各个事件元素。
  • 面向试验鉴定的命名实体识别任务

    军事装备试验鉴定是指通过规范化的组织形式和试验活动,对被试对象进行全面考核并作出评价结论的国家最高检验行为,涵盖方法、技术、器件、武器系统、平台系统、体系、训练演习等领域,涉及面广、专业性强。
     
    近年来,自然语言理解和人工智能技术飞速发展,日趋成为推动大数据建设的重要力量。试验鉴定由于试验目的的不同、被试对象的特点、武器系统的特性,有着自身较为特殊的语言形式,自然语言处理技术服务于该领域大数据建设的效果如何、基线在哪里,是总体单位非常关注的问题。
     
    为此,我们以命名实体识别任务为切入点,逐步开展这方面的工作,以期通过评测的形式,促进交流、掌握基线、提升技术水平,遴选优秀技术为相关项目建设提供参考,共同推动试验鉴定领域大数据建设。
  • 面向金融领域的篇章级事件主体与要素抽取(二)篇章事件要素抽取

    “事件抽取”是舆情监控领域和金融领域的重要任务之一,“事件”在金融领域是投资分析,资产管理的重要决策参考;事件也是知识图谱的重要组成部分,事件抽取是进行图谱推理、事件分析的必要过程。“事件抽取”的挑战体现在文本的复杂和任务的复杂。文本的复杂体现在事件抽取的输入文本可能是句子、段落或者篇章,不定长度的文本使得限制文本长度的模型无法使用;任务的复杂体现在事件识别的任务包括:事件类型识别,事件主体抽取和事件要素抽取。
     
    本次评测任务的文本范围包括互联网上的新闻文本,上市公司发布的公告文本(PDF文档已转成无结构化的文本内容)。 本次评测任务的事件类型包括:财务造假、偿付能力不足、高层失联/去世、企业破产、重大资损、重大赔付、重大事故、股权冻结、股权质押、增持、减持等。本次评测任务把发生特定事件类型的主体称为事件主体,如 “公司A向公司B赔付”对于事件类型“重大赔付”的事件主体是“公司A”。事件要素为该事件类型的所有属性信息,如事件类型“破产清算”的事件要素包括“发布公告时间”、“破产清算的公司”、“受理法院”、 “公司所属行业”、 “裁定时间”。
  • 面向金融领域的篇章级事件主体与要素抽取(一)事件主体抽取

    事件抽取”是舆情监控领域和金融领域的重要任务之一,“事件”在金融领域是投资分析,资产管理的重要决策参考;事件也是知识图谱的重要组成部分,事件抽取是进行图谱推理、事件分析的必要过程。“事件抽取”的挑战体现在文本的复杂和任务的复杂。文本的复杂体现在事件抽取的输入文本可能是句子、段落或者篇章,不定长度的文本使得限制文本长度的模型无法使用;任务的复杂体现在事件识别的任务包括:事件类型识别,事件主体抽取和事件要素抽取。
     
    本次评测任务的文本范围包括互联网上的新闻文本,上市公司发布的公告文本(PDF文档已转成无结构化的文本内容)。 本次评测任务的事件类型包括:财务造假、偿付能力不足、高层失联/去世、企业破产、重大资损、重大赔付、重大事故、股权冻结、股权质押、增持、减持等。本次评测任务把发生特定事件类型的主体称为事件主体,如 “公司A向公司B赔付”对于事件类型“重大赔付”的事件主体是“公司A”。事件要素为该事件类型的所有属性信息,如事件类型“破产清算”的事件要素包括“发布公告时间”、“破产清算的公司”、“受理法院”、 “公司所属行业”、 “裁定时间”。
  • 面向中文短文本的实体链指任务

    近年来,随着深度学习的重燃以及海量大数据的支撑,NLP 领域迎来了蓬勃发展,百度拥有全球最大的中文知识图谱,拥有数亿实体、千亿事实,具备丰富的知识标注与关联能力,不仅构建了通用知识图谱,还构建了汉语语言知识图谱、关注点图谱、以及包含业务逻辑在内的行业知识图谱等多维度图谱。我们希望通过开放百度的数据,邀请学界和业界的青年才俊共同推进算法进步,激发更多灵感和火花。
     
    面向中文短文本的实体链指,简称 EL(Entity Linking)。即对于给定的一个中文短文本(如搜索 Query、微博、对话内容、文章/视频/图片的标题等),EL 将其中的实体与给定知识库中对应的实体进行关联。针对中文短文本的实体链指存在很大的挑战,主要原因如下:
     
    (1)口语化严重,导致实体歧义消解困难;
    (2)短文本上下文语境不丰富,须对上下文语境进行精准理解;
    (3)相比英文,中文由于语言自身的特点,在短文本的链指问题上更有挑战。
     
    本评测任务围绕实体链指技术,结合其对应的AI智能应用需求,在CCKS 2019面向中文短文本的实体链指任务的基础上进行了拓展与改进,主要改进包括以下几部分:
    (1)去掉实体识别,专注于中文短文本场景下的多歧义实体消歧技术;
    (2)增加对新实体(NIL实体)的上位概念类型判断;
    (3)对标注文本数据调整,增加多模任务场景下的文本源,同时调整了多歧义实体比例。
  • 基于本体的金融知识图谱自动化构建技术评测

    金融研报是各类金融研究结构对宏观经济、金融、行业、产业链以及公司的研究报告。报告通常是有专业人员撰写,对宏观、行业和公司的数据信息搜集全面、研究深入,质量高,内容可靠。报告内容往往包含产业、经济、金融、政策、社会等多领域的数据与知识,是构建行业知识图谱非常关键的数据来源。另一方面,由于研报本身所容纳的数据与知识涉及面广泛,专业知识众多,不同的研究结构和专业认识对相同的内容的表达方式也会略有差异。这些特点导致了从研报自动化构建知识图谱困难重重,解决这些问题则能够极大促进自动化构建知识图谱方面的技术进步。
     
    本评测任务参考 TAC KBP 中的 Cold Start 评测任务的方案,围绕金融研报知识图谱的自动化图谱构建所展开。评测从预定义图谱模式(Schema)和少量的种子知识图谱开始,从非结构化的文本数据中构建知识图谱。其中图谱模式包括 10 种实体类型,如机构、产品、业务、风险等;19 个实体间的关系,如(机构,生产销售,产品)、(机构,投资,机构)等;以及若干实体类型带有属性,如(机构,英文名)、(研报,评级)等。在给定图谱模式和种子知识图谱的条件下,评测内容为自动地从研报文本中抽取出符合图谱模式的实体、关系和属性值,实现金融知识图谱的自动化构建。所构建的图谱在大金融行业、监管部门、政府、行业研究机构和行业公司等应用非常广泛,如风险监测、智能投研、智能监管、智能风控等,具有巨大的学术价值和产业价值。
     
    评测本身不限制各参赛队伍使用的模型、算法和技术。希望各参赛队伍发挥聪明才智,构建各类无监督、弱监督、远程监督、半监督等系统,迭代的实现知识图谱的自动化构建,共同促进知识图谱技术的进步。
  • 基于标题的大规模商品实体检索

    本评测任务为基于标题的大规模商品实体检索。即对于给定的一个商品标题,参赛系统需要匹配到该标题在给定商品库中的对应商品实体。
    基于标题的大规模商品实体检索存在的挑战如下:
    (1)输入文本中可能无法识别出实体指代词;
    (2)商品标题中存在很多变异指代,没有给定的指代映射表;
    (3)商品标题一般较短,上下文语境不丰富,须对上下文语境进行精准理解。

    输入:
      输入文件包括若干行商品标题。

    输出:
      输出文本每一行包括此标题对应的商品实体,即给定知识库中商品 ID,只返回最相关的 1 个结果。 

  • 新冠知识图谱构建与问答评测(四)新冠知识图谱问答评测

    随着互联网软硬件相关技术的飞速发展,人们逐渐从信息时代进入智能时代。知识图谱作为承载底层海量知识并支持上层智能应用的重要载体,在智能时代中扮演了极其重要的角色。而受限于非结构化文本和结构化知识之间的巨大差异,自动化构造知识图谱以及利用知识图谱支持上层应用仍存在诸多挑战。因此对知识图谱的构建以及其核心应用基于知识图谱的自然语言问答展开研究是十分有必要的。
     
    知识图谱又可以划分成开放领域和特定领域。相对而言,开放领域知识图谱的特点是“广而浅”,即覆盖实体的范围广,但可能在某方面缺少深层次或不常见的知识;而特定领域知识图谱的特点是“专而深”,即只覆盖特定领域的实体信息,但会涵盖一些通常只有对应领域专业人士使用的术语、概念以及对应的知识。随着 LOD、OpenKG 等知识共享项目的展开,将包括开放领域和特定领域的若干知识库融合或链接在一起从而形成既全面又深入的“超级”知识图谱逐渐成为可能。
     
    时值2020年新型冠状病毒疫情爆发,在OpenKG总体组织和协调下,部分相关企业院校使用自动化的技术,以新型冠状病毒为核心构建了包括新冠百科、健康、防控等多个高质量的知识图谱(http://openkg.cn/group/coronavirus), 并于此针对知识图谱构建的关键技术及其核心应用提出个评测子任务。
     
    通常构建知识图谱需要在实体识别完成后,为每一个实体分配预定义的类型,这即是我们提出的第一个任务“实体类型推断”
     
    而人工预定义的实体类型覆盖程度有限且不易更新,当涉及新的领域时,实体类别体系可能需要重新定义。通过在网络中动态的获得实体的概念类别,并自动化识别类别之间的上下位关系不但可以解决人工预定义的缺陷,还可以使知识图谱更加立体丰满,有助于上层应用。这即是我们提出的第二个任务“概念的上下位关系预测”
     
    而为了使知识图谱中的各实体相连起来,需要判断哪些实体之间存在关系,以及实体通过特定关系可以链接到哪些实体,这即是我们提出的第三个任务“链接预测”
     
    最后,当知识图谱构建完成后,使用自然语言对其进行查询可以极大地方便用户获取想要的知识,同时诸如智能音箱等应用也需要允许用户使用自然语言与知识图谱进行交互,这即是我们提出的第四个任务“知识图谱的自然语言问答”
  • 面向中文电子病历的医疗实体及事件抽取(二)医疗事件抽取

    本任务为中文病历医疗事件抽取任务,即给定主实体为肿瘤的电子病历文本数据,定义肿瘤事件的若干属性,如肿瘤大小,肿瘤原发部位等,识别并抽取事件及属性,进行文本结构化。
    本任务提供少量标注数据、大量非标注数据集及词表,旨在训练数据有限的情况下,利用非标注文本和半监督等方法提升模型性能。更接近真实世界的场景。
  • 面向中文电子病历的医疗实体及事件抽取(一)医疗命名实体识别

    1. 任务定义及描述

    本任务为中文病历医疗实体识别任务,即对于给定的一组电子病历纯文本文档,识别并抽取出与医学临床相关的实体提及(entity mention),并将它们归类到预定义类别(pre-defined categories),比如疾病、治疗、检查检验等。
    相比2019命名实体识别任务我们做了如下调整:
    a. 标注了新数据对训练数据进行扩充
    b. 提供实体词表及大量非标注数据供参赛者使用
     

  • CCKS 2020:新冠知识图谱构建与问答评测(二)新冠概念图谱的上下位关系预测

    随着互联网软硬件相关技术的飞速发展,人们逐渐从信息时代进入智能时代。知识图谱作为承载底层海量知识并支持上层智能应用的重要载体,在智能时代中扮演了极其重要的角色。而受限于非结构化文本和结构化知识之间的巨大差异,自动化构造知识图谱以及利用知识图谱支持上层应用仍存在诸多挑战。因此对知识图谱的构建以及其核心应用基于知识图谱的自然语言问答展开研究是十分有必要的。
     
    知识图谱又可以划分成开放领域和特定领域。相对而言,开放领域知识图谱的特点是“广而浅”,即覆盖实体的范围广,但可能在某方面缺少深层次或不常见的知识;而特定领域知识图谱的特点是“专而深”,即只覆盖特定领域的实体信息,但会涵盖一些通常只有对应领域专业人士使用的术语、概念以及对应的知识。随着 LOD、OpenKG 等知识共享项目的展开,将包括开放领域和特定领域的若干知识库融合或链接在一起从而形成既全面又深入的“超级”知识图谱逐渐成为可能。
     
    时值2020年新型冠状病毒疫情爆发,在OpenKG总体组织和协调下,部分相关企业院校使用自动化的技术,以新型冠状病毒为核心构建了包括新冠百科、健康、防控等多个高质量的知识图谱(http://openkg.cn/group/coronavirus), 并于此针对知识图谱构建的关键技术及其核心应用提出个评测子任务。
     
    通常构建知识图谱需要在实体识别完成后,为每一个实体分配预定义的类型,这即是我们提出的第一个任务“实体类型推断”
     
    而人工预定义的实体类型覆盖程度有限且不易更新,当涉及新的领域时,实体类别体系可能需要重新定义。通过在网络中动态的获得实体的概念类别,并自动化识别类别之间的上下位关系不但可以解决人工预定义的缺陷,还可以使知识图谱更加立体丰满,有助于上层应用。这即是我们提出的第二个任务“概念的上下位关系预测”
     
    而为了使知识图谱中的各实体相连起来,需要判断哪些实体之间存在关系,以及实体通过特定关系可以链接到哪些实体,这即是我们提出的第三个任务“链接预测”
     
    最后,当知识图谱构建完成后,使用自然语言对其进行查询可以极大地方便用户获取想要的知识,同时诸如智能音箱等应用也需要允许用户使用自然语言与知识图谱进行交互,这即是我们提出的第四个任务“知识图谱的自然语言问答”
  • CCKS 2020:新冠知识图谱构建与问答评测(一)新冠百科知识图谱类型推断

    随着互联网软硬件相关技术的飞速发展,人们逐渐从信息时代进入智能时代。知识图谱作为承载底层海量知识并支持上层智能应用的重要载体,在智能时代中扮演了极其重要的角色。而受限于非结构化文本和结构化知识之间的巨大差异,自动化构造知识图谱以及利用知识图谱支持上层应用仍存在诸多挑战。因此对知识图谱的构建以及其核心应用基于知识图谱的自然语言问答展开研究是十分有必要的。
     
    知识图谱又可以划分成开放领域和特定领域。相对而言,开放领域知识图谱的特点是“广而浅”,即覆盖实体的范围广,但可能在某方面缺少深层次或不常见的知识;而特定领域知识图谱的特点是“专而深”,即只覆盖特定领域的实体信息,但会涵盖一些通常只有对应领域专业人士使用的术语、概念以及对应的知识。随着 LOD、OpenKG 等知识共享项目的展开,将包括开放领域和特定领域的若干知识库融合或链接在一起从而形成既全面又深入的“超级”知识图谱逐渐成为可能。
     
    时值2020年新型冠状病毒疫情爆发,在OpenKG总体组织和协调下,部分相关企业院校使用自动化的技术,以新型冠状病毒为核心构建了包括新冠百科、健康、防控等多个高质量的知识图谱(http://openkg.cn/group/coronavirus), 并于此针对知识图谱构建的关键技术及其核心应用提出个评测子任务。
     
    通常构建知识图谱需要在实体识别完成后,为每一个实体分配预定义的类型,这即是我们提出的第一个任务“实体类型推断”
     
    而人工预定义的实体类型覆盖程度有限且不易更新,当涉及新的领域时,实体类别体系可能需要重新定义。通过在网络中动态的获得实体的概念类别,并自动化识别类别之间的上下位关系不但可以解决人工预定义的缺陷,还可以使知识图谱更加立体丰满,有助于上层应用。这即是我们提出的第二个任务“概念的上下位关系预测”
     
    而为了使知识图谱中的各实体相连起来,需要判断哪些实体之间存在关系,以及实体通过特定关系可以链接到哪些实体,这即是我们提出的第三个任务“链接预测”
     
    最后,当知识图谱构建完成后,使用自然语言对其进行查询可以极大地方便用户获取想要的知识,同时诸如智能音箱等应用也需要允许用户使用自然语言与知识图谱进行交互,这即是我们提出的第四个任务“知识图谱的自然语言问答”
  • IEEE Healthcom 2020 / MODMA

    抑郁症是一种常见的精神疾病,其特征是持续的情绪低落,快感不足,悲伤和认知障碍,严重影响人们的生活质量。 全球抑郁症的患病率约为2-4%,而中国则为1.7-2%。 根据世界卫生组织(WHO)的统计,全世界有超过3.5亿人患有不同程度的抑郁症。 一项对118项研究中的50371例患者进行荟萃分析的相关研究发现,抑郁症的识别率仅为47.3%。 因此,由于抑郁症的高发和低识别率,探索简单,客观,准确的抑郁症检测评估方法或生物标记物是一项重大的公共卫生挑战。该比赛致力于推进基于生理信号的抑郁障碍评估研究。
     

    比赛数据集为用于精神障碍分析的抑郁障碍全导静息态脑电数据集。数据采集设备使用了128通道HCGSN(HydroCel Geodesic Sensor Net)脑电采集系统,采集软件为Net Station 4.5.4版本。下图显示了128个电极放置的位置(E1至E128),采样频率为250Hz。所有原始电极信号均参考Cz。实验范式为记录五分钟闭眼静息状态的EEG。

     

    128 channel HydroCel Geodesic Sensor Net (HCGSN)

     

     

    目前,数据集主要包括来自临床抑郁症患者和匹配的正常对照的数据。我们所有的患者均由医院的专业精神科医生诊断和选择。我们将向参赛者提供部分数据的下载作为训练集,要求参赛者运用其中的数据,通过人工智能算法完成对抑郁症患者同正常人的特征分类,并能对给定的测试集数据完成自动分类。

  • 中文医学文本命名实体识别

    实体识别作为信息抽取的一个重要子任务,近些年已经取得了阶段性成果。对于医学领域的自然语言文献,例如医学教材、医学百科、临床病例、医学期刊、入院记录、检验报告等,这些文本中蕴含大量医学专业知识和医学术语。将实体识别技术与医学专业领域结合,利用机器读取医学文本,可以显著提高临床科研的效率和质量,并且可服务于下游子任务。要想让机器“读懂”医学数据,核心在于让计算机在大量医学文本中准确的提取出关键信息,这就涉及到了命名实体识别、关系抽取等自然语言处理技术。医学领域中非结构化的文本,都是由中文自然语言句子或句子集合组成。实体抽取是从非结构化医学文本中找出医学实体,如疾病、症状的过程。
  • 中文医学文本实体关系抽取

    实体和关系抽取作为信息抽取的重要子任务,近些年众多学者利用多种技术在该领域开展深入研究。将这些技术应用于医学领域,抽取非结构化和半结构化的医学文本构建成医学知识图谱,可服务于下游子任务。非结构化的医学文本,如医学教材每一个自然段落,临床实践中每种疾病下的主题,电子病历数据中的主诉、现病史、鉴别诊断等,都是由中文自然语言句子或句子集合组成。实体关系抽取是从非结构化医学文本中找出医学实体,并确定实体对关系事实的过程。
  • (练习赛) 2017 知乎看山杯机器学习挑战赛

    知乎是世界上最大的中文知识社交平台。知乎自 2011 年创办至今,已经成为一个拥有 2000 万日活用户,每天有数以十万计的高质量的 UGC 内容产生的网站。如何对这些内容进行深层次的理解和高效的分发,是知乎建立的内容生产-内容分发的闭环中的一个重要课题。

     

    目前,知乎机器学习团队已经搭建了一套基础生态体系,通过算法实现了用户画像、内容分析、内容个性化推送等,其效率比过去的人工运营方式提高了数十倍。知乎认为,算法更高价值的地方,就在于算法有机会了解人的潜在需求,打破信息获取障碍,提升学习效率。因此,知乎机器学习团队不仅想通过算法满足用户的阅读兴趣,还希望进一步满足关乎用户自我提升的优质信息获取需求,让高质量信息高效地、自动地、智能地到达用户手中。

     

    目前,知乎上的内容分发的一个重要途径是通过关注关系生成的 Feed 流。关注关系可能是基于人,也可能是基于「话题」标签;从用户关注的话题标签为用户推荐内容,会更加契合用户对不同领域、不同类型的知识的需求。因此,对知乎上的内容进行精准的自动化话题标注,对提升知乎的用户体验和提高内容分发效率有非常重要的支撑作用。同时,对文本的语义进行理解和自动标注,尤其是在标签数量巨大、标签之间具有一定的相互关联关系的场景下的 tagging,也是目前自然语言处理的一个前沿研究方向。因此,知乎算法团队联合中国人工智能学会、 IEEE计算机协会和IEEE中国代表处,举办「知乎看山杯机器学习挑战赛」,期望能够激发更多的优秀人才对于自然语言处理领域的兴趣,并且促进语义分析的应用,从而最终革新甚至改变人的信息获取方式。

     

    本次比赛同时为中国人工智能大赛的赛题。

    页次:18/30 每页20 总数593    首页  上一页  下一页  尾页    转到: