情感分析旨在自动识别和提取文本中的倾向、立场、评价、观点等主观信息。它包含各式各样的任务,比如句子级情感分类、评价对象级情感分类、观点抽取、情绪分类等。情感分析是人工智能的重要研究方向,具有很高的学术价值。同时,情感分析在消费决策、舆情分析、个性化推荐等领域均有重要的应用,具有很高的商业价值。
近两年,NLP技术发展较快,一个趋势是大家不再过度关注模型在单一数据的效果,开始逐渐关注模型在多个数据集的效果。基于此,百度与多位研究学者一起收集和整理了一个综合、全面的中文情感分析评测数据集,希望能进一步提升情感分析的研究水平,推动自然语言理解和人工智能技术的应用和发展。
机器阅读理解 (Machine Reading Comprehension) 是指让机器阅读文本,然后回答和阅读内容相关的问题。机器阅读理解是自然语言处理和人工智能领域的重要前沿课题,对于提升机器的智能水平、使机器具有持续知识获取的能力等具有重要价值,近年来受到学术界和工业界的广泛关注。
近几年,机器阅读理解相关技术取得了很大的进展。然而,尽管一些模型在某些单一数据集上取得了很好的效果,但我们仍然缺乏对这些模型在多个领域、多个角度数据集上的评价。为了能够综合、全面地评价机器阅读理解模型的性能,我们需要有一套领域覆盖广、考察点丰富的公开评测数据集合。因此,本开源项目收集了一系列开放的中文机器阅读理解据集,期望能够从多种任务类型、多种领域,以及多种考察点上对模型效果进行综合评价。此外,本项目对这些数据集进行了统一的整理,并提供了统一的评测脚本,方便研究人员和开发者方便的获取数据集以及进行模型评测。该开源数据集合旨在为研究人员和开发者提供学术和技术交流的平台,进一步提升中文机器阅读理解的研究水平,推动自然语言理解和人工智能领域技术的应用和发展。
对话是人类最自然,最重要的交流方式。随着人工智能技术的发展,对话式人机交互逐渐成为重要的人机交互形式,它显著降低了用户与机器交互的门槛,带来了极大的便利性。在智能音箱等对话式交互产品的应用驱动下,开放域对话这一人工智能领域的技术难题,在学术界以及工业界引了广泛关注。开放域对话技术旨在建立一个开放域的多轮对话系统,使得机器可以流畅自然地与人进行语言交互,既可以进行日常问候类的闲聊,又可以完成特定功能,以使得开放域对话技术具有实际应用价值,例如进行对话式推荐,或围绕一个主题进行深入的知识对话,或进行情感陪护。具体的说,开放域对话可以继续拆分为支持不同功能的对话形式,例如对话式推荐,情感对话技术,知识对话技术等,如何解决并有效融合以上多个技能面临诸多挑战。
目前,学术界已经公开了多个面向开放域对话建模的开源数据集。但大多数研究工作仅关注模型在单一或少量数据集上的效果。尽管一些模型在单一数据集上取得了很好的效果,但缺乏在多个不同技能、不同领域数据上的评价,与真正很好的解决开放域对话这一技术挑战还有一定距离。为了解决这个问题,我们需要有一套评估全面,领域覆盖广的公开评测数据集。因此,本开源项目收集了一系列公开的开放域对话数据集,并对数据集进行了统一的整理以及提供了统一的评测方式,期望从多个技能、多个领域的角度对模型效果进行综合评价。该开源数据集旨在为研究人员和开发者提供学术和技术交流的平台,进一步提升开放域对话的研究水平,推动自然语言理解和人工智能领域技术的应用和发展。
语义解析(本比赛特指Text-to-SQL任务)旨在将用户输入的自然语言问题转成可与数据库操作的SQL查询语句,其实现了通过自然语言完成与数据库的交互及获得数据库中的信息。语义解析属于人工智能中的语言理解方向,具有很高的学术研究价值。该技术可以帮助非技术用户通过自然语言与数据库进行交互,降低数据库使用门槛及提升数据库使用效率,同时具有很高的实用价值,在工业界受到了广泛关注。
目前,学术界及工业界公开了多个中文语义解析数据集。这些数据集在数据库形式、SQL查询语句复杂度、问题覆盖范围、应用场景等方面各有侧重。为了验证同一模型在不同难度、不同应用场景、不同类型问题上的处理能力,我们收录了所有中文语义解析数据集作为公开评测数据集,方便大家进行模型验证。
在本开源项目中,我们对收录的中文语义解析数据集进行了统一的整理,提供统一的评测方法,期望从多角度对评测模型进行综合评价。该开源数据集旨在为研究人员和开发者提供学术和技术交流的平台,进一步提升语义解析的研究水平,推动自然语言理解和人工智能领域技术的应用和发展。
信息抽取旨在从非结构化自然语言文本中提取结构化知识,如实体、关系、事件等。信息抽取是人工智能领域的重要研究方向,同时也是文本挖掘、文本理解、信息检索、智能问答、智能对话等人工智能应用的重要基础,一直以来受到学术界和工业界的广泛关注。
目前,大多数研究工作仅关注单一类型信息的抽取效果,缺乏在不同类型信息抽取任务上的统一评价。为此,本开源项目收集了两种不同类型的中文信息抽取任务,包括关系抽取和事件抽取,并提供了统一的评测方式,期望从不同维度对结构化知识抽取效果进行综合评价。该开源数据集旨在为研究人员和开发者提供学术和技术交流的平台,进一步提升信息抽取的研究水平,推动自然语言理解和人工智能领域技术的应用和发展。
文本相似度旨在识别两段文本在语义上是否相似。文本相似度在自然语言处理领域是一个重要研究方向,同时在信息检索、新闻推荐、智能客服等领域都发挥重要作用,具有很高的商业价值。
目前学术界的一些公开中文文本相似度数据集,在相关论文的支撑下对现有的公开文本相似度模型进行了较全面的评估,具有较高权威性。因此,本开源项目收集了这些权威的数据集,期望对模型效果进行综合的评价,旨在为研究人员和开发者提供学术和技术交流的平台,进一步提升文本相似度的研究水平,推动文本相似度在自然语言处理领域的应用和发展。
广告欺诈是数字营销需要面临的重要挑战之一,点击会欺诈浪费广告主大量金钱,同时对点击数据会产生误导作用。本次比赛提供了约50万次点击数据。特别注意:我们对数据进行了模拟生成,对某些特征含义进行了隐藏,并进行了脱敏处理。
请预测用户的点击行为是否为正常点击,还是作弊行为。点击欺诈预测适用于各种信息流广告投放,banner广告投放,以及百度网盟平台,帮助商家鉴别点击欺诈,锁定精准真实用户。
中文场景文字识别技术在人们的日常生活中受到广泛关注,具有丰富的应用场景,如:拍照翻译、图像检索、场景理解等。然而,中文场景中的文字面临着包括光照变化、低分辨率、字体以及排布多样性、中文字符种类多等复杂情况。如何解决上述问题成为一项极具挑战性的任务。
中文场景文字识别常规赛全新升级,提供轻量级中文场景文字识别数据,要求选手使用飞桨框架,对图像区域中的文字行进行预测,并返回文字行的内容。
图神经网络(Graph Neural Network)是一种专门处理图结构数据的神经网络,目前被广泛应用于推荐系统、金融风控、生物计算等领域。图神经网络的经典问题主要有三类,分别为节点分类、连接预测和图分类。本次比赛旨在让参赛同学了解并掌握如何使用图神经网络处理节点分类问题。
在过去的一个世纪里,科学出版物的数量每12年增加近一倍,对每一种出版物的主题及领域进行自动分类已成为当下十分重要的工作。本次任务的目标是预测未知论文的主题类别,如软件工程,人工智能,语言计算和操作系统等。比赛所选35个领域标签已得到论文作者和arXiv版主确认并标记。
本次比赛选用的数据集为arXiv论文引用网络——ogbn-arixv数据集的子集。ogbn-arixv数据集由大量的学术论文组成,论文之间的引用关系形成一张巨大的有向图,每一条有向边表示一篇论文引用另一篇论文,每一个节点提供100维简单的词向量作为节点特征。在论文引用网络中,我们已对训练集对应节点做了论文类别标注处理。本次任务希望参赛者通过已有的节点类别以及论文之间的引用关系,预测未知节点的论文类别。
本赛题由 “2020百度之星·程序设计大赛” 的决赛赛题改编而来,以期为更多开发者提供量子计算领域的学习交流机会。百度自 2017 年起发起了面向全球 AI 技术爱好者的深度学习算法竞赛——百度之星·开发者大赛,大赛的宗旨是为有创新力、专业性强、富有极客精神和团队合作精神的顶级开发者团队提供交流切磋、施展才能的舞台,并为参赛选手提供真实的数据集、深度学习平台飞桨(PaddlePaddle)、完整技术解决方案和一站式 AI 开发平台 AI Studio,降低广大开发者的 AI 学习门槛。2021 年的百度之星·开发者大赛,期待你的加入!
高度发达的 A 星在一次异变中文明即将消失,A 星人将重要信息加密后发送到下一个面临同样异变的欠发达的 C 星,希望能帮助 C 星上的文明躲过这次浩劫。A 星文明高度发达,已经实现了量子计算,故而采用了量子电路来加密信息。C 星接收后深感无力,因为他们的文明只能实现小型的基础量子门,不足以解密该重要信息。此时他们想起了友好星球 B 星上的我们,或许能为他们带来一线生机。而在座的我们能否帮助 C 星文明解决这次危机?
每年岁末年初不可或缺的“年夜饭”之一,就是“贺岁电影”,在浓厚的节日氛围里,也是电影票房产出的一个重要档期,电影多、好片多可谓“火药味”十足。最近几年间,每年都有2部以上5亿级影片,也有超出预料的黑马出现。
经历过2020年长达半年的缺席,自电影院重新开门后,积压的影片伺机而上。国庆档收官后,大批影片征战贺岁档,2021年也迎来了史上“最拥挤”的贺岁档,多部影片蓄力待发,准备在新春贺岁档进行冲刺。
影片的票房收入则是衡量一部影片是否成功的重要指标,高票房的影片不仅能带来巨额的利润,也体现了影片导演、主演及制作方的高水准。但是观众对于影片的品味却是难以预测的,导致电影公司对新影片的投资存在巨大的风险。因此,电影票房预测是电影行业较为关注的一个研究方向,尤其是能否尽早给出准确的票房预测。如果能尽早的对票房做出预测,影片制作方和发行方可以根据票房预测的数据,对影片的制作和发行做出适当的调整,更合理的使用预算,以获得更高的利润。
本赛题属于半开放型赛题,着眼于运用人工智能方法进行趣味性票房预测。
在互联网技术的带领下,人工智能已经与各个产业领域有了广泛应用,形成了时代经济的新形态,带动了新产业蓬勃发展。机器视觉作为人工智能领域的核心板块之一,应用领域占比超过30%。机器视觉技术在对目标进行识别、跟踪、测量、反馈和解析等方面的技术精密度及产能效率已经远超人眼。
为推动机器视觉技术在人工智能领域与实体经济深度融合,江宁经济技术开发区、江苏省人工智能学会、征图新视(江苏)科技股份有限公司等共同组织策划首届 “征图杯”校园机器视觉人工智能大赛,此次赛事对于推动人工智能技术在机器视觉检测行业的探索与发展,用技术驱动智能制造产业转型升级和变革发展有着深远意义;对进一步聚集人工智能行业优质人才资源、研发资源、产业资源等有着开拓性影响;同时也是打造创新驱动发展的宁南增长极,助力南京创新名城建设的有力之举。
征图新视是全球领先的机器视觉及自动化完整解决方案提供商。 征图南京智能科技公司作为征图集团的全资子公司,致力于人工智能的研发及工业化应用。 征图为苹果、华为、富士康等知名企业提供核心技术支持。公司在光学、图像检测软件、人工智能等核心技术及配套自动化的研发方向,都拥有十余年的技术积累和技术创新。此次大赛以“工业AI机器视觉检测”为主题,总奖金高达100 万元,旨在激励计算机视觉算法研发,推动人工智能技术在工业机器视觉检测领域落地。
在当前人工智能技术的飞速发展的大背景下,计算机视觉领域中目标检测、图像分类、物体识别、对象分割等诸多任务取得突破性进展,并逐渐获得实际应用。其中,OCR,即光学字符识别,在理想条件下的文档与书籍电子化、车牌识别等方面已经非常成熟。但利用OCR应对复杂学习场景中的大规模手写公式识别仍是业界公认的一大难点。为吸引更多开发者关注并解决这一难题,由国家科技部指导,科技部火炬高技术产业开发中心、国家高新区管委会、北京市科学技术委员会与好未来教育集团联合承办的中国创新挑战赛智慧教育专题赛,今年就将赛题设置为了“教育手写公式识别”,正式面向社会公开征集解决方案。本次挑战赛旨在通过OCR深层次研究,突破关键技术来攻克现阶段教育科技领域内对于复杂学习场景中面临的手写公式识别这一难点,进而推动业界对真实教育场景的OCR研究中相关重要问题和关键技术的深入理解以及相关方法与技术的发展与突破,使得OCR技术能向自动批改等典型场景落地更进一步。整个智慧教育专题赛的赛程从2020年9月30日正式启动,官方发布参赛数据,脱敏的训练数据来源于好未来真实教学场景下积累的近10万场景公式数据;10月1日,挑战赛报名通道正式开启;10月24日前,各参赛团队和个人完成解决方案提交;10月27日官方公布比赛结果,并于10月30日进行颁奖。无论是全国人工智能领域的高校、科研院所,还是科技互联网企业的技术团队,或是单纯对人工智能教育感兴趣的个人,只要对用科技推动教育进步这一事业充满热情,认同爱和科技让教育更美好的理念,欢迎登陆中国创新挑战赛智慧教育专题赛官网页面报名,参与挑战,与万千技术人一道,用代码改写教育手写公式识别的技术进程。 赛事日程 阶段 时间 赛事启动 2020.09.30 12:00 训练集数据&标签发布 2020.09.30 12:00 验证集数据发布,A榜开放 2020.10.15 10:00 验证集标签发布,A榜关闭 2020.10.22 10:00 测试集数据发布,B榜开放 2020.10.22 12:00 结果提交截止,B榜关闭 2020.10.24 12:00 字符召回排行榜&综合榜公布 2020.10.24 17:00 随机数据推理结果复现 2020.10.24 20:00 - 2020.10.24 20:30 线上展示 2020.10.25 - 2020.10.26 比赛结果发布 2020.10.27 颁奖 2020.10.30 推荐竞赛 1结核杆菌目标检测 2心理卡牌目标检测算法赛 3医疗文本分类 4第五届中国创新挑战赛智慧教育专题赛:教育手写公式识别 5Intel场景分类挑战赛 6用户商场评价情感分析 7第五届BOT数据智能创新应用国际大赛 8电商用户购买行为预测 栏目信息 题库总量统计:94 个题库 当前总量统计:121 个题库
一、赛事背景当今世界,数据在全球经济运转中的价值日益凸显,国际间抢夺数字经济制高点的竞争日趋激烈。我国幅员辽阔、人口众多、经济体量庞大,经济社会运行数据规模列全球首位。从数据规模和量级看,我国构建全球领先的超大规模数据市场各项条件已经具备,是未来十年我国经济社会发展超越主要竞争对手的战略制高点。党十九届四中全会提出的将数据增列为生产要素,要求建立健全由市场评价贡献、按贡献决定报酬的机制。在此背景下,重庆市围绕国家大数据综合试验区建设等国家级产业战略规划,逐步完善大数据及相关产业生态建设,作为国家数字经济创新发展试验区的重要建设内容,我市积极参与全国一体化国家大数据中心建设试点,已初步编制完成全国一体化国家大数据中心西南分中心的建设实施方案,即“数据长城”西南地区行动计划——也是“数据长城”的首个区域落地试点项目,旨在广泛吸纳西南地区有数据资源能力的优势企业共同参与推动建立西南地区数据要素统一市场。同时,为增强国家数据产业的国际竞争力、有效推动大数据相关学科在高校领域的深化发展,在国家信息中心的指导下,由重庆市大数据应用发展管理局、渝北区人民政府作为主办单位,渝北区大数据应用发展管理局、重庆西部大数据前沿应用研究院、数字重庆大数据应用发展有限公司、重庆仙桃数据谷投资管理有限公司、重庆科技服务大市场有限公司作为承办单位,举行中国智慧城市数据开放创新应用大赛暨中国高校数据驱动创新大赛。本次大赛将立足重庆,面向全国,旨在推动数字经济领域合作创新,激发创业活力,集聚行业内知名企业与高成长性企业和团队,并培养高校在校学生的创新性思维,挖掘培养大数据智能化及数字经济领域人才,聚合大数据建立模型、创新应用、解决实际场景问题的专业能力,促进应用创新及成果转化,立足西部打造重庆数据开放品牌,为数字经济蓬勃发展贡献大赛力量。 一、大赛报名时间 报名开始时间:2020年12月4日下午 报名截止时间:2021年3月8日(23:59:59) 组队截止时间:2021年3月8日(23:59:59) 二、比赛日程初赛阶段: 日期:2021年1月7日-2021年3月8日 提交日期:2021年2月5日-2021年3月8日(23:59:59) 形式:初赛采用线上评审。针对通过初审的参赛作品,专家评委组根据各赛题评审规则对参赛作品进行评议,高校组和企业组分别排名前 15 的团队进入复赛,并组织相关权威媒体公布结果。 提交开放时间待公布 复赛阶段: 日期:2021年6月18日 形式:复赛采用线下的方式举办。参赛团队按照组委会要求展示所选需求解决方案(8分钟 PPT 路演 + 2分钟答辩),专家根据该赛题评分细则进行打分排名,选出企业组前 10 名、高校组 前5 名,共 15 支团队进入最终决赛,并对外发布。 决赛阶段: 日期:智博会前两周 形式:决赛采用线下的方式举办。专家根据赛题评分细则进行排名。 企业组:5 分钟 PPT 演讲 + 3分钟产品演示 + 2分钟答辩 高校组:5 分钟 PPT 演讲 + 3分钟 demo 演示 + 2分钟答辩 颁奖典礼: 日期:智博会期间 地点:具体时间地点后续通知 投资意向与落户意向签约: 投资机构与参赛项目签订意向投资协议 有意向落户渝北区的产业化项目落地签约 推荐竞赛 1结核杆菌目标检测 2心理卡牌目标检测算法赛 3医疗文本分类 4第五届中国创新挑战赛智慧教育专题赛:教育手写公式识别 5Intel场景分类挑战赛 6用户商场评价情感分析 7第五届BOT数据智能创新应用国际大赛 8电商用户购买行为预测 栏目信息 题库总量统计:94 个题库 当前总量统计:121 个题库