• 零基础入门数据挖掘-心跳信号分类预测

    本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事 —— 心跳信号分类预测。

    赛题以心电图心跳信号数据为背景,要求选手根据心电图感应数据预测心跳信号所属类别,其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例,这是一个多分类的问题。通过这道赛题来引导大家了解医疗大数据的应用,帮助竞赛新人进行自我练习、自我提高。

    为了更好的引导大家入门,还特别为本赛题定制了学习方案,其中包括数据科学库、通用流程和baseline方案学习三部分。通过对本方案的完整学习,可以帮助掌握数据竞赛基本技能。(也可以进行视频直播学习)

    新人赛的目的主要是为了更好地带动处于初学者阶段的新同学们一起玩起来,因此,我们鼓励所有选手,基于赛题发表notebook分享,内容包含但不限于对赛题的理解、数据分析及可视化、算法模型的分析以及一些核心的思路等内容。

  • 【教学赛】数据分析达人赛3:汽车产品聚类分析

    本次教学赛是数据科学家陈博士发起的数据分析系列赛事第3场 —— 汽车产品聚类分析

    赛题以竞品分析为背景,通过数据的聚类,为汽车提供聚类分类。对于指定的车型,可以通过聚类分析找到其竞品车型。通过这道赛题,鼓励学习者利用车型数据,进行车型画像的分析,为产品的定位,竞品分析提供数据决策。

    数据分析达人赛的目的是为了更好地带动数据科学初学者一起玩起来,因此我们鼓励所有选手,基于赛题发表notebook分享,内容包含但不限于对赛题的理解、数据分析及可视化、算法模型的分析以及数据分析思路等内容。

  • 【教学赛】数据分析达人赛2:产品关联分析

    本次教学赛是数据科学家陈博士发起的数据分析系列赛事第2场 —— 产品关联分析

    赛题以购物篮分析为背景,要求选手对品牌的历史订单数据,挖掘频繁项集与关联规则。通过这道赛题,鼓励学习者利用订单数据,为企业提供销售策略,产品关联组合,为企业提升销量的同时,也为消费者提供更适合的商品推荐。

    数据分析达人赛的目的是为了更好地带动数据科学初学者一起玩起来,因此我们鼓励所有选手,基于赛题发表notebook分享,内容包含但不限于对赛题的理解、数据分析及可视化、算法模型的分析以及数据分析思路等内容。

  • 【教学赛】数据分析达人赛1:用户情感可视化分析

    本次教学赛是数据科学家陈博士发起的数据分析系列赛事第1场 —— 用户情感可视化分析

    赛题以网络舆情分析为背景,要求选手根据用户的评论来对品牌的议题进行数据分析与可视化。通过这道赛题来引导常用的数据可视化图表,以及数据分析方法,对感兴趣的内容进行探索性数据分析。

    数据分析达人赛的目的是为了更好地带动数据科学初学者一起玩起来,因此我们鼓励所有选手,基于赛题发表notebook分享,内容包含但不限于对赛题的理解、数据分析及可视化、算法模型的分析以及数据分析思路等内容。

  • 资金流入流出预测-挑战Baseline

    蚂蚁金服拥有上亿会员并且业务场景中每天都涉及大量的资金流入和流出,面对如此庞大的用户群,资金管理压力会非常大。在既保证资金流动性风险最小,又满足日常业务运转的情况下,精准地预测资金的流入流出情况变得尤为重要。此届大赛以《资金流入流出预测》为题,期望参赛者能够通过对例如余额宝用户的申购赎回数据的把握,精准预测未来每日的资金流入流出情况。对货币基金而言,资金流入意味着申购行为,资金流出为赎回行为
  • 新浪微博互动预测-挑战Baseline

    新浪微博作为中国最大的社交媒体平台,旨在帮助用户发布的公开内容提供快速传播互动的通道,提升内容和用户的影响力。本次赛题的目标是发现能够最快找到有价值微博的方法,然后应用于平台的内容分发控制策略,对于有价值的内容可以增加曝光量,提高内容的传播互动量。
  • 淘宝穿衣搭配-挑战Baseline

    淘宝网是中国深受欢迎的网购零售平台,其中服饰鞋包行业占据市场的绝大部分份额,围绕着淘宝诞生了一大批优秀的服饰鞋包导购类的产品。穿衣搭配是服饰鞋包导购中非常重要的课题,它所延伸出的技术、算法能广泛应用到大数据营销几乎所有场景中,如搜索、推荐和营销服务。淘宝穿衣搭配算法竞赛将为参赛者提供搭配专家和达人生成的搭配组合数据,百万级别的淘宝商品的文本和图像数据,同时还将提供用户的脱敏行为数据。期待参赛者能从以上行为、文本和图像数据中挖掘穿衣搭配模型,为用户提供个性化、优质的、专业的穿衣搭配方案。
  • 天猫复购预测之挑战Baseline

    商家有时会在特定的日期(如节礼日甩卖、"黑色星期五 "或 "双十一(11月11日)")开展大型促销活动(如折扣或现金券),以吸引大量新买家。但是,很多被吸引来的买家都是一次性的,他们在这次消费之后就再也没有购买,针对这些用户的促销活动并没有给店铺带来未来销售的增加。为了缓解这个问题,商家必须确定哪些人可以转化为重复购买者。通过对这些潜在的忠诚客户进行精细化营销,商家可以大大降低促销成本,提高投资回报率(ROI)。众所周知,在网络广告的领域,用户精准定位具有极大的挑战性,尤其是对于新买家。不过,借助天猫长期积累的用户行为日志,我们或许可以解决这个问题。在本次挑战中,我们提供了一组商家以及他们在 "双11 "促销活动中获得的新买家。你的任务是在给定商家中预测其中哪些新买家会在未来成为忠实客户。换句话说,你需要预测这些新买家在未来六个月内再次在同一个商家购买商品的概率。我们给出一个包含约20万用户的数据集进行训练,另一个规模相近的数据集进行测试。与其他比赛类似,你可以提取任何特征,然后用其他工具进行训练。你只需要提交预测结果进行评估。
  • “英特尔创新大师杯”深度学习挑战赛 赛道2:CCKS2021中文NLP地址要素解析

    人类的活动离不开位置,从空间上可以表征为坐标,从文本上表征为通讯地址。通讯地址广泛存在于电商物流、政府登记、金融交通等领域。对通讯地址的分析、聚合服务已经是一项重要基础服务,支撑着诸多互联网场景,比如地图搜索、电商物流分析等。实际应用中,地址文本存在写法自由、缺省别名多、地域性强等特点,对地址的解析、归一和匹配等都造成困难。针对这些难点,阿里达摩院机器智能技术团队联合CCKS2021大会举办此次地址评测任务。该评测包含中文NLP的2个子任务,分别是:地址要素解析、地址相关性任务。
  • 【教学赛】金融数据分析赛题3:证券数据可视化分析

    本次教学赛是陈博士发起的数据分析系列赛事第3场 —— 证券数据可视化分析

    赛题以证券数据分析为背景,对股票价格、融资融券数据的日线、月线、K线进行探索。同时选手也可以探索量化交易的指标,比如采用MACD,KDJ指标等进行投资决策,计算投资策略的年化收益率,最大回撤等。

    金融数据分析比赛的目的是为了更好地带动数据科学初学者一起玩起来,因此我们鼓励所有选手,基于赛题发表notebook分享,内容包含但不限于对赛题的理解、数据分析及可视化、算法模型的分析以及数据分析思路等内容。

  • 【教学赛】金融数据分析赛题1:银行客户认购产品预测

    本次教学赛是陈博士发起的数据分析系列赛事第1场 —— 银行客户认购产品预测

    赛题以银行产品认购预测为背景,想让你来预测下客户是否会购买银行的产品。在和客户沟通的过程中,我们记录了和客户联系的次数,上一次联系的时长,上一次联系的时间间隔,同时在银行系统中我们保存了客户的基本信息,包括:年龄、职业、婚姻、之前是否有违约、是否有房贷等信息,此外我们还统计了当前市场的情况:就业、消费信息、银行同业拆解率等。

    用户购买预测是数字化营销领域中的重要应用场景,通过这道赛题,鼓励学习者利用营销活动信息,为企业提供销售策略,也为消费者提供更适合的商品推荐。

    金融数据分析比赛的目的是为了更好地带动数据科学初学者一起玩起来,因此我们鼓励所有选手,基于赛题发表notebook分享,内容包含但不限于对赛题的理解、数据分析及可视化、算法模型的分析以及数据分析思路等内容。

  • 【教学赛】金融数据分析赛题2:保险反欺诈预测

    本次教学赛是陈博士发起的数据分析系列赛事第2场 —— 保险反欺诈预测

    赛题以保险风控为背景,保险是重要的金融体系,对社会发展,民生保障起到重要作用。保险欺诈近些年层出不穷,在某些险种上保险欺诈的金额已经占到了理赔金额的20%甚至更多。对保险欺诈的识别成为保险行业中的关键应用场景。

    金融数据分析比赛的目的是为了更好地带动数据科学初学者一起玩起来,因此我们鼓励所有选手,基于赛题发表notebook分享,内容包含但不限于对赛题的理解、数据分析及可视化、算法模型的分析以及数据分析思路等内容。

  • 阿里移动推荐算法挑战赛

    2014年是阿里巴巴集团移动电商业务快速发展的一年,例如2014双11大促中移动端成交占比达到42.6%,超过240亿元。相比PC时代,移动端网络的访问是随时随地的,具有更丰富的场景数据,比如用户的位置信息、用户访问的时间规律等。
    本次大赛以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息,而参赛队伍则需要通过大数据和算法构面向建移动电子商务的商品推荐模型。希望参赛队伍能够挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐合适的内容。
  • 2022中国华录杯数据湖算法大赛—应用赛道

    大赛旨在挑选出优秀的人工智能算法,并遴选出杰出的算法达人。同时,大赛中涌现的优秀团队将有机会入驻易华录科技企业孵化器,享受专业孵化服务,加速产品、项目落地。
  • Caltech256 图像分类竞赛

    Caltech-256 物品分类数据集由Caltech-101数据集演变而来,该数据集选自Google Image数据集,并手工去除了不符合其类别的图片。在该数据集中共有30,607张图片,256个图片类别,每个类别包括超过80张图片。
  • ICDAR2023 数字原生视频文本问答竞赛 赛道1:端到端视频文字识别

    ICDAR 2023 BDVT-QA (Competition for Born Digital Video Text Question Answering)挑战赛即将开启,并开放业内第一个基于数字原生视频文本问答的数据集。竞赛聚焦视频文字的关键技术问题的研究和探索,旨在与全球科研人才一同推动视频文字相关的应用和发展。

    视频作为移动互联网时代最常见的内容服务,在购物、直播、短视频、和社交等邻域扮演着越来越重要的角色。视频中的文字作为视频中的显著特征,是关键信息的载体和媒介。数字原生视频是相对于自然场景视频而言的分类,其内容往往通过后期的制作和处理,才会对外传播,我们常见的视频动画、特效和提示词都是数字原生的重要对象。因此在数字原生视频中的文字,有比自然场景视频的文字更高的出现频率,并有更为明显的意图性。

    视频文字问答主要针对视频中的文字进行提问和回答。数据集的制作过程中侧重选择有视频文字特色的数据,(1)文字有较多动画和特效,如渐入渐出,放大缩小等;(2)文字随着载体有变化的运动轨迹,如运动中的富文本商品等;(3)问题的答案需要处理多帧的文本,如安装某个工具的第几步等。竞赛主要设计了两个赛道。第一个赛道关于视频中的文本数字化,相比已有的视频文本数据集,会更加侧重于视频文字的融合和去重。第二个赛道是问答,据我们所知,这是业界第一次针对视频文字的问答,也是我们思考数字原生视频OCR的最终目的后做出的设置,即,机器应该在完成视频OCR的融合后去理解整段且分句展示的文本内容。需要强调的是,为了让算法研究更加聚焦于视频文字本身,题目的设置尽最大可能避免过度依赖图文关联的多模态问题和常识的知识图谱问题。

  • ICDAR2023 数字原生视频文本问答竞赛 赛道2:视频文本问答

    ICDAR 2023 BDVT-QA (Competition for Born Digital Video Text Question Answering)挑战赛即将开启,并开放业内第一个基于数字原生视频文本问答的数据集。竞赛聚焦视频文字的关键技术问题的研究和探索,旨在与全球科研人才一同推动视频文字相关的应用和发展。

    视频作为移动互联网时代最常见的内容服务,在购物、直播、短视频、和社交等邻域扮演着越来越重要的角色。视频中的文字作为视频中的显著特征,是关键信息的载体和媒介。数字原生视频是相对于自然场景视频而言的分类,其内容往往通过后期的制作和处理,才会对外传播,我们常见的视频动画、特效和提示词都是数字原生的重要对象。因此在数字原生视频中的文字,有比自然场景视频的文字更高的出现频率,并有更为明显的意图性。

    视频文字问答主要针对视频中的文字进行提问和回答。数据集的制作过程中侧重选择有视频文字特色的数据,(1)文字有较多动画和特效,如渐入渐出,放大缩小等;(2)文字随着载体有变化的运动轨迹,如运动中的富文本商品等;(3)问题的答案需要处理多帧的文本,如安装某个工具的第几步等。竞赛主要设计了两个赛道。第一个赛道关于视频中的文本数字化,相比已有的视频文本数据集,会更加侧重于视频文字的融合和去重。第二个赛道是问答,据我们所知,这是业界第一次针对视频文字的问答,也是我们思考数字原生视频OCR的最终目的后做出的设置,即,机器应该在完成视频OCR的融合后去理解整段且分句展示的文本内容。需要强调的是,为了让算法研究更加聚焦于视频文字本身,题目的设置尽最大可能避免过度依赖图文关联的多模态问题和常识的知识图谱问题。

  • “天池杯”全国中小学科技少年AI领航计划·高级挑战

    为响应国务院《新一代人工智能发展规划》的号召,加大力度面向全国青少年普及人工智能的相关知识和技能,提高青少年的人工智能素养,培育未来的人工智能英才,中国人工智能学会日前发起“天池杯”全国中小学科技少年AI领航计划(简称“科技少年AI领航计划”),并由阿里云天池平台承办。

    回到活动主页面: "天池杯"全国中小学科技少年AI领航计划

    高级挑战设置为“地址结构化解析挑战赛”,详情可点击“赛题与数据描述”了解。

    人类的活动离不开位置,从空间上可以表征为坐标,从文本上表征为通讯地址。通讯地址广泛存在于电商物流、政府登记、金融交通等领域。对通讯地址的分析、聚合服务已经是一项重要基础服务,支撑着诸多互联网场景,比如地图搜索、电商物流分析等。实际应用中,地址文本存在写法自由、缺省别名多、地域性强等特点,对地址的解析、归一和匹配等都造成困难。

  • ICDAR 2023 DTT in Images 1: Text Manipulation Classification

    图像中的文本有效地传递密集信息,并成为各种应用(如数字金融、电子商务、安全审计和资格审查)最常用的媒介之一。由于文本包含重要信息,因此我们能够防止文本被篡改至关重要。事实上,句子中的一个小变化可能会严重扭曲整个承载的语义信息。然而,以往文献分析和识别的研究大多集中在检测和理解文本的内容上。它们的真实性很少被讨论,最近几天,人们对信息安全的担忧与日俱增。近年来,图像取证越来越受到学术界和工业界的关注,旨在保护恶意图像操纵。大多数研究集中于自然图像,其中被篡改的对象通常是人或汽车等物体。而由于文本的非结构化表示,篡改文本检测更具挑战性。例如,篡改区域可以很小(例如,段落中的字符);篡改区域和周围环境之间的对比度可能非常低。然而,以前的大多数工作都是基于私有数据集。开源数据集的缺乏也减缓了回火文本检测技术的发展。因此,我们构建了一个相对大规模的数据集,即模拟电子商务场景的篡改图像文本(TTI)。这些图像是通过多种多样的来源拍摄的。它总共包含19000个文本图像,15994个图像使用多种类型的操作技术进行操作,包括手动和自动方法。每个图像都用指示篡改位置的二进制掩码进行注释。
  • 第五届BOT数据智能创新应用国际大赛

    第五届BOT数据智能创新应用国际大赛从上海静安出发,联动长三角,辐射全国,智动全球。汇聚国内外200+家合作机构,80+位技术、产业、投资导师,持续关注、助力全球科技创业者。
    页次:3/30 每页20 总数593    首页  上一页  下一页  尾页    转到: