ICDAR2023 数字原生视频文本问答竞赛 赛道1:端到端视频文字识别
大赛名称 ICDAR2023 数字原生视频文本问答竞赛 赛道1:端到端视频文字识别
详情链接 https://tianchi.aliyun.com/competition/entrance/532049/introduction?spm=5176.12281949.0.0.605a3b74Tkxe9q
大赛简介

ICDAR 2023 BDVT-QA (Competition for Born Digital Video Text Question Answering)挑战赛即将开启,并开放业内第一个基于数字原生视频文本问答的数据集。竞赛聚焦视频文字的关键技术问题的研究和探索,旨在与全球科研人才一同推动视频文字相关的应用和发展。

视频作为移动互联网时代最常见的内容服务,在购物、直播、短视频、和社交等邻域扮演着越来越重要的角色。视频中的文字作为视频中的显著特征,是关键信息的载体和媒介。数字原生视频是相对于自然场景视频而言的分类,其内容往往通过后期的制作和处理,才会对外传播,我们常见的视频动画、特效和提示词都是数字原生的重要对象。因此在数字原生视频中的文字,有比自然场景视频的文字更高的出现频率,并有更为明显的意图性。

视频文字问答主要针对视频中的文字进行提问和回答。数据集的制作过程中侧重选择有视频文字特色的数据,(1)文字有较多动画和特效,如渐入渐出,放大缩小等;(2)文字随着载体有变化的运动轨迹,如运动中的富文本商品等;(3)问题的答案需要处理多帧的文本,如安装某个工具的第几步等。竞赛主要设计了两个赛道。第一个赛道关于视频中的文本数字化,相比已有的视频文本数据集,会更加侧重于视频文字的融合和去重。第二个赛道是问答,据我们所知,这是业界第一次针对视频文字的问答,也是我们思考数字原生视频OCR的最终目的后做出的设置,即,机器应该在完成视频OCR的融合后去理解整段且分句展示的文本内容。需要强调的是,为了让算法研究更加聚焦于视频文字本身,题目的设置尽最大可能避免过度依赖图文关联的多模态问题和常识的知识图谱问题。

举办方 阿里云,天池
参赛方式
注:信息来源于赛事平台,侵删