基于文心CV大模型的智慧城市视觉多任务识别
大赛名称 基于文心CV大模型的智慧城市视觉多任务识别
详情链接 https://www.datafountain.cn/competitions/590
大赛简介

• 赛题背景

近年来预训练大模型一次次刷新记录,展现出惊人的效果,但对于产业界而言,势必要面对如何应用落地的问题。当前预训练模型的落地流程可被归纳为:针对只有少量标注数据的特定任务,使用任务数据 fine-tune 预训练模型并部署上线。然而,当预训练模型参数量不断增大后,该流程面临两个严峻的挑战。首先,随着模型参数量的急剧增加,大模型 fine-tuning 所需要的计算资源将变得非常巨大,普通开发者通常无法负担。其次,随着 AIoT 的发展,越来越多 AI 应用从云端往边缘设备、端设备迁移,而大模型却无法直接部署在这些存储和算力都极其有限的硬件上。

针对预训练大模型落地所面临的问题,百度提出统一特征表示优化技术(UFO:Unified Feature Optimization),在充分利用大数据和大模型的同时,兼顾大模型落地成本及部署效率。
 

• 赛题任务

在背景介绍中我们知道,受算力和存储的限制,大模型无法直接部署在边缘设备上。一个针对云端设备开发的模型要部署到边缘设备或端设备时往往要进行模型压缩,或完全重新设计,而预训练大模型的压缩本身需要耗费大量的资源。

另外,不同任务对模型的功能和性能要求也不同,例如人脸识别门禁系统只需具备人脸识别功能即可,智慧社区的管控系统则需要同时具备人脸识别和人体分析的能力,部分场景还需要同时具备车型识别及车牌识别能力。即便是同样的人脸识别任务,门禁系统和金融支付系统对模型的精度和性能要求也不同。目前针对这些任务往往需要定制化开发多个单任务模型,加之需要适配不同的硬件平台,AI模型开发的工作量显著增长。

针对大模型的开发和部署问题,VIMER-UFO 给出了 One for All 的解决方案,通过引入超网络的概念,超网络由众多稀疏的子网络构成,每个子网络是超网络中的一条路径,将不同参数量、不同任务功能和不同精度的模型训练过程变为训练一个超网络模型。训练完成的 VIMER-UFO One for All 超网络大模型即可针对不同的任务和设备低成本生成相应的可即插即用的小模型,实现 One for All Tasks 和 One for All Chips 的能力。
我们从垂类应用出发,选择了人脸、人体、车辆、商品四个任务来训练视觉模型大一统模型。

举办方 中国计算机学会 & 百度
参赛方式

参赛人群:大赛面向全球征集参赛团队,不限年龄、国籍,高校、科研院所、企业从业人员等均可登录官网报名参赛;
报名要求:参赛选手可报名不同赛道多个赛题,但在同一赛题中仅能报名参加一支团队。报名时所有团队成员需提供个人基本信息,并进行实名认证;参赛选手应当保证身份信息的真实性。大赛组委会承诺其中涉及个人隐私的内容予以保密;
组队要求:所有报名参加同一赛题的参赛者,可进行组队操作。所有参赛选手应在截止日期前自行完成组队,每队1-5人,不可重复组队。并以团队身份提交各阶段的作品材料,一旦进入团队,不可退出队伍。为保证每支参赛团队享有相对平等的提交机会,各赛题组队需满足组队成员在赛题中的提交总次数≤开赛天数*赛题每天提交次数;
队长责任制:各团队队长作为团队的负责人,需自行进行团队内部分工和协调,并承担与大赛组委会对接沟通(包括但不限于晋级入围、团队信息收集、作品审核、线下活动、奖金发放等)的责任;
回避原则:大赛出题的人员及所在部门人员禁止参与所出具的赛题(可参与其他赛题),直接参与大赛策划、组织、技术服务的工作人员等相关人士禁止参赛,禁止委托他人参赛或违规指导参赛团队。

注:信息来源于赛事平台,侵删