首页 > 快讯视觉技术不断突破，产业热度加速增长

视觉技术不断突破，产业热度加速增长

2023年01月16日 17:27

人工智能是国家战略的重要组成部分，是未来国际竞争的焦点和经济发展的新引擎。2022年，国家陆续出台了《关于支持建设新一代人工智能示范应用场景的通知》、《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》等产业政策为我国人工智能产业发展提供了长期保障。

计算机视觉技术作为人工智能产业发展的主动力之一，在2022年实现了从支持基础设施到跨行业的新应用，且产业规模不断扩大。据IDC数据，中国计算机视觉2022上半年市场规模达到9.76亿美元，仅次于语音语义市场规模10.54亿美元，市场驱动力主要来源于智慧城市、工业质检以及疫情防控带来的视觉场景需求。

一、计算机视觉技术探索持续突破

观察1：合成数据有望打破计算机视觉模型训练瓶颈

为提高计算机视觉模型训练效果，需要训练数据打上标签，这提高了数据的获取成本并制约了数据集的规模。除去成本高昂以外，特定领域的数据集还受限于隐私保护，极难采集。为了高效、廉价并在不侵犯隐私的情况下获取大量数据，Datagen、Synthesis AI等合成数据（Synthetic Data）公司，通过算法生成出符合真实世界情况的数据集，有望解决目前模型训练中的瓶颈问题。合成数据被麻省理工列为2022年10 项突破性技术之一，Gartner甚至预测2030绝大多数的人工智能数据训练集会使用合成数据集。

观察2：多模态智能与计算机视觉融合，为机器提供了更接近于人类感知的场景

Deepmind 构建了名为Gato的多模态模型，它具有多模态、多任务、多具身（embodiment）特点。其主要优势之一是它的多功能性，不需要为不同的任务训练和集成多个专门的模型，而是可以用一组权重和一个相对简单的架构处理所有这些任务。在未来的计算机视觉研究中，多模态融合、多技术融通是一个重要的趋势。人工智能正在从语音、文字、视觉等单模态智能，向着多种模态融合发展，结合分布式平台的计算能力，实现更高精度的场景构建，和对动态场景的处理能力。

观察3：Transformer 解码器架构在计算机视觉上发挥了高超水平

Transformer模型在2017年被提出，开创了大型语言模型时代。2022年，DETR、SegFormer、Swin Transformer 和VIT的应用，使Transformer模型在视觉任务中体现了先进性能。据剑桥大学的2022年 AI 全景报告，与 Transformer 相关的图像论文占比达到22%、视频论文占比达到5%。Transformer正在成为真正的跨模态技术工具。

二、计算机视觉产业应用高热度活跃

观察1：工业视觉应用助力智能制造转型升级

自“十四五”规划纲要将人工智能作为议题重点以来，AI技术在带动产业转型的重要性日益凸显。以工业为代表的传统行业数字化升级的原生内驱力也促进了计算机视觉技术的广泛应用。2022年，工业视觉准确率随着数据量的提升而持续优化，为流程优化和工艺再造提供支持，工业视觉解决方案全面赋能智能制造。根据IDC预计到2025年中国工业AI质检整体市场将达到9.58亿美元，2021-2025年复合年均增长率(CAGR)为28.5%。

观察2：安防行业持续下沉，智慧安防进入发展新周期

2022年2月出台的《关于做好二〇二二年全面推进乡村振兴重点工作的意见》提出了“强化智能监控全覆盖”、“切实维护农村社会平安稳定，推进更高水平的平安法治乡村建设”等要求。多地区县积极响应，建设“雪亮工程”。数字乡村作为“三农”、数字化发展、内需等发力方向的共同交集，预计将在未来成为计算机视觉结合安防行业重点布局的领域。

观察3：边缘计算进一步增强嵌入式视觉能力

计算机视觉的人工智能训练需要大量的计算资源，目前主要由数据中心或IaaS私有云或公共托管云对本地摄像头传来的图像和视频执行算法分析。但随着低功耗嵌入式系统处理能力的提高，5G基础设施的不断完善，边缘侧和物联网端点侧就能够提供网络、计算、存储和应用，尤其受需要实时数据处理的项目的欢迎。此类项目包括自动驾驶汽车、无人机等。

三、信通院开展系列工作助力计算机视觉健康发展

计算机视觉的未来充满希望，技术的进步和产业的发展为其开辟了广阔的机遇。中国人工智能产业发展联盟与中国信息通信研究院联合20余家业界单位完成了计算机视觉系列标准，并开展了首轮评测工作。

1）标准内容介绍：

《计算机视觉技术要求第1部分：计算机视觉开放平台通用能力要求》面向提供计算机视觉能力的开放平台，以计算机视觉开放提供的功能全面程度为侧重点，围绕功能实现程度、信息披露情况、是否私有化部署等情况进行规范。

《计算机视觉技术要求第2部分：图像识别与处理能力要求》面向计算机视觉平台或计算机视觉产品制定，对计算机视觉平台或产品的图像识别与处理能力从识别、检测、分割、跟踪4个维度进行评估。

《计算机视觉技术要求第3部分：视频识别与处理能力要求》面向计算机视觉平台或计算机视觉产品制定，将对计算机视觉平台或产品的视频识别与处理能力从内容提取、理解、处理3大维度进行评估。

《工业机器视觉开放平台通用能力要求》面向工业机器视觉开放平台制定。将从识别、定位、测量、检测4部分能力域进行评估。

2）首轮评测结果介绍

2022年12月，顺丰科技多模态业务场景SaaS化平台——“慧眼神瞳（AI Argus）”通过首轮评测，包括视频识别与处理能力、图像识别处理能力测试项，各测试项均表现优秀，获得进阶级指标证书。

作为覆盖全网的AIoT感知平台，“慧眼神瞳”能全面解析物流各场景下的关键生产要素，形成覆盖全场景的实时业务动态数据，并用于保障物流安全、提升物流效能及自动化水平、减少人力投入；以及为行业企业提供数智化管理与精细运营方案，实现企业的数字化转型升级。

责任编辑：赵智华

文章来源：http://www.anfangnews.com/2023/0116/4171.shtml