安防资讯网

首页 > 快讯 杭州高端数据标注基地揭牌如何为人工智能第一城注入“数据燃料”?

杭州高端数据标注基地揭牌如何为人工智能第一城注入“数据燃料”?

杭州全力建设人工智能创新发展第一城,又有龙头企业入局。

3月30日,杭州市上城区数据产业高地推进大会暨火山引擎合作签约仪式举行,会上,杭州高端数据标注基地揭牌。

在人工智能时代,数据是最核心的生产要素。数据产业的高质量发展,离不开“链主”企业的引领和全生态的协同。也是在这一天,世界数据组织在北京正式成立,足以见全球数据治理正迈向制度协同的新阶段。

那么,当“链主”落子,上城又将如何借势起笔?

不只是“打标签”

高端数据标注是什么?

大会现场,一个问题频频出现:什么是数据标注?

翻开释义——数据标注是指对原始数据(包括文本、图像、语音、视频等形式)进行加工、整理、标记或分类,使其转化为结构化数据,从而为机器学习模型提供可识别的特征与训练样本的过程。

简单来说,数据标注就是给原始数据“打标签”,让机器学习模型能看懂这些数据是什么。例如,给出一段语音,把录音转写成文字,并标出“男声”“嘈杂环境”,这就是语音标注;给出一张图片,在图片里圈出“这是一只猫”,框出“那是一条狗”,这就是图像标注等。

高端数据标注,则是常规数据标注的“进阶版”。它通常面向自动驾驶、具身智能、智慧医疗、工业AI等高价值的人工智能场景,不仅要“识别是什么”,更要“理解是什么关系、处于什么状态、将如何演变”。

例如,在自动驾驶领域需区分“可行驶区域”与“潜在风险物”;在医疗领域需依据影像学知识对病灶进行分级与三维重建;在工业质检领域需依据工艺标准判定缺陷类型与等级……这也要求标注员具备垂直领域专业知识,以推动AI从“感知智能”向“决策智能”跨越。

上城区委宣传部供图

数据标注有多重要?它被认为是“人工智能的基石”,直接决定了人工智能大模型的上限,被广泛视为人工智能产业化落地的重要支撑要素。

2024年,国家发展改革委等部门出台了《关于促进数据标注产业高质量发展的实施意见》,其中提到“支持建设集数据、模型、工具、场景为一体的数据标注创新平台,推动数据标注技术融合创新”。

上城要做的,正是这件事。

“上城全力建设中央创新区,其中六大功能区的建设都需要数据这一底层要素的强有力支撑。火山引擎作为行业内的领军企业,在数据技术研发、产业生态构建、人工智能应用等方面拥有深厚积淀,并且与上城发展数据产业的战略布局高度契合、理念同频。”上城区副区长姚洪华说。

“链主”为何看上城?

数据企业和产业生态筑“磁场”

记者注意到,火山引擎作为字节跳动旗下的全栈云技术服务平台,此前已在北京、上海、江苏等地设立高端数据标注基地。此次布局浙江市场,为何首家高端数据标注基地选择落户在上城?

“火山引擎选择上城作为合作伙伴,主要看中其扎实的都市产业基础和高效的政策服务环境。”火山引擎浙苏皖区域负责人陈虔炜说。

上城区数据资源局副局长娄莹介绍,目前全区已集聚一定规模的数据企业约500家,覆盖数据资源、技术、服务、应用、安全及基础设施等六大领域,形成完整产业链,数据产业年均增长率超过15%。

此次上城和火山引擎共建杭州高端数据标注基地,定位为国内领先的高质量数据供给枢纽、数据标注技术创新试点和产业协同赋能平台,将聚焦多模态数据标注等领域,打造智能化、专业化、规范化的标注产业标杆。

“基地功能涵盖三大方面。”娄莹说。

一是高质量数据加工,聚焦文本、图像、语音等多模态数据,开展精准标注、质量校验等服务,保障数据供给质量;

二是数据技术创新发展,依托产学研协作,推动标注工具智能化升级与关键技术攻关;

三是产业人才培育,搭建实训平台,为产业输送专业标注人才。

高质量数据集是核心。目前,上城已发布102个“人工智能+”机会场景,未来基地将聚焦智能驾驶、生物医药、金融科技、数智时尚等特色领域,开发行业专属高质量数据集。

“我们的智能标注工具集成了AI辅助能力,可将标注效率提升60%以上。更重要的是,我们已积累了超过8000个成品高质量数据集,覆盖45个数据方向和50余种语种。这些数据集就像‘AI燃料’,能够直接为企业的模型训练和应用开发提供高价值的‘弹药’。”火山引擎数智平台解决方案总经理萧然说。

这次政企的“一拍即合”,不仅是一次产业升级的关键实践,更是一次培育新质生产力、构建数字产业生态的战略探索。上城区将依托火山引擎的“链主”优势,构建起数据“采集-标注-应用-治理”的全链条产业生态,为全省数据要素价值转化提供“上城样本”。

“楼上楼下”成就“伙伴圈”

一张协同网如何撬动数据要素?

此次引入基地,上城区拿出了优质产业空间,首期1.3万平方米位于九堡街道的杭海金座。“既能承载大项目落地,又能兼顾小微团队孵化,让优质企业和项目从容上阵、快速成长。”姚洪华说。

之所以如此大手笔,是因为上城着力构建的一张“楼上楼下”产业生态网络,其核心便是构建起上下游协同的数据产业链。

“我们不仅是技术的提供者,更是‘链主’生态的构建者。”火山引擎数智平台解决方案总经理萧然介绍,火山引擎将联动生态合作伙伴,共同为上城区引入丰富的产业资源。

一方面,整合火山引擎生态企业及上城区本地企业的标注需求,形成标准化的订单池,为数据标注产业提供源源不断的“订单燃料”;

另一方面,引入具备专业能力的标注企业,通过订单对接平台,实现需求方与供给方的高效撮合,形成“需求-供给-服务”的完整闭环。

“这种生态协同模式,能够有效降低企业的协作成本,提升区域在人工智能数据服务领域的整体竞争力,最终形成‘企业入驻-产业升级-更多企业入驻’的正向产业循环,带动区域产业集群的蓬勃发展。”萧然说。

在签约仪式上,首批数据产业“伙伴圈”发布,北京海天瑞声科技股份有限公司是其中之一。

作为国内AI训练数据领域的头部企业,海天瑞声自2024年底落户杭州上城区以来,积极融入区域数据产业发展。

公司浙江区总经理韩义武介绍,当前数据产业最迫切的需求集中在高质量数据集供给,以及数据与算力、应用场景的深度融合。此次受邀成为上城区首批数据产业“伙伴圈”成员,海天瑞声将与火山引擎等伙伴协同,推动杭州高端数据标注基地建设,聚焦具身智能、时尚消费、金融等重点领域,打造高质量语料库和行业应用标杆。

此外,为了让更多优质企业加入数据产业“伙伴圈”,上城还发布了助力数据产业高质量发展政策包“数十二条”,为数据企业量身打造“全生命周期服务方案”,致力于成为企业发展历程中的“最佳合伙人”。

文章来源:http://www.anfangnews.com/2026/0331/14738.shtml