探索跨境“来数加工”,东莞竞逐高端数据标注新赛道
2025-12-05 14:31:43 来源:21世纪经济报道
南方财经记者程浩东莞报道
数据标注作为激活数据要素价值、衔接算法模型与产业应用的关键环节,正为大模型训练、自动驾驶等前沿领域提供核心支撑。
12月2日,对向春燕而言是个重要日子,她负责的东莞驰千数据公司正式入驻东莞万江数据标注产业园(以下简称“东莞数标园”)。作为百度云的数据合作伙伴,驰千数据跟随百度云从重庆毕节来到东莞,开启粤港澳大湾区数据标注新征程。
数据、算法和算力是构建AI系统的三大核心要素,随着AI模型训练步入下半场,行业垂直模型和智能体蓬勃发展,数据标注的重要性正被重新审视。数据标注摆脱了以往简单的人工标注模式,开始向高技术含量、高知识密度和高价值应用数据领域拓展,数据标注产业正从劳动密集型加速向知识技术密集型转变。
东莞作为科创制造强市,拥有丰富的人工智能应用场景和深厚的工业数据积累。当前,东莞正全力推进国家人工智能应用中试基地与数据产业集聚区建设,以“湾区数谷”为重要载体,率先布局高质量数据标注产业,对海量工业数据进行深度挖掘与价值提炼,加速形成一批行业级高质量数据集,推动人工智能与先进制造深度融合。
工信部电子五所人工智能中心副主任李帅在接受南方财经记者采访时表示,当前全国低端数据标注场景已相对饱和,而高端场景尤其是工业制造领域的数据标注,复杂度高,是全国面临的短板。“东莞从高端场景切入,这与东莞工业制造的优势场景高度契合,为其在数据要素市场建设中开辟了差异化的发展路径。”
万江街道党工委书记陈顺娇介绍,此次东莞布局高端数据标注产业园,一方面能快速响应广深海量AI企业服务需求,又能依托港澳地缘和产业优势率先探索跨境“来数加工”,填补大湾区高端数据标注产业空白。“未来3年内,我们将引进50家以上数据企业,形成30个以上高质量数据集和垂直领域大模型,集聚2000名以上高水平数据标注产业人才,实现湾区数据东莞标、湾区模型东莞测。”陈顺娇说。
数据标注行业有句话叫,“有多少智能,就有多少人工。”
数据标注师是伴随人工智能发展而出现的新兴职业,2010年前后随着大数据采集兴起,2020年2月,“人工智能训练师”正式成为新职业并纳入国家职业分类目录。人们生活中常见的智能音箱、语音助手、网络客服、人脸识别等产品背后,都有人工智能训练师参与。
2022年7月,向春燕加入重庆驰千科技,负责数据标注业务。她从标注、质检、审核、培训师成长为项目中心负责人,经历了数据标注的全流程管理。
“通俗来讲,数据标注就是给数据贴标签或做记号,要教会人工智能,首先要把知识转化成它能理解和吸收的语言,标注过程能帮助人工智能提取数据信息。向春燕在接受南方财经记者采访时表示,以前大家认为数据标注门槛低,像电子流水线,甚至说是宝妈行业,但现在简单、重复性的标注工作,60% - 70%已能由AI模型自动完成。
重庆驰千科技总经理范曲平介绍,驰千科技是一家专注于人工智能基础数据服务的企业。自2022年5月起成为百度云毕节数据标注基地的服务商,为各大车企提供自动驾驶数据标注服务,目前团队规模超两百人,业务覆盖全国,是首批入驻东莞数据标注产业园的服务商之一。
百度智能云中国区副总经理吴军华介绍,目前数据标注已从简单人工标注,发展为处理新兴领域、高复杂度或空白领域的高技术含量优质数据产业,并将持续向高阶发展,数据标注产业正从劳动密集型加速转向技术密集型。
从全国范围看,目前全国首批7个国家级数据标注基地主要集中在成都、沈阳、合肥等内陆城市,广东韶关、清远等地虽有小规模传统数据标注基地,但高端数据标注基础设施仍较欠缺。
随着大模型时代来临,对标注的精度、效率以及场景理解能力提出更高要求。在粤港澳大湾区,华为、腾讯、比亚迪、大疆等一批行业龙头企业正加速布局人工智能大模型和智能体,它们对高质量、专业化、场景化的数据标注需求庞大且迫切。
东莞数标园正是看准这一趋势定位高端化、智能化、生态化。与传统语音识别、文本分类、图像识别等通用场景领域不同,园区重点面向具身智能、工业质检、医疗影像、金融风控、遥感、AIGC等垂类高价值行业。
“园区在场地租金减免、算力券补贴等方面的大力支持,有效降低了企业研发与运营成本。同时,人才补贴及安置房配套政策,也为我们吸引和留住高质量人才提供了有力保障。”作为入驻首批数据标注服务商,广东歌捷信息科技有限公司总经理莫满春表示,歌捷信息未来计划与智能制造及工业互联网领域的本土企业深入合作,围绕实际应用场景,提供专业的AI数据标注与模型训练解决方案。
数据如同石油,不能只采不炼,东莞是大湾区数据的超级炼油厂。当前,东莞正以建设“湾区数谷”为契机,率先布局数据标注等基础环节,着力建设全国首个规模化边端智算网络,实现对工业产线数据的深度挖掘、高效加工。
陈顺娇介绍,作为东莞布局人工智能新赛道的重点项目,东莞数标园由万江街道总投资3.3亿元打造,联合中国电信、百度智能云两大头部企业,建立了百度智能云(东莞)数据标注产业基地和中国电信高质量数据集智能标注产业基地,搭建数据人才实训认证平台等六个产业赋能平台,实现从技术支撑、人才培育、质量把控到数据流通的数据标注产业链全覆盖。
从细分领域看,目前园区入驻的两大数标基地均瞄准高阶数据标注领域,布局高端数据标注产业新赛道。其中,百度云数标基地定位为粤港澳大湾区规模最大的百度标注基地,计划招募1000名数据标注师,面向具身智能、新能源、电子信息、装备制造、新材料等高端场景。而中国电信高质量数据集智能标注产业基地将搭建统一资源调度、智能中枢两大平台及多个专业应用子系统,帮助大湾区中小企业降低数字化转型门槛,提升创新效率。
在吴军华看来,东莞是大湾区目前最适合布局数据标注产业的地区之一。数据标注产业作为劳动密集型产业,东莞既有比广深更宽敞、性价比更高的场地支撑,又有丰富的优质劳动力资源,通过广深港高铁15分钟可直达深圳、40分钟可直达广州,能高效对接广州高校科研资源和深圳产业创新生态。
尤其在人才资源储备方面,东莞9所高校的在校大学生约17.65万人,东莞数标园基地周边大湾区大学、香港城市大学(东莞)、东莞理工学院等高校每年输出人工智能、大数据专业人才超2万人,高校人才和产业人才都有较为充足的储备。
“产业基础匹配度也是合作的关键要素之一,东莞有海量工业数据,我们具备深厚的数据加工能力,双方合作一拍即合,水到渠成。”吴军华介绍,作为科创制造强市,东莞在智能装备、电子信息、新材料等领域已形成产业集群,拥有丰富的AI应用场景与海量工业数据,这与百度云数标基地重点布局的具身智能、智能驾驶、新材料等场景高度契合,东莞数标基地能高效服务湾区企业,链接全球产业链资源,为具身智能提供场景测试,满足智能驾驶数据采集需求,产业合作将更紧密。
与传统数据标注不同,百度通过引入大模型标注、具身智能采标等高端标注技术和平台,助力东莞数标园区企业形成差异化、智能化、高阶化的数据标注产能,强化园区高阶数据标注品牌效应,依托“数据标注—模型训练—场景应用”全链条生态,吸引大湾区及全国高阶标注合作需求向园区汇聚。
吴军华透露,目前百度智能云国内首个具身智能采标实验室将落户东莞数标园,将配置数采机器、机械臂、人形机器人、采标一体化设备等,搭建家居交互、商业超市场景等标准化智能体训练环境,加快建设标准化数据生产能力,打造覆盖场景化采标、标准化质控和产业化输出的区域及具身智能数据基础设施,填补大湾区具身智能高阶数据标注空白。
(文章来源:21世纪经济报道)
原标题:探索跨境“来数加工”,东莞竞逐高端数据标注新赛道
郑重声明:信查查发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
相关企业
