AI 产业加速时代，我们为何要关注数据标注平台？

消息来源:baojiabao.com 作者: 发布时间：2024-05-20

报价宝综合消息AI 产业加速时代，我们为何要关注数据标注平台？

人工智能会取代你的工作吗?

站在 2022 年的当下，大部分人给出的回答是 -- 不会。事实上，AI 产业的蓬勃发展，正在创造更多工作岗位。

AI 产业的工作机会不仅仅局限于工程师岗位。如今，从城市到乡村，从学生到上班族，越来越多人开始将 AI 数据标注员作为一项兼职工作，为 AI 模型添砖加瓦。

但在 AI 数据标注领域，服务于数据标注的平台、工具却一直不够丰富。特别是可供中小企业、个人开发者使用的开源、免费的标注工具，更是少之又少。

如今，越来越多的 AI 开发者注意到了这一问题，并开始改变这一现状。为了满足以上需求，LabelFree 数据标注平台目前发布了最新版本，提供高效的标注能力，并原生对接 YMIR 开源 AI 模型生产平台，提供了一站式的 AI 解决方案。这些低门槛的 AI 数据标注解决方案，或将在未来进一步加速 AI 的普及。

数据标注平台，能做到既便宜又好用吗?

在 AI 产业，数据，意味着什么?

数据，是 AI 生产的基座。一个 AI 模型从诞生到完善，直至应用于产品，实现商业化落地，需要大量数据的喂养。而在这一过程中，数据标注给 AI 模型提供了学习数据的重要基础，是 AI 从"人工"到"智能"的第一步。

在 AI 产业链条中，数据标注平台基本可划分为四类:

其一，是大型企业开发的数据标注平台，大多服务于企业内部的 AI 项目，不会对外开放。

其二，是 SaaS 类的数据标注解决方案，企业及个人开发者可付费使用。这类服务的优势是无需部署，可以直接使用；而劣势则是不支持本地化部署，可能存在数据合规风险，且大多不支持定制及二次开发。

其三，是直接将数据标注服务交给外包服务商，通过服务商的团队完成数据标注工作。其优势在于省心省力，而劣势也十分明显: 数据安全、交付速度、标注质量均不可控。特别是一些具有一定专业性的标注工作，如医学影像类标注，更是考验数据标注服务商的专业能力。

最后，是开源的数据标注平台。与前几者相比，开源方案的使用门槛更低，且支持二次开发，并支持本地化部署。但与此同时，市面上的开源数据标注平台数量有限，且许多产品在标注员使用、项目管理方面均存在流程复杂、效率低的问题。因此，开源解决方案始终未能成为行业主流。

综上所述，在数据标注的工具选择上，AI 开发者度的需求其实十分清晰: 低成本使用，最好是开源项目，或支持免费授权；支持定制或二次开发；可以本地化部署，满足数据可控需求；标注、项目管理流程简便；最后，最好可以与 MLOps 平台紧密结合，更快、更好地开发、测试及部署模型。

为了满足以上需求，开源 AI 模型生产平台项目 YMIR 在日前上线了数据标注平台 --LabelFree, 希望通过免费、可定制、支持本地部署的解决方案，提升数据标注平台的易用性。

YMIR 的定位是"一站式 AI 模型生产和部署平台"，其简化了 AI 模型的训练流程，支持以无代码开发的模式，实现数据管理、数据挖掘、模型训练、模型验证等功能。而 LabelFree 支持与 YMIR 平台无缝衔接，用户可以在 YMIR 平台选择数据集后直接跳转至 LabelFree 进行标注，图片的标注信息会同步至 YMIR, 标注完成后的数据集可以直接用来在 YMIR 平台进行模型训练。在后续模型迭代的过程中，用户也可以在 YMIR 和 LabelFree 之间快速切换，通过挖掘、标注和重训练的多次循环，获得满意的模型。

YMIR GitHub 页面

今年 5 月，YMIR 在 GitHub 上线。公开资料显示，其核心发起人包括云天励飞首席科学家，IEEE Fellow 王孝宇；美国硅谷 NEC 实验室媒体分析部主管，印裔科学家 Manmohan Chandraker; 前谷歌、亚马逊、Snap 机器学习研究员，硅谷初创公司 Heali 联合创始人、首席 AI 官，法裔科学家 William Brendel 等。

事实上，YMIR 的许多特性，如一站式服务、开放式设计、免费使用等等，都在 LabelFree 上得以体现。LabelFree 提供的低门槛、优体验的数据标注服务，也契合了 YMIR 的开发理念 -- 通过开源 AI 系统能力，让每一家企业都能拥抱 AI, 加速 AI 产业化、平民化。

专注视觉信息标注，LabelFree 有何不一样?

与市面上的大部分数据标注平台相比，LabelFree 的优势是什么?

在产品定位方面，大部分 AI 数据标注平台都会同时支持视觉、语音、文本类数据标注，而 LabelFree 则不追求大而全，而是聚焦于计算机视觉领域。事实上，这也是 AI 数据领域最大的数据板块。根据艾瑞咨询发布的《中国 AI 基础数据服务行业发展报告》，中国 AI 基础数据服务行业市场中，图像类数据需求占比为 49.7%, 远高于其他类型数据。

对于专精于计算机视觉领域的原因，LabelFree 工程师给出的答案是 --LabelFree 专注于计算机视觉数据的标注，希望依托于顶尖的 AI 算法团队、成熟的数据标注体系、大规模算法落地经验提供最低成本、最高效率的数据标注能力，让 LabelFree 的数据标注能力跻身行业第一梯队。

在图像分割技术上，LabelFree 集成了辅助分割算法。在传统的标注模式下，标注员需要手动点击锚点，将被标注物从图片中分割出来；引入辅助分割算法后，标注员只需点击标注物，系统会自动将标注物分割，标注员只需要对锚点进行微调，即可完成标注。图像分割等技术的加入，提升了标注员在 LabelFree 平台的标注效率，从而降低 AI 开发成本。

事实上，目前市面上的大部分数据标注平台，在产品设计上更倾向于管理者视角，鲜少关注数据标注员的使用体验。在英文世界中，AI 数据标注员常常被媒体称为"幽灵工人"(ghost worker), 他们大多以兼职或远程办公的身份进行工作，是 AI 时代中常常被忽视的"看不见的人"。

因此，在 AI 时代，数据标注员的话语权是缺失的。此外，计件而非计时的计薪模式，也让许多数据标注平台没有动力在产品层面优化标注员的标注效率。

而 LabelFree 开发团队针对数据标注员群体开展了大量调研工作，以优化标注员的使用体验，帮助他们减轻工作压力，提升工作效率。例如，在图像复杂、目标众多的目标检测场景中，标注员对目标的标签设置存在大量重复操作，为此，LabelFree 特别设计了"无限模式", 让标注员可以快捷地对某一类型连续操作，达到最高的生成效率。

与此同时，针对数据标注效率，LabelFree 也完善了多人标注协作体验，并原生支持分布式对象存储，以解决海量标注数据的存储问题，降低存储成本，提升数据安全。

在提升数据标注效率的同时，LabelFree 与 YMIR 的无缝衔接也简化了 AI 模型的训练流程。在 LabelFree 平台上完成标注后，AI 工程师可以直接在 YMIR 上进行模型训练，检验模型训练成果，并将新的模型在 LabelFree 上进行预标注，同时提升数据标注与模型训练的工作流效率。

LabelFree 使用文档

此外，最重要的是，LabelFree 支持本地化、私有化部署，用户可以在以私有化的形式安装 LabelFree, 将数据留存在可控范围内，在保证数据安全的前提下完成数据标注流程。而这一特性，对于医院、学校等信息敏感类客户而言至关重要。

在商业化方面，LabelFree 提供数据标注解决方案、定制化开发、技术支持，以满足专业商业客户的需求。此外，有 AI 需求的客户可以在算法商城模块上试用现有的算法方案，结合自身数据完善自己的 AI 模型。

提炼「数据石油」--AI 数据服务市场迅速成长

未来，AI 数据服务行业将驶向何方?

早在 2017 年，《经济学人》杂志就曾发表封面文章，提出了"数据石油"的概念 --"世界上最有价值的资源不再是石油，而是数据"。与石油类似，数据本身价值有限，只有经过"提炼"之后，才能爆发出巨大的价值。

而数据标注平台则成为了"提炼数据石油"的关键。一方面，越来越好用的数据标注平台，完善了 AI 产业的基础设施，从而带动更多开发者及企业加入到 AI 产业，也可以做大 AI 数据标注员的就业市场，创造更多就业岗位。

2020 年 2 月，人力资源社会保障部联合多部门发布通知，正式将"人工智能训练师"列为新职业，并纳入国家职业分类目录。这意味着 AI 数据标注员这一职业获得了国家层面的认可。

而另一方面，以数据标注、处理为代表的 AI 基础数据服务市场，仍处于高速增长之中。这意味着，数据标注平台、数据采集服务等 AI 基础数据服务，在未来存在着巨大的增长空间。

艾瑞咨询的数据显示，包括数据采集、数据处理 (标注)、数据存储、数据挖掘等模块在内的 AI 基础数据服务市场，将在未来数年内持续增长，到 2025 年，国内 AI 基础数据服务市场的整体规模预计将达到 101.1 亿元，整体市场增速将达到 31.8%(2024-2025 年)。

AI 数据基础设施的不断完善，将会推动更多数据流动起来，投入到 AI 模型训练的应用之中，并缓解困扰行业已久的"数据烟囱"问题。在大数据时代，挖掘数据价值比以往任何时刻都更重要，正如"大数据之父"、牛津大学舍恩伯格在《大数据时代》一书所言:"在大数据时代，我们不必非得知道现象背后的原因，而是要让数据自己'发声'。"

2022-12-21 12:12:53