ChatGPT拯救月薪5000的数据打工人

市界观察董温淑2023-03-16 11:50 大公司

AI的三要素是数据、算法和算力。多年间，如果画出一条人工智能（AI）行业的鄙视链，数据处理的工作一定处于底端。

北京时间3月15日凌晨，OpenAI正式推出大型多模态语言模型GPT-4——也就是ChatGPT所基于的GPT-3.5的迭代版本。

GPT-4的发布正好赶在百度语言大模型“文心一言”发布的前一天。压力，再一次给到正加班加点鏖战“中国版ChatGPT”的各家大厂这边。

GPT-4最为亮眼的革新莫过于支持“多模态”输入，也就是相比于ChatGPT（基于GPT-3.5）仅能文字输入和文字输出，GPT-4还支持图片、文字输入——换句话说，它看得懂表情包和梗图。

此外，根据 OpenAI公布的研究数据，GPT-4不仅在各项性能表现上均优于GPT-3.5模型，在一系列人类测试中也表现出了更强的能力，其中包括“难倒”万千大学生的高等数学（微积分）、统一律师资格考试、美国高考（SAT）数学……

目前，OpenAI发布了集成GPT-4的ChatGPT Plus，用户可以以每月20美元的订阅标准抢先试用。不过，ChatGPT Plus暂时还未开启图像输入功能。

OpenAI并未公布GPT-4用于训练的数据规模，但考虑到前代模型ChatGPT（基于GPT-3.5模型）使用了1750亿个参数，业界估算GPT-4使用的参数规模或达到100万亿级别。

而在几年前，这是不可想象的。

ChatGPT万亿参数背后

全球顶级人工智能（AI）科学家、斯坦福大学终身教授、曾任谷歌首席AI科学家的李飞飞分享过一个故事：

2009年之前，AI图像识别模型仅能认出四种物体：汽车、飞机、豹子、人脸，因为以往研究者一般只会针对这四类物体进行模型训练。

更深层次的原因是，想让AI认识一种物体，需要人工先在图片中标记出目标物，再将大量这样的图片“喂”给AI进行训练。“有多少人工，就有多少智能”，AI能力越强，背后要付出的人力越多。

因此李飞飞设想，如果人工标注足够多的图片并用以训练，理论上就能够得到“无所不知”的模型。

这堪称一个疯狂的想法，如果想让AI识别出字典上的所有物体，需要标注的图片数量达上亿张，李飞飞的3人课题组要不眠不休干几十年才能完成。

最后，李飞飞不得不通过众包平台发布任务，低价雇佣全球各地的劳动力完成标注任务——可想而知，大部分标注工来自更具人口红利的国家和地区。

这是全球最知名大型视觉数据库ImageNet背后的故事，也是“三院院士”“AI女神”李飞飞的成名之战。ImageNet滋养了全球各地大大小小的AI项目，但也揭示了AI数据处理环节是劳动力密集产业的事实。

从那之后，资金涌入各类AI模型创业领域，相比之下AI数据环节则少有人问津。

不过十余年之后，当曾经梦想的“无所不知的模型”真正诞生，情形似乎开始发生变化。

美国研究机构OpenAI发布的大语言模型ChatGPT，被视为揭示了AI行业新的发展方向，也带动各路资本涌入大语言模型研发。

大型模型对数据处理提出了新的玩法，也意味着全新的技术掘金空间正被打开。一二级市场中，投资热情已经带动着相关企业的估值高涨。开年至今，A股“AI数据第一股”海天瑞声已拉出4个涨停板。截至3月15日收盘，海天瑞声市值已达到70.41亿元。

不仅如此，据业内消息，多家大厂正在着手将数据标注团队独立出来。一场对AI数据服务市场的抢夺战，正在吹响号角。

“AI数据”突然又香了

AI数据处理主要步骤包括数据收集、清洗原始数据、对数据进行标注等等。根据相关统计，数据处理往往会占据整个AI项目实施过程中80%的时间。其中最耗费时间的则是标注环节。

数据标注是指人工对文本、视频、图像等元数据进行标注，以此将元数据转换为机器可以识别的信息，标记好的数据才能用于训练AI模型。因此，数据标注常被视为“dirty work（脏活累活）”，相关工作常被委托给第三方外包企业完成。

从2022下半年开始，这项曾经不受欢迎的“dirty work”，突然获得了前所未有的重视。

“我和团队2017年开始创业时，很多机构还无法理解数据处理的价值，我们只能通过描述未来的愿景说服他们。之后几年里，我们平均营收年增速在50%-100%，因为我们一开始投入在自动化算法的比例比较大，坚持难而正确的事情，所以横向对比，没有纯粹做业务的公司跑得快。”AI数据服务企业星尘数据（北京星尘纪元智能科技有限公司）的创始人、CEO章磊告诉市界。

不过，最近情况明显发生了变化。越来越多投资人找到星尘数据，希望能对其进行投资。

2022年12月底，星尘数据完成了5000万元的A轮融资。据一位接近星尘数据的知情人士透露，此后仍有多家投资机构在积极接触星尘数据，“有时候一天要接触不止一家机构”。公司预计将在2023年中开启下一轮融资。

一家企业面临的际遇变化，背后是越来越多的投资人正将目光投向这一领域。

供职于一家腰部投资机构的Andy告诉市界，目前AI数据处理项目已经成为新的投资热点，“在2017、2018年的AI融资高峰期里，如果一个项目同时满足海归科学家、CV（计算机视觉技术）、团队这3点，大家都会抢着投。现如今如果把CV换成数据，大家也会抢着投。”

所谓“抢”，体现在当Andy接触到某个数据处理团队时，“对方会直言近期也有别的投资方来联系过，压力就给到我这边了”。

在中小型投资机构做出动作之前，头部的资本已更早地对AI数据进行了布局，这更让新入场的团队和资本感受到压力。

比如，国内“AI数据第一股”海天瑞声曾在2017年的B轮投资中，获得了小米集团的青睐；2018年，梅花创投现身于爱数智慧的A轮融资；2019年，数据服务平台格物钛完成Pre-A轮融资，红杉中国、真格基金同台投资……

如果说AI数据服务在一二级市场的火热距离普通人的生活还有距离，那么产业层面的火热则更容易被人们所感知。

近几个月，在河南从事文本标注工作的史月，突然发现自己的职业“火”起来了，“我一直都是独立做标注单，靠熟人组团接单。最近明显感觉单子多了，有时候突然有熟人把我拉到一个微信群里，然后就开始发需求，问能不能接”。

在内蒙古的易晖也有同样的感受：“甲方非常多。我一年前入行，在本地数标基地和朋友一起创业做标注团队，一年过去我们已经发展出300人的团队了。”接下来，易晖还打算继续扩充团队：“你只有更大的团队，才能拿到更大体量的数据包。”

不仅如此，易晖口中的一些“甲方”已亲自下场，试图自主搭建数据标注团队。据36氪援引业内人士信息：“目前，已经有不少AI大厂开始着手把自己AI标注的部分工作独立出来了。”

消解劳动密集的“魔咒”

与AI数据投资热潮分不开的，是以ChatGPT为代表的大模型的兴起。

Meta首席人工智能科学家Yann LeCun评论ChatGPT称：“（它）并不具有创新性，也不具有革命性……它只是个巧妙的组合”。

从AI的三要素算法、算力和数据角度分别来看，ChatGPT采用的核心算法Transformer最早由谷歌提出，代码已经开源；而ChatGPT训练过程中由英伟达芯片A100支持也早已不是秘密。在这个令人惊叹的大模型中，唯一无形的技术壁垒只剩下数据——那多达175B个参数，一个极其高质量的数据集。

如国内AI企业OneFlow对此评论的：“算力（芯片）是自由流通的商品，花钱可以买到，工程（算法）上有开源项目和团队，因此，对互联网大厂之外的团队来说，剩下最大的挑战在于高质量训练数据集。”

至今，OpenAI尚未公布ChatGPT训练用数据集的来源和具体细节。

“人工智能三要素里，数据不值钱，这是过去几十年里大家形成的观念，但是就像Paul Graham（硅谷知名天使投资人）说的，创业思维最吊诡的一点在于‘正确的做法和直觉往往是相悖的’。现在全球估值最高的AI公司，恰恰是一家数据标注企业。这足以说明数据服务的价值是被低估的。”一位投资人向市界评论道。

他提到的这家AI数据标注企业，是美国华裔创始人Alexandr Wang在2016年创办的Scale AI。截至2021年4月宣布的一轮融资，Scale AI的估值为73亿美元，公司客户中包括OpenAI、Airbnb等知名企业或机构。

这种价值的低估不仅发生在一级市场。哪怕在许多市场参与者眼中，AI数据处理也是一个人力“内卷”的生意。

星尘数据创始人、CEO章磊分析道：“目前市场中存在最多类型的AI数据企业分为两类，第一类是‘做生意’型的企业，也就是自己聚集一批标注人力并做中间整合、低买高卖，核心竞争力在于对甲方的商务、销售能力；第二类是做众包平台，甲方可以在平台发布任务，人力自主接单，这类平台的核心竞争力是运营能力，要看拉新、月活、日活等数据。但这两类企业都没有发展算法相关的能力。”

而这两类企业，都没有脱离AI数据服务“劳动密集”的窠臼，但Scale AI代表的是一种不同于传统数据标注企业人力“内卷”的全新商业路径。尽管同样雇佣了部分海外人力进行标注，但Scale AI更多是通过自研的自动化数据标注（auto labeling）平台完成工作。

具体来说，Scale AI的标注工具能够通过算法自动、快速甄别物体，通过初筛的图片再经过外包团队的二次筛查和标注，用人机交互的方式消解对人工的过度依赖，在海量数据的效率、成本、标注准确率之间寻找最佳平衡点。

如何让数据有更高的价值

理想状态下，90%的数据标注工作都可以由数据公司提供的工具来完成。但如果想要助力像ChatGPT一样能力出众的模型诞生，这或许还远远不够。

“想要树立独特的竞争力，需要跟算法客户有更加深度的绑定，思考在数据环节能够怎么帮助前沿算法落地。”章磊表示。

数据自动化标注工具说到底也是AI算法和产品设计。而随着技术进步，算法对数据系统的要求不仅仅是人工苦力活，更多的是自动化、算法策略，以及相匹配的数据闭环系统。例如ChatGPT中的人机闭环，就需要支持主动学习和强化学习的系统与之匹配。

这意味着要建立数据服务的壁垒，或许还需另辟蹊径。据章磊分析，除了通过自动化标注工具来提升标注效率之外，还需要具备另外两方面的能力：数据策略能力和数据闭环能力。

其中，前者指的是数据服务商对AI数据处理整个过程中的领悟和把控力，既涉及大量算法相关的技术，也涉及以数据为中心的反馈迭代技术，还需要服务商掌握一整套项目管理的方法论。

举例来说，相较于此前算法客户提出标注规则，服务商“盲目”完成任务的旧模式，未来数据服务人员能否对算法标注规则给出自己的建议，来提升算法的训练效果？

另外据一位资深AI数据服务从业者告诉市界，据其调研，如今企业缺乏AI数据资源管理系统是常态，“此前由于缺乏数据管理意识，甚至很多科技大厂也没有建立起AI database，创始人甚至可能不知道公司到底有多少数据资源。但是如今随着大模型等风口降临，许多企业都准备自研数据系统”。

但是，在短时间内想要研发出可供大模型训练的数据系统并非易事。

因此，在这一方面提供助力，也是AI数据服务企业在“数据策略”方面发展的一大方向。章磊分析：“如今客户需要的数据系统需要满足两个特点，分别是具有自动化能力、具有和算法的整合能力。”

能否帮助客户在繁杂的数据中快速摸索和整理出可供训练的部分？这也考验着服务商的数据策略能力。

而数据闭环能力，指的则是算法模型与数据集之间协同的、相互的、同期的迭代。当AI模型输出结果出现问题时，数据服务环节可以动态感知到问题所在，并通过同步改变输入的参数来校正训练结果。

从这个意义而言，“数据闭环”的能力，就是模型自我快速“debug（调试）”的能力。

举例而言，许多用户在使用过程中发现ChatGPT在回答某些问题时出现了错误。而如今发布的ChatGPT并未接入互联网，训练数据截至2021年之前。

也就是说，ChatGPT模型与数据之间的实时联络被“斩断”了，模型无法实时迭代。如果能够打通数据闭环，这个问题就能得到解决。

▲（ChatGPT在回答某些问题时可能发生错误）

据章磊透露，目前国内大部分AI数据服务企业仍聚集于人力标注的低价值量环节，具备上述三方面潜力的玩家凤毛麟角。

英特尔联合创始人安迪·格鲁夫曾在其自传中写道：科技发展史上有一个基本规则，即只要可能发生的事，一定会变成事实。

对许多人而言，人工标注还是AI数据处理的代名词，但变化已在不经意之间发生。尽管离最终实现还有距离，但“自动化标注+数据策略服务+构建数据闭环”正为AI数据服务市场打开更大的想象空间。

对于国内玩家而言，唯有上溯产业价值链，才能在新一波的AI技术浪潮中不受荡涤。

注：文中Andy为化名。

参考文献：

1、《开启人工智能时代给AI一双慧眼专访斯坦福大学人工智能实验室主任李飞飞》，杨澜访谈录

2、《A Chat with Andrew on MLOps: From Model-centric to Data-centric AI》，吴恩达

3、《ChatGPT数据集之谜》，OneFlow

【本文为合作媒体授权博望财经转载，文章版权归原作者及原出处所有。文章系作者个人观点，不代表博望财经立场，转载请联系原作者及原出处获得授权。有任何疑问都请联系（联系（微信公众号ID：AppleiTree）。免责声明：本网站所有文章仅作为资讯传播使用，既不代表任何观点导向，也不构成任何投资建议。】

人工智能 AI ChatGPT

ChatGPT拯救月薪5000的数据打工人

ChatGPT万亿参数背后

“AI数据”突然又香了

消解劳动密集的“魔咒”

如何让数据有更高的价值

猜你喜欢

政策红利与技术落地共振，盈利能力提升，新开普还能高飞吗？

李开复预测未来中国只有三家AI公司存活： DeepSeek、阿里和字节

腾讯AI战略提速，单季度AI开支390亿

宇树科技到“杭州六小龙”，这批“90后军团”给出了未来产业 “逆袭密码”

生成式人工智能普及应用：赋能千行百业，便利千家万户生活

人工智能快速发展，中国AI人才缺口预计2030年达400万

24小时热榜

关于我们

联系我们