ChatGPT拯救月薪5000的数据打工人
北京时间3月15日凌晨,OpenAI正式推出大型多模态语言模型GPT-4——也就是ChatGPT所基于的GPT-3.5的迭代版本。
GPT-4的发布正好赶在百度语言大模型“文心一言”发布的前一天。压力,再一次给到正加班加点鏖战“中国版ChatGPT”的各家大厂这边。
GPT-4最为亮眼的革新莫过于支持“多模态”输入,也就是相比于ChatGPT(基于GPT-3.5)仅能文字输入和文字输出,GPT-4还支持图片、文字输入——换句话说,它看得懂表情包和梗图。
此外,根据 OpenAI公布的研究数据,GPT-4不仅在各项性能表现上均优于GPT-3.5模型,在一系列人类测试中也表现出了更强的能力,其中包括“难倒”万千大学生的高等数学(微积分)、统一律师资格考试、美国高考(SAT)数学……
目前,OpenAI发布了集成GPT-4的ChatGPT Plus,用户可以以每月20美元的订阅标准抢先试用。不过,ChatGPT Plus暂时还未开启图像输入功能。
OpenAI并未公布GPT-4用于训练的数据规模,但考虑到前代模型ChatGPT(基于GPT-3.5模型)使用了1750亿个参数,业界估算GPT-4使用的参数规模或达到100万亿级别。
而在几年前,这是不可想象的。
ChatGPT万亿参数背后
全球顶级人工智能(AI)科学家、斯坦福大学终身教授、曾任谷歌首席AI科学家的李飞飞分享过一个故事:
2009年之前,AI图像识别模型仅能认出四种物体:汽车、飞机、豹子、人脸,因为以往研究者一般只会针对这四类物体进行模型训练。
更深层次的原因是,想让AI认识一种物体,需要人工先在图片中标记出目标物,再将大量这样的图片“喂”给AI进行训练。“有多少人工,就有多少智能”,AI能力越强,背后要付出的人力越多。
因此李飞飞设想,如果人工标注足够多的图片并用以训练,理论上就能够得到“无所不知”的模型。
这堪称一个疯狂的想法,如果想让AI识别出字典上的所有物体,需要标注的图片数量达上亿张,李飞飞的3人课题组要不眠不休干几十年才能完成。
最后,李飞飞不得不通过众包平台发布任务,低价雇佣全球各地的劳动力完成标注任务——可想而知,大部分标注工来自更具人口红利的国家和地区。
这是全球最知名大型视觉数据库ImageNet背后的故事,也是“三院院士”“AI女神”李飞飞的成名之战。ImageNet滋养了全球各地大大小小的AI项目,但也揭示了AI数据处理环节是劳动力密集产业的事实。
从那之后,资金涌入各类AI模型创业领域,相比之下AI数据环节则少有人问津。
不过十余年之后,当曾经梦想的“无所不知的模型”真正诞生,情形似乎开始发生变化。
美国研究机构OpenAI发布的大语言模型ChatGPT,被视为揭示了AI行业新的发展方向,也带动各路资本涌入大语言模型研发。
大型模型对数据处理提出了新的玩法,也意味着全新的技术掘金空间正被打开。一二级市场中,投资热情已经带动着相关企业的估值高涨。开年至今,A股“AI数据第一股”海天瑞声已拉出4个涨停板。截至3月15日收盘,海天瑞声市值已达到70.41亿元。
不仅如此,据业内消息,多家大厂正在着手将数据标注团队独立出来。一场对AI数据服务市场的抢夺战,正在吹响号角。
“AI数据”突然又香了
AI数据处理主要步骤包括数据收集、清洗原始数据、对数据进行标注等等。根据相关统计,数据处理往往会占据整个AI项目实施过程中80%的时间。其中最耗费时间的则是标注环节。
数据标注是指人工对文本、视频、图像等元数据进行标注,以此将元数据转换为机器可以识别的信息,标记好的数据才能用于训练AI模型。因此,数据标注常被视为“dirty work(脏活累活)”,相关工作常被委托给第三方外包企业完成。
从2022下半年开始,这项曾经不受欢迎的“dirty work”,突然获得了前所未有的重视。
“我和团队2017年开始创业时,很多机构还无法理解数据处理的价值,我们只能通过描述未来的愿景说服他们。之后几年里,我们平均营收年增速在50%-100%,因为我们一开始投入在自动化算法的比例比较大,坚持难而正确的事情,所以横向对比,没有纯粹做业务的公司跑得快。”AI数据服务企业星尘数据(北京星尘纪元智能科技有限公司)的创始人、CEO章磊告诉市界。
不过,最近情况明显发生了变化。越来越多投资人找到星尘数据,希望能对其进行投资。
2022年12月底,星尘数据完成了5000万元的A轮融资。据一位接近星尘数据的知情人士透露,此后仍有多家投资机构在积极接触星尘数据,“有时候一天要接触不止一家机构”。公司预计将在2023年中开启下一轮融资。
一家企业面临的际遇变化,背后是越来越多的投资人正将目光投向这一领域。
供职于一家腰部投资机构的Andy告诉市界,目前AI数据处理项目已经成为新的投资热点,“在2017、2018年的AI融资高峰期里,如果一个项目同时满足海归科学家、CV(计算机视觉技术)、团队这3点,大家都会抢着投。现如今如果把CV换成数据,大家也会抢着投。”
所谓“抢”,体现在当Andy接触到某个数据处理团队时,“对方会直言近期也有别的投资方来联系过,压力就给到我这边了”。
在中小型投资机构做出动作之前,头部的资本已更早地对AI数据进行了布局,这更让新入场的团队和资本感受到压力。
比如,国内“AI数据第一股”海天瑞声曾在2017年的B轮投资中,获得了小米集团的青睐;2018年,梅花创投现身于爱数智慧的A轮融资;2019年,数据服务平台格物钛完成Pre-A轮融资,红杉中国、真格基金同台投资……
如果说AI数据服务在一二级市场的火热距离普通人的生活还有距离,那么产业层面的火热则更容易被人们所感知。
近几个月,在河南从事文本标注工作的史月,突然发现自己的职业“火”起来了,“我一直都是独立做标注单,靠熟人组团接单。最近明显感觉单子多了,有时候突然有熟人把我拉到一个微信群里,然后就开始发需求,问能不能接”。
在内蒙古的易晖也有同样的感受:“甲方非常多。我一年前入行,在本地数标基地和朋友一起创业做标注团队,一年过去我们已经发展出300人的团队了。”接下来,易晖还打算继续扩充团队:“你只有更大的团队,才能拿到更大体量的数据包。”
不仅如此,易晖口中的一些“甲方”已亲自下场,试图自主搭建数据标注团队。据36氪援引业内人士信息:“目前,已经有不少AI大厂开始着手把自己AI标注的部分工作独立出来了。”
消解劳动密集的“魔咒”
与AI数据投资热潮分不开的,是以ChatGPT为代表的大模型的兴起。
Meta首席人工智能科学家Yann LeCun评论ChatGPT称:“(它)并不具有创新性,也不具有革命性……它只是个巧妙的组合”。
从AI的三要素算法、算力和数据角度分别来看,ChatGPT采用的核心算法Transformer最早由谷歌提出,代码已经开源;而ChatGPT训练过程中由英伟达芯片A100支持也早已不是秘密。在这个令人惊叹的大模型中,唯一无形的技术壁垒只剩下数据——那多达175B个参数,一个极其高质量的数据集。
如国内AI企业OneFlow对此评论的:“算力(芯片)是自由流通的商品,花钱可以买到,工程(算法)上有开源项目和团队,因此,对互联网大厂之外的团队来说,剩下最大的挑战在于高质量训练数据集。”
至今,OpenAI尚未公布ChatGPT训练用数据集的来源和具体细节。
“人工智能三要素里,数据不值钱,这是过去几十年里大家形成的观念,但是就像Paul Graham(硅谷知名天使投资人)说的,创业思维最吊诡的一点在于‘正确的做法和直觉往往是相悖的’。现在全球估值最高的AI公司,恰恰是一家数据标注企业。这足以说明数据服务的价值是被低估的。”一位投资人向市界评论道。
他提到的这家AI数据标注企业,是美国华裔创始人Alexandr Wang在2016年创办的Scale AI。截至2021年4月宣布的一轮融资,Scale AI的估值为73亿美元,公司客户中包括OpenAI、Airbnb等知名企业或机构。
这种价值的低估不仅发生在一级市场。哪怕在许多市场参与者眼中,AI数据处理也是一个人力“内卷”的生意。
星尘数据创始人、CEO章磊分析道:“目前市场中存在最多类型的AI数据企业分为两类,第一类是‘做生意’型的企业,也就是自己聚集一批标注人力并做中间整合、低买高卖,核心竞争力在于对甲方的商务、销售能力;第二类是做众包平台,甲方可以在平台发布任务,人力自主接单,这类平台的核心竞争力是运营能力,要看拉新、月活、日活等数据。但这两类企业都没有发展算法相关的能力。”
而这两类企业,都没有脱离AI数据服务“劳动密集”的窠臼,但Scale AI代表的是一种不同于传统数据标注企业人力“内卷”的全新商业路径。尽管同样雇佣了部分海外人力进行标注,但Scale AI更多是通过自研的自动化数据标注(auto labeling)平台完成工作。
具体来说,Scale AI的标注工具能够通过算法自动、快速甄别物体,通过初筛的图片再经过外包团队的二次筛查和标注,用人机交互的方式消解对人工的过度依赖,在海量数据的效率、成本、标注准确率之间寻找最佳平衡点。
如何让数据有更高的价值
理想状态下,90%的数据标注工作都可以由数据公司提供的工具来完成。但如果想要助力像ChatGPT一样能力出众的模型诞生,这或许还远远不够。
“想要树立独特的竞争力,需要跟算法客户有更加深度的绑定,思考在数据环节能够怎么帮助前沿算法落地。”章磊表示。
数据自动化标注工具说到底也是AI算法和产品设计。而随着技术进步,算法对数据系统的要求不仅仅是人工苦力活,更多的是自动化、算法策略,以及相匹配的数据闭环系统。例如ChatGPT中的人机闭环,就需要支持主动学习和强化学习的系统与之匹配。
这意味着要建立数据服务的壁垒,或许还需另辟蹊径。据章磊分析,除了通过自动化标注工具来提升标注效率之外,还需要具备另外两方面的能力:数据策略能力和数据闭环能力。
其中,前者指的是数据服务商对AI数据处理整个过程中的领悟和把控力,既涉及大量算法相关的技术,也涉及以数据为中心的反馈迭代技术,还需要服务商掌握一整套项目管理的方法论。
举例来说,相较于此前算法客户提出标注规则,服务商“盲目”完成任务的旧模式,未来数据服务人员能否对算法标注规则给出自己的建议,来提升算法的训练效果?
另外据一位资深AI数据服务从业者告诉市界,据其调研,如今企业缺乏AI数据资源管理系统是常态,“此前由于缺乏数据管理意识,甚至很多科技大厂也没有建立起AI database,创始人甚至可能不知道公司到底有多少数据资源。但是如今随着大模型等风口降临,许多企业都准备自研数据系统”。
但是,在短时间内想要研发出可供大模型训练的数据系统并非易事。
因此,在这一方面提供助力,也是AI数据服务企业在“数据策略”方面发展的一大方向。章磊分析:“如今客户需要的数据系统需要满足两个特点,分别是具有自动化能力、具有和算法的整合能力。”
能否帮助客户在繁杂的数据中快速摸索和整理出可供训练的部分?这也考验着服务商的数据策略能力。
而数据闭环能力,指的则是算法模型与数据集之间协同的、相互的、同期的迭代。当AI模型输出结果出现问题时,数据服务环节可以动态感知到问题所在,并通过同步改变输入的参数来校正训练结果。
从这个意义而言,“数据闭环”的能力,就是模型自我快速“debug(调试)”的能力。
举例而言,许多用户在使用过程中发现ChatGPT在回答某些问题时出现了错误。而如今发布的ChatGPT并未接入互联网,训练数据截至2021年之前。
也就是说,ChatGPT模型与数据之间的实时联络被“斩断”了,模型无法实时迭代。如果能够打通数据闭环,这个问题就能得到解决。
▲(ChatGPT在回答某些问题时可能发生错误)
据章磊透露,目前国内大部分AI数据服务企业仍聚集于人力标注的低价值量环节,具备上述三方面潜力的玩家凤毛麟角。
英特尔联合创始人安迪·格鲁夫曾在其自传中写道:科技发展史上有一个基本规则,即只要可能发生的事,一定会变成事实。
对许多人而言,人工标注还是AI数据处理的代名词,但变化已在不经意之间发生。尽管离最终实现还有距离,但“自动化标注+数据策略服务+构建数据闭环”正为AI数据服务市场打开更大的想象空间。
对于国内玩家而言,唯有上溯产业价值链,才能在新一波的AI技术浪潮中不受荡涤。
注:文中Andy为化名。
参考文献:
1、《开启人工智能时代 给AI一双慧眼 专访斯坦福大学人工智能实验室主任李飞飞》,杨澜访谈录
2、《A Chat with Andrew on MLOps: From Model-centric to Data-centric AI》,吴恩达
3、《ChatGPT数据集之谜》,OneFlow
猜你喜欢
特斯联艾渝受邀出席Web Summit:亟需通用智能体统筹所有智能体协作
近期,有着科技界奥林匹克之称的Web Summit在葡萄牙里斯本落下帷幕。李彦宏:大模型已基本解决幻觉问题 发布超级有用AI技术
李彦宏在百度世界大会发布AI技术iRAG和秒哒,iRAG解决图片生成幻觉,秒哒实现无代码编程,助力打造数百万有用应用,称智能体为AI应用主流形态,将迎来爆发点。