小冰CEO李笛:数字人的未来是混合模型
今年以来,大模型掀起热潮,沉寂许久的人工智能再一次令所有人兴奋起来。尤其是ChatGPT的出圈,为人工智能这把火添了新柴。
《人类简史》中提到,智人之所以能够成为这个星球唯一霸主,一个重要的原因是他们发展出了“虚拟”的语言。
数字人要想逼真,在语言能力上势必要下功夫,而ChatGPT的语义理解能力相比过往的人工智能有着显著的提升,不少人认为有大模型驱动,数字人将有变革性的发展。
而就在大模型浩浩荡荡而来,所有人都在加速狂奔时,小冰CEO李笛早在几个月前提出了自己的判断,在他看来,大模型只是揭示了一场变革的开始,但它远远不是变革本身。
掌舵小冰公司,相比于追求技术的酷,李笛更关注技术的实用性和稳健性。
“大模型是驱动数字人的其中一个技术来源”
不可否认,大模型固然是好。
“在数字人领域,大模型确实可以解决过去一些没有解决的问题。”李笛告诉猎云网,一方面,大模型涌现的能力之一是思维链,在一定程度上,比过去的知识图谱做得更好,“过去,大多通过脚本让人工智能一个步骤一个步骤地去完成一件事情,但到了大模型,它自己一定程度上有逻辑思维能力,会思考自己下一步应该做什么,这有机会让数字人去控制更多的线上线下的场合。”
另一方面,大模型在回答问题方面,比过去的检索模型、生成模型在质量上有巨大的提升,但尽管如此,大模型依然没有突破到意识层面。
对于数字人而言,其交互场景往往多样复杂,无法判断用户具体交互何种内容,这要求数字人需要拥有一定的通用泛化能力,而此前行业内使用的检索模型,往往无法覆盖长尾问题。
除此之外,李笛提到在与数字人交互时,用户对内容的需求偏向也不同,“有时候用户可能只是想和数字人聊天,寻求陪伴,这个时候更偏向于数字人输出有趣的内容,而有时候用户和数字人交互是纯知识交流,这个时候需要数字人提供有用的内容。”
李笛坦言,过去“有趣”和“有用”往往无法两全其美,只能偏重其中一方,但大模型的出现有机会让两者并重。
“大模型可以大量压缩信息,在预训练过程中,远大于其他检索模型所能压缩的知识,可以做很好的预测。”
或许因为大模型的“大力出奇迹”,让不少人对大模型产生了极大的期待,认为其将变革数字人行业。
但在李笛看来,这并不代表一个大模型可以驱动数字人的一切,他对大模型在数字人领域的应用视为是驱动数字人的其中一个技术来源。
“大模型技术很酷,但并不稳”
事实上,李笛比国内平均早一年接触到ChatGPT,在国内数字人厂商狂热追逐大模型之时,李笛已经看到了大模型的问题所在。
李笛谈到:“大模型的本质仍是回答问题,但是人与人之间是互相激发,也并不一定要回答问题,要想让数字人像人,一定不能只是一个答疑者。”
此外,李笛还谈到,人在交互过程中是多模态交互。“虽然大模型也向多模态方向发展,但是这种多模态和数字人的多模态存在差别。大模型的多模态往往是同时处理多种模态,并把多种模态视为一个模态。而数字人的多模态是指,表情、声音、动作、语义彼此之间达成高度协调统一。”
大模型的交互速度也是数字人厂商不可忽视的维度。
在不同场景下,人对交互速度有着不同的标准,而数字人不论是直播还是对话,都偏向交流性场景,在数字人行业里有一句话,数字人的一大美德是“秒回”。
但目前大模型的交互速度仍需要几秒钟,还不能达到“秒回”的美德。如果通过堆分布式服务器提升交互速度,其成本又将进一步提高。
抛开大模型在数字人场景下的局限性不谈,就大模型技术本身而言,李笛认为大模型像学日语,“入门简单,但越往后越难。”
“大模型拉低了准入门槛,只要参数规模提高,效果会很明显,但是这个效果是粗暴的,很难有潜能。”原因在于目前,大模型涌现能力机制尚不明朗,难以预判训练效果,也难以做调优工作。
在李笛看来,至少到明年一季度之前,大模型技术仍处在新技术剧烈震荡阶段,在探明技术机制之前,李笛不敢贸然应用在产品上。
对此,李笛用了一个任天堂的类比,“作为游戏机主机商,索尼和微软追求机能,往往应用最先进的机能,而任天堂则选择榨干成熟技术,在其他公司将画质推进到4K时,任天堂在1080P、720P这些成熟的分辨率上思考如何把已有硬件性能推进到极致。”
在“酷”和“稳健”的选择中,李笛选择了“任天堂”式的稳健。
在别人追求庞大参数规模的大模型,展现出何种力量时,李笛更关心,在大量的并发使用过程中,大模型技术能稳定在什么状态,以及他需要尽可能地了解和可控这个新技术。
“数字人的未来是混合模型”
李笛坦言,当下大参数模型确实通用能力更强,但一味追求大参数模型,没有未来,尤其是参数规模越大,同质化越严重。
去年年底,李笛就提出了小冰认为的未来是混合模型的观点。但彼时,一味追求大模型的声音仍然居多,到现在,混合模型逐渐被更多人认可。
OpenAI 原董事霍夫曼也认为“其实GPT 1/ 20 规模的参数模型效果反而是最好的。”
事实上,从2019年开始,小冰就已经在做不同规模的模型训练和调优,有的模型只负责思考,有的模型只负责生成。目前,小冰框架内有近1000个大中小模型有机组合在一起共同支撑数字人运转。
相比于用一个大模型驱动数字人而言,混合模型在成本上有着极大的优势。而成本是商业化落地重要的考量。
“首先,模型参数规模降低,其基本运算也随之降低,其次,小冰在技术上做了调优,将其成本降低至一轮交互0.5厘,接近检索模型0.3厘的成本,而大模型一轮交互至少需要几毛钱。”
此外,混合模型可以运行于最廉价的T4 GPU,而无需A100等高端芯片,甚至神经网络渲染部分,可以不用运行于GPU,而是运行于CPU,“这个对应到的成本差距,大概从每分钟几块钱,或者说每小时几十块钱,到每天几毛钱的区别,可以说成本几乎为0。”
与此同时,李笛告诉猎云网,混合模型在交互速度可以做到几十到几百毫秒,远快于目前大模型几秒钟的交互速度。
更为重要的是,混合模型在经过小冰团队长期验证后,已确保技术安全边界已知。5月小冰公司发布的"GPT克隆人计划"运用的就是这套混合模型方案。
但不可否认的是,以大模型为标志,世界开始进入到更快的技术迭代周期,正如李笛所说:“大模型揭示了一场新的变革。”