
作者: Lianne Dehaye —— TDCX AI 高级总监
想象一下:您的客户只需一键点击就能预订航班,其个人信息瞬间无缝填充到正确的字段中。这就是数据可移植性的力量——信息流动毫不费力,让您的业务与客户保持同步快速发展。现在,将这个概念扩展到企业数据上——客户互动、产品规格和客户体验(CX)工作流程——在AI平台之间流动。对于大型语言模型(LLMs)而言,数据可移植性意味着随着市场变化,您精心准备的数据集能够适应任何系统。
随着LLMs的快速发展,这种灵活性至关重要。2018年,OpenAI的GPT-1和Google的BERT具有开创性意义,但仅几个月后就被GPT-2超越。发布频率从几年加速到几个月,甚至几周。2023年和2024年,商业模型的更新每月发布,而预训练模型则每周发布。到2023年,55%的企业正在试点基于LLM的生成式人工智能(GenAI)项目。在使用AI的企业中,20%的模型每月更新,40%的模型每季度更新。如今,至少有141个LLMs,其中许多还能处理音频、图像和视频。现在,专家预测今年将有7.5亿个应用程序使用LLMs。
这对您的客户体验(CX)意味着什么?这可能意味着,您曾经最先进的AI聊天机器人将难以跟上下一代LLM技术的步伐。如果其数据被锁定在特定供应商的格式中,那么更换意味着高昂的重新标注、重新集成和重新训练成本。您的投资非但没有前进,反而停滞不前。
统一、标准化的数据集使您能够立即适应突破性模型,而无需从头开始。在一个以速度和创新为驱动的世界里,设计时考虑可移植性可以确保您的投资成为资产,而不是障碍。
大语言模型(LLM)格局:为何灵活性至关重要
大语言模型是不断演进的动态系统,基于核心技术不断涌现出新的能力与变体。来看近期的一些进展:
架构创新:像 Llama 3 这样的新型模型,经过大规模预训练,如今能够处理更大的上下文窗口,即数以万计的词元。Llama 3 的数据集比其前身大七倍,并且经过了严格的预处理,以确保模型摄入的是高质量数据。现在,更多模型配备了检索实时数据的机制,甚至能将文本与图像、音频等多模态输入相融合,从而给出更丰富的回应。