Future-Proofing AI Investments: How To Maximize ROI in Fast-Evolving LLMs

博客

13 January 2025

作者： Lianne Dehaye —— TDCX AI 高级总监

想象一下：您的客户只需一键点击就能预订航班，其个人信息瞬间无缝填充到正确的字段中。这就是数据可移植性的力量——信息流动毫不费力，让您的业务与客户保持同步快速发展。现在，将这个概念扩展到企业数据上——客户互动、产品规格和客户体验（CX）工作流程——在AI平台之间流动。对于大型语言模型（LLMs）而言，数据可移植性意味着随着市场变化，您精心准备的数据集能够适应任何系统。

随着LLMs的快速发展，这种灵活性至关重要。2018年，OpenAI的GPT-1和Google的BERT具有开创性意义，但仅几个月后就被GPT-2超越。发布频率从几年加速到几个月，甚至几周。2023年和2024年，商业模型的更新每月发布，而预训练模型则每周发布。到2023年，55%的企业正在试点基于LLM的生成式人工智能（GenAI）项目。在使用AI的企业中，20%的模型每月更新，40%的模型每季度更新。如今，至少有141个LLMs，其中许多还能处理音频、图像和视频。现在，专家预测今年将有7.5亿个应用程序使用LLMs。

这对您的客户体验（CX）意味着什么？这可能意味着，您曾经最先进的AI聊天机器人将难以跟上下一代LLM技术的步伐。如果其数据被锁定在特定供应商的格式中，那么更换意味着高昂的重新标注、重新集成和重新训练成本。您的投资非但没有前进，反而停滞不前。

统一、标准化的数据集使您能够立即适应突破性模型，而无需从头开始。在一个以速度和创新为驱动的世界里，设计时考虑可移植性可以确保您的投资成为资产，而不是障碍。

大语言模型（LLM）格局：为何灵活性至关重要

大语言模型是不断演进的动态系统，基于核心技术不断涌现出新的能力与变体。来看近期的一些进展：

架构创新：像 Llama 3 这样的新型模型，经过大规模预训练，如今能够处理更大的上下文窗口，即数以万计的词元。Llama 3 的数据集比其前身大七倍，并且经过了严格的预处理，以确保模型摄入的是高质量数据。现在，更多模型配备了检索实时数据的机制，甚至能将文本与图像、音频等多模态输入相融合，从而给出更丰富的回应。

训练技术：诸如 GODEL 所采用的复杂微调策略和指令调整，能让模型更贴合人类价值观、特定领域规范或品牌风格。强化的词元化处理和专门的预训练，也有助于模型理解特定领域的行话和地域方言。基于 Llama 的 LIMA（即 “对齐少即是多”）采用了一种微调方法，通过精心的预训练和策略性的数据整理，取得了与 GPT - 4 相当的效果。

能力提升：每一代模型都在语言理解、更细致的情感检测或更深入的上下文推理方面有所改进。较新的模型现在还能更好地解析特定行业的缩写词或代码片段。例如，智能代理式人工智能（Agentic AI）因其处理多轮对话的能力而备受推崇，减少了重复提示，使客户交互感觉更自然。

当竞争对手部署的模型能更快处理客户投诉，或更好地解读文化细微差别时，这些进展会让昨日的大语言模型显得过时。然而，如果你的数据被困在专有的、特定供应商的格式中，切换到次优模型并非易事。标签必须重新命名，日志需要重新构建，模型也得重新训练，以适应新的环境或数据结构 —— 这一切都完成后，这项技术才能开始产生成效。

设计即考虑可移植性：数据标准化如何助力人工智能驱动的客户体验工具

数据可移植性确保客户体验（CX）数据，如客户支持对话记录、聊天历史、反馈日志、产品问答等，以广泛兼容的标准化格式存储和标注。标准化数据不依赖专有模式或特定供应商的标记，而是采用通用标签和人类可读的命名约定，使其能够在不同平台间灵活适配。如此一来，可带来以下益处：

跨模型复用数据集：您能够将训练语料库迁移至新的大语言模型，而无需从头重新标注。

缩短集成时间：只需进行极少的结构调整，您就可以将数据接入新的生态系统。

更快适应行业变化：对于那些需要精准实时回复的市场，您能够迅速部署在情感分析或多语言支持方面表现出色的先进模型。

通过让数据 “随时可迁移”，您可以降低切换成本，并加快新模型的集成速度。考虑数据可移植性的设计是一种面向未来的策略，尤其是随着数据标注方法不断发展，以支撑未来的人工智能解决方案。我们将看到更多利用分散式训练数据的人工智能解决方案。随着诸如《欧盟人工智能法案》等法规要求企业说明使用人工智能系统的方式和原因，我们还将看到更多机器学习模型在设计时会阐释其决策过程，以增强自动化标注的透明度与可信度。

面向未来的客户体验人工智能：如何在数据中构建可移植性

为确保随着技术的发展，您在人工智能方面的投资始终保持价值，应着重在数据处理流程中融入灵活性与适应性：

采用战略性的数据标注框架。明确界定数据的组织标准。例如，建立统一的注释框架，详细说明如何对实体进行标记，如产品名称、语言代码或地理位置引用等。使用有详尽文档说明的模式，或遵循广泛认可的格式。将您的方法建立在通用规范而非专有捷径之上，这样就能确保您的数据集使用一种众多大语言模型（LLM）都能理解的通用 “语言”。

设计模块化的数据管道。将数据清理、标准化和标注等任务视为独立组件，使其能够接入新模型，而无需大量重写代码。版本控制和详细的文档记录有助于您的团队快速追溯更改，必要时恢复到旧的注释，或在不丢失历史背景的情况下尝试新的标注。当更先进的大语言模型出现时，这些细致、有条理的步骤可避免未来可能出现的麻烦。

将可移植性融入数据转换过程。围绕可移植性构建数据基础设施，以便未来的过渡无缝衔接。高质量的数据集使您能够集成先进的大语言模型，而无需从头开始重建。这种精简的适应性意味着，在数据准备和标注方面的初始投资不会因每次技术飞跃而过时，反而会随着时间的推移不断积累价值。

打造可移植且面向未来的数据集是一个战略目标，往往既需要技术上的精妙处理，也需要人为的判断。这需要精心清理、构建和标注您的数据集。即使在模型部署后，也需要保持其相关性。来自专业标注人员和领域专家的直接输入，有助于持续优化您的模型。这种亲力亲为的指导能够调整模型的行为，使其做出更具情境感知的回复，并与客户进行更具情感智能的互动。TDCX 通过确保一致的数据标注和可移植性，助力将您的客户体验数据转化为适用于人工智能和生成式人工智能的资产，使您能够弥合数据准备与可扩展人工智能解决方案之间的差距。

与我们的专家交流

博客

确保AI投资的长远效益：如何在快速迭代的LLM中最大化投资回报率

13 January 2025

更多文章