到目前为止,人工智能竞赛主要分为两大部分。一方面,你拥有像GPT 4、Gemini 1.5 和 Claude Opus这样的拥有更大尺寸和超大训练数据的模型;另一方面,你拥有为提高速度和准确性而构建的小型语言模型。
那么,为什么该领域中那些试图达到最大参数规模的知名公司也会投入时间来构建较小的语言模型呢?
这是因为,正如 LLM Ware 首席执行官 Darren Oberst 所说,“我的经验是,小型模型可能可以实现‘大型模型’ 80% 到 90% 的功能……但成本可能只有其 1/100。”
从实际角度来说,SLM 是为业务用例量身定制的。它们相对便宜,保持类似的功能水平,并且非常适合客户支持流程。
在本文中,我们将回顾这些小型语言模型的功能并探讨以下主题:
1.参数大小——谁是赢家?
2.小型语言模型的好处
3.测量小型语言模型的性能
4.您可以使用的三种 SLM
5.结论
参数大小——谁是赢家?
当你提到LLM 的规模时,常常会感到困惑。例如,ChatGPT 4 是在超过 100 万亿个参数上进行训练的。
但这并不是指任何物理记忆单位。而是指 ChatGPT 在训练过程中为一个单词建立的语言连接的数量。
让我们通过讨论 LLM 的工作原理来使 沙特号码筛选 其更加直观:
1. LLM在预训练过程中将许多未标记的数据编码到向量存储中。
2. 在编码的过程中,LLM 了解这些单词之间的关系并形成它们之间的联系。
3. 这些连接使 LLM 能够理解自然语言并用自然语言回复。它建立的每个连接都算作一个参数。
鉴于 Gemini 1.5、Claude Opus 和 GPT 4-o 等 LLM 已在海量数据集中接受过训练(有人猜测它们拥有整个互联网的文本数据),它们可以建立的连接数量非常庞大。因此,参数大小会增加。
然而,大多数用例不需要对 LLM 有深入的理解。由于大多数业务用例涉及完整的微调或 RAG 流程,因此较大的模型会造成计算瓶颈。
因此,虽然 SLM 可能无法用于实现 AGI,但它们 小型语言模 我们如何衡量答案的准确性 型如何加快客户非常适合大多数商业和消费者用例。让我们通过讨论它们的好处来了解一下。
小型语言模型的好处
小型语言模型是 LLM 的更快版本。它们使用相 俄罗斯号码列表 同的架构,但在有限的(通常非常有针对性的)知识领域进行训练。这为它们提供了一些比 LLM 明显的优势。
1.速度和推理时间的改进——将参数视为模型的广阔空间来搜索答案是有用的。
这增加了过程的复杂性,并且需要更多时间才能回答(想想看,当 GPT 4-o Mini 可以在微秒内回答时, o1可能需要几分钟才能回答一个问题)。