大语言模型的三种主要架构 Decoder-Only、Encoder-Only、Encoder-Decoder

61 阅读 0 评论 0 点赞

大语言模型近年来在自然语言处理领域取得了显著进展，主要归功于其多样的架构设计。常见的三种架构包括 Decoder-Only、Encoder-Only 和 Encoder-Decoder。本文将对此三种架构进行详细介绍，并提供相应的代码示例。

一、Decoder-Only 架构

Decoder-Only 架构主要用于生成任务，例如文本生成、对话系统等。该架构只使用解码器部分，能够根据给定的上下文生成后续文本。其核心思想是利用自回归（autoregressive）方式来预测下一个单词。

代码示例：以下是使用 Transformers 库实例化一个简单的 Decoder-Only 模型：

from transformers import GPT2LMHeadModel, GPT2Tokenizer

# 加载模型和 tokenizer
model = GPT2LMHeadModel.from_pretrained('gpt2')
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')

# 输入文本
input_text = "今天天气很好，我想去"
input_ids = tokenizer.encode(input_text, return_tensors='pt')

# 生成文本
output = model.generate(input_ids, max_length=50)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

print(generated_text)

二、Encoder-Only 架构

Encoder-Only 架构主要用于理解任务，例如文本分类、情感分析等。该架构只使用编码器部分，负责提取输入文本的特征表示。常见的这种架构包括 BERT（Bidirectional Encoder Representations from Transformers）。

代码示例：以下是使用 Transformers 库实例化一个简单的 Encoder-Only 模型：

from transformers import BertTokenizer, BertForSequenceClassification
import torch

# 加载模型和 tokenizer
model = BertForSequenceClassification.from_pretrained('bert-base-uncased')
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 输入文本
input_text = "今天天气很好，我想去公园玩"
inputs = tokenizer(input_text, return_tensors='pt')

# 模型推理
with torch.no_grad():
    outputs = model(**inputs)

logits = outputs.logits
predicted_class = logits.argmax().item()

print(f'预测类别: {predicted_class}')

三、Encoder-Decoder 架构

Encoder-Decoder 架构通常用于序列到序列的任务，例如机器翻译、文本摘要等。这种架构包含两个部分：编码器将输入序列编码成一个上下文向量，解码器则从这个上下文向量生成输出序列。常见的模型如 T5（Text-to-Text Transfer Transformer）和 BART。

代码示例：以下是使用 Transformers 库实例化一个简单的 Encoder-Decoder 模型：

from transformers import BartTokenizer, BartForConditionalGeneration

# 加载模型和 tokenizer
model = BartForConditionalGeneration.from_pretrained('facebook/bart-large')
tokenizer = BartTokenizer.from_pretrained('facebook/bart-large')

# 输入文本
input_text = "翻译：今天天气很好"
inputs = tokenizer(input_text, return_tensors='pt')

# 模型推理
output = model.generate(inputs['input_ids'], max_length=50)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

print(generated_text)

结论

通过以上的分析和实例代码，我们可以看到三种不同的架构在设计上的差异与应用场景。Decoder-Only 架构适合生成任务，Encoder-Only 架构擅长理解任务，而 Encoder-Decoder 架构则适用于需要输入和输出之间进行转换的任务。随着技术的不断发展，组合和改进这些架构将进一步提升自然语言处理的能力与效率。

点赞(0) 打赏

本文分类：后端
本文标签：大语言模型 LLM
浏览次数：61 次浏览
发布日期：2024-10-09 23:20:42
本文链接：http://makehui.com/houduan/4830.html

大语言模型的三种主要架构 Decoder-Only、Encoder-Only、Encoder-Decoder

一、Decoder-Only 架构

二、Encoder-Only 架构

三、Encoder-Decoder 架构

结论

微信扫一扫：分享

Mamba 架构在医学图像分析中的全面综述：分类、分割、重建及其他应用

本地部署 Llama 3.1：Ollama、OpenWeb UI 和 Spring AI 的综合指南

【LLM】在PAI-DSW上使用 vLLM + Open-WebUI 部署Qwen2.5

ubuntu下open-webui + ollama本地大模型部署

微信扫一扫：分享