基于BERT的中文情感分析微调完整教程

发表于 2025-10-27 分类于学习提升，预训练语言模型本文字数： 16k 阅读时长 ≈ 28 分钟

基于BERT的中文情感分析微调完整教程

1. 任务概述与目标

中文情感分析是自然语言处理中的经典任务，旨在识别文本中蕴含的情感倾向。本教程以ChnSentiCorp中文情感分析数据集为例，详细介绍使用BERT模型进行微调的完整流程，包含数据预处理、模型训练、评估验证等关键环节。

通过本教程，您将掌握以下核心技能：

中文文本数据的预处理和清洗方法
Hugging Face Transformers库的实战应用
模型训练超参数配置策略
训练过程监控与性能评估
结果可视化分析

2. 环境准备与依赖安装

2.1 硬件与软件要求

操作系统：Linux（推荐），Windows/macOS也可行
GPU：NVIDIA GPU（显著加速训练过程）
Python版本：3.7及以上

2.2 安装必要的Python库

# 安装核心依赖库
pip install torch transformers datasets scikit-learn pandas numpy matplotlib seaborn
# 如需要GPU支持，确保安装对应版本的PyTorch
pip install torch==1.13.1+cu117 -f https://download.pytorch.org/whl/torch_stable.html

3. 数据准备与预处理

3.1 加载ChnSentiCorp数据集

from datasets import load_dataset

# 加载中文情感分析数据集
dataset = load_dataset("lansinuote/ChnSentiCorp",cache_dir="./data")
# 查看数据集结构
print(f"数据集结构: {dataset}")
print(f"训练集样本数: {len(dataset['train'])}")
print(f"验证集样本数: {len(dataset['validation'])}")
print(f"测试集样本数: {len(dataset['test'])}")

# 查看样本示例
print("\n样本示例:")
for i in range(2):
    print(f"文本: {dataset['train'][i]['text']}")
    print(f"标签: {dataset['train'][i]['label']}")
    print("---")

数据集已预设划分，包含训练集、验证集和测试集。

3.2 中文文本预处理专项处理

中文文本预处理需要特别注意语言特性，以下是最佳实践方法：

import re
import jieba

def clean_chinese_text(text):
    """
    中文文本清洗函数
    """
    # 去除乱码和特殊字符（保留中文、英文、数字、常见标点）
    text = re.sub(r'[^\u4e00-\u9fa5a-zA-Z0-9，。！？；：""''（）【】《》、·…]', '', text)
    
    # 处理冗余空格
    text = re.sub(r'\s+', ' ', text).strip()
    
    # 处理重复字符（如"好好好好"转为"好"）
    text = re.sub(r'(.)\1{3,}', r'\1', text)
    
    return text

def process_special_text(text):
    """
    处理中文特殊文本：网络用语、emoji、方言等
    """
    # emoji映射
    emoji_map = {
        '😂': '开心', '😭': '难过', '👍': '好评', 
        '👎': '差评', 'yyds': '非常好', '绝绝子': '极好'
    }
    
    # 方言转换
    dialect_map = {
        '孬': '不好', '中': '好', '啥': '什么', '咋': '怎么'
    }
    
    for emoji, desc in emoji_map.items():
        text = text.replace(emoji, desc)
        
    for dialect, standard in dialect_map.items():
        text = text.replace(dialect, standard)
        
    return text

# 应用文本预处理
def apply_text_preprocessing(dataset):
    """
    对整个数据集应用文本预处理
    """
    def preprocess_function(examples):
        # 清洗文本
        cleaned_texts = [clean_chinese_text(text) for text in examples['text']]
        # 处理特殊文本
        processed_texts = [process_special_text(text) for text in cleaned_texts]
        return {'text': processed_texts}
    
    return dataset.map(preprocess_function, batched=True)

# 执行预处理
dataset = apply_text_preprocessing(dataset)

4. 数据划分与编码处理

4.1 数据集划分策略

ChnSentiCorp数据集已提供标准划分，如需自定义划分可采用以下方法：

from datasets import DatasetDict

# 如果需要自定义数据集划分
def custom_train_test_split(dataset, train_ratio=0.7, val_ratio=0.2, test_ratio=0.1):
    """
    自定义数据集划分函数
    """
    total_size = len(dataset)
    train_size = int(total_size * train_ratio)
    val_size = int(total_size * val_ratio)
    
    # 随机打乱后划分
    dataset = dataset.shuffle(seed=42)
    train_dataset = dataset.select(range(train_size))
    val_dataset = dataset.select(range(train_size, train_size + val_size))
    test_dataset = dataset.select(range(train_size + val_size, total_size))
    
    return DatasetDict({
        'train': train_dataset,
        'validation': val_dataset,
        'test': test_dataset
    })

# 使用标准划分
print("使用预设数据集划分")

4.2 标签编码与验证

数据集标签通常已正确编码（0表示负面，1表示正面），我们需要验证标签分布：

import pandas as pd
from collections import Counter

def analyze_label_distribution(dataset):
    """
    分析各数据集的标签分布
    """
    distribution = {}
    for split in ['train', 'validation', 'test']:
        labels = dataset[split]['label']
        distribution[split] = Counter(labels)
        print(f"{split}集标签分布: {dict(distribution[split])}")
    
    return distribution

label_distribution = analyze_label_distribution(dataset)

5. 模型加载与配置

5.1 加载预训练模型和分词器

from transformers import BertTokenizer, BertForSequenceClassification, AutoConfig

# 加载中文BERT分词器和模型
model_name = "bert-base-chinese"
tokenizer = BertTokenizer.from_pretrained(model_name)

# 检查标签数量
num_labels = len(set(dataset['train']['label']))
print(f"分类标签数量: {num_labels}")

# 加载模型配置
config = AutoConfig.from_pretrained(
    model_name, 
    num_labels=num_labels,
    id2label={0: "负面", 1: "正面"},
    label2id={"负面": 0, "正面": 1}
)

model = BertForSequenceClassification.from_pretrained(
    model_name, 
    config=config
)

5.2 数据编码与Dataset创建

from transformers import DataCollatorWithPadding

def tokenize_function(examples):
    """
    对文本进行分词编码
    """
    return tokenizer(
        examples['text'], 
        truncation=True, 
        padding=True, 
        max_length=128,  # 根据文本长度分布调整
        return_tensors=None
    )

# 应用分词器
encoded_dataset = dataset.map(tokenize_function, batched=True)

# 设置PyTorch格式
encoded_dataset = encoded_dataset.remove_columns(['text'])
encoded_dataset.set_format('torch', columns=['input_ids', 'attention_mask', 'label'])

# 创建数据收集器
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

6. 模型训练配置

6.1 训练参数优化配置

from transformers import TrainingArguments, Trainer
import os

# 创建输出目录
output_dir = "./result/bert_chinese_sentiment_results"
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# 配置训练参数
training_args = TrainingArguments(
    output_dir=output_dir,
    overwrite_output_dir=True,
    
    # 训练参数
    num_train_epochs=3,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    learning_rate=2e-5,
    weight_decay=0.01,
    warmup_steps=500,
    
    # 评估策略
    eval_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    metric_for_best_model="accuracy",
    
    # 日志记录
    logging_dir="./logs",
    logging_steps=100,
    report_to=None,  # 禁用外部日志服务
    
    # 其他配置
    dataloader_pin_memory=False,
    remove_unused_columns=True,
)

6.2 评估指标定义

import numpy as np
from sklearn.metrics import accuracy_score, precision_recall_fscore_support

def compute_metrics(eval_pred):
    """
    自定义评估指标计算
    """
    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=1)
    
    # 计算各项指标
    accuracy = accuracy_score(labels, predictions)
    precision, recall, f1, _ = precision_recall_fscore_support(
        labels, predictions, average='binary'
    )
    
    return {
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1': f1
    }

7. 模型训练与验证

7.1 创建Trainer实例并开始训练

# 创建Trainer实例
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=encoded_dataset["train"],
    eval_dataset=encoded_dataset["validation"],
    tokenizer=tokenizer,
    data_collator=data_collator,
    compute_metrics=compute_metrics,
)

# 开始训练
print("开始模型训练...")
train_results = trainer.train()

# 保存最终模型
trainer.save_model()
tokenizer.save_pretrained(output_dir)

print(f"训练完成！模型保存在: {output_dir}")

7.2 训练过程监控

训练过程中，我们可以实时监控损失和指标变化：

# 获取训练历史
history = trainer.state.log_history

# 提取训练指标
train_loss = [entry['loss'] for entry in history if 'loss' in entry]
eval_loss = [entry['eval_loss'] for entry in history if 'eval_loss' in entry]
eval_accuracy = [entry['eval_accuracy'] for entry in history if 'eval_accuracy' in entry]
eval_f1 = [entry['eval_f1'] for entry in history if 'eval_f1' in entry]

print(f"训练轮次: {len(train_loss)}")
print(f"最终验证准确率: {eval_accuracy[-1]:.4f}")
print(f"最终验证F1分数: {eval_f1[-1]:.4f}")

8. 模型评估与性能分析

8.1 测试集性能评估

# 在测试集上进行最终评估
test_results = trainer.evaluate(encoded_dataset["test"])
print("\n=== 测试集性能评估 ===")
for metric, value in test_results.items():
    if metric != 'eval_runtime' and metric != 'eval_samples_per_second' and metric != 'eval_steps_per_second':
        print(f"{metric}: {value:.4f}")

# 对比微调前后性能（使用相同测试集）
def evaluate_baseline_model():
    """
    评估未微调的基线模型性能
    """
    baseline_model = BertForSequenceClassification.from_pretrained(
        "bert-base-chinese", 
        num_labels=num_labels
    )
    baseline_trainer = Trainer(
        model=baseline_model,
        args=trainer.args,  # 复用训练器的参数配置，确保评估条件一致
        eval_dataset=encoded_dataset["test"],
        compute_metrics=compute_metrics
    )
    baseline_results = baseline_trainer.evaluate(encoded_dataset["test"])
    return baseline_results

print("\n正在评估基线模型性能...")
baseline_results = evaluate_baseline_model()

print("\n=== 性能对比 ===")
print("指标\t\t基线模型\t微调后模型\t提升")
for metric in ['eval_accuracy', 'eval_f1']:
    if metric in baseline_results and metric in test_results:
        baseline_val = baseline_results[metric]
        fine_tuned_val = test_results[metric]
        improvement = fine_tuned_val - baseline_val
        print(f"{metric}\t{baseline_val:.4f}\t\t{fine_tuned_val:.4f}\t\t{improvement:+.4f}")

8.2 错误分析示例

# 进行错误分析
def error_analysis(trainer, dataset, num_samples=10):
    """
    分析模型预测错误的情况
    """
    predictions = trainer.predict(dataset)
    pred_labels = np.argmax(predictions.predictions, axis=1)
    true_labels = predictions.label_ids
    
    # 找出预测错误的样本
    incorrect_indices = np.where(pred_labels != true_labels)[0]
    
    print(f"\n错误分析: 总共{len(true_labels)}个样本，错误预测{len(incorrect_indices)}个")
    print("随机抽取错误样本分析:")
    
    for i in range(min(num_samples, len(incorrect_indices))):
        idx = incorrect_indices[i]
        original_text = dataset[idx]['text'] if 'text' in dataset.features else "文本不可用"
        true_label = true_labels[idx]
        pred_label = pred_labels[idx]
        
        print(f"\n样本 {i+1}:")
        print(f"文本: {original_text}")
        print(f"真实标签: {true_label} ({'正面' if true_label == 1 else '负面'})")
        print(f"预测标签: {pred_label} ({'正面' if pred_label == 1 else '负面'})")

# 执行错误分析
error_analysis(trainer, encoded_dataset['test'])

9. 训练过程可视化

9.1 损失曲线和准确率可视化

import matplotlib.pyplot as plt
import seaborn as sns

def plot_training_metrics(history):
    """
    绘制训练过程中的指标变化曲线
    """
    # 提取指标
    train_metrics = [entry for entry in history if 'loss' in entry and 'eval_loss' not in entry]
    eval_metrics = [entry for entry in history if 'eval_loss' in entry]
    
    steps = [entry['step'] for entry in eval_metrics]
    eval_loss = [entry['eval_loss'] for entry in eval_metrics]
    eval_accuracy = [entry.get('eval_accuracy', 0) for entry in eval_metrics]
    
    # 创建可视化图表
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))
    
    # 损失曲线
    ax1.plot(steps, eval_loss, 'b-', label='验证损失')
    ax1.set_xlabel('训练步数')
    ax1.set_ylabel('损失值')
    ax1.set_title('验证损失变化曲线')
    ax1.legend()
    ax1.grid(True, alpha=0.3)
    
    # 准确率曲线
    ax2.plot(steps, eval_accuracy, 'r-', label='验证准确率')
    ax2.set_xlabel('训练步数')
    ax2.set_ylabel('准确率')
    ax2.set_title('验证准确率变化曲线')
    ax2.legend()
    ax2.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.savefig(f'{output_dir}/training_metrics.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    return fig

# 生成可视化图表
if 'history' in locals():
    plot_training_metrics(history)

9.2 混淆矩阵可视化

from sklearn.metrics import confusion_matrix
import itertools

def plot_confusion_matrix(trainer, dataset):
    """
    绘制混淆矩阵
    """
    predictions = trainer.predict(dataset)
    pred_labels = np.argmax(predictions.predictions, axis=1)
    true_labels = predictions.label_ids
    
    # 计算混淆矩阵
    cm = confusion_matrix(true_labels, pred_labels)
    
    # 绘制混淆矩阵
    plt.figure(figsize=(8, 6))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
                xticklabels=['负面', '正面'], 
                yticklabels=['负面', '正面'])
    plt.xlabel('预测标签')
    plt.ylabel('真实标签')
    plt.title('混淆矩阵')
    plt.savefig(f'{output_dir}/confusion_matrix.png', dpi=300, bbox_inches='tight')
    plt.show()

# 绘制测试集混淆矩阵
plot_confusion_matrix(trainer, encoded_dataset['test'])

10. 模型应用与部署

10.1 使用训练好的模型进行预测

def predict_sentiment(text, model, tokenizer):
    """
    使用微调后的模型预测单条文本情感
    """
    # 预处理输入文本
    inputs = tokenizer(
        text, 
        return_tensors="pt", 
        truncation=True, 
        padding=True, 
        max_length=128
    )
    
    # 模型预测
    model.eval()
    with torch.no_grad():
        outputs = model(**inputs)
        predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
        predicted_label = torch.argmax(predictions, dim=1).item()
        confidence = torch.max(predictions).item()
    
    label_map = {0: "负面", 1: "正面"}
    return label_map[predicted_label], confidence

# 测试预测函数
test_texts = [
    "这个产品质量很好，性价比高，推荐购买！",
    "服务态度很差，再也不会来了。",
    "一般般吧，没什么特别的感觉。"
]

print("\n=== 模型预测测试 ===")
for text in test_texts:
    label, confidence = predict_sentiment(text, model, tokenizer)
    print(f"文本: {text}")
    print(f"情感: {label}, 置信度: {confidence:.4f}")
    print("---")

11. 总结与优化建议

通过本教程，我们完成了基于BERT的中文情感分析模型的完整微调流程。关键要点总结如下：

11.1 核心成果

数据预处理：实现了针对中文文本的专项清洗和处理方法
模型微调：成功将预训练BERT模型适配到情感分析任务
性能评估：通过多维度指标全面评估模型表现
可视化分析：直观展示训练过程和模型性能

11.2 进一步优化方向

数据增强：使用同义词替换、回译等技术扩充训练数据
超参数调优：系统调整学习率、批大小等超参数
模型集成：结合多个模型的预测结果提升性能
领域适配：针对特定领域数据进一步微调

11.3 常见问题排查

过拟合：增加dropout比率、添加正则化、早停策略
训练不稳定：减小学习率、使用学习率热身
性能不达标：检查数据质量、调整模型架构

本教程提供了完整的实践框架，您可以根据具体需求调整参数和方法，进一步提升模型在实际应用中的表现。