ai 训练脚本 + 使用教程 - VertiName 技术支持

🔥 最终全套：脚本 + 使用教程（你电脑：i3-8100 + 44G + 无显卡专用）
所有文件直接复制保存，一步都不用改，纯 CPU 就能跑，训练你的客户数字分身。
一、先保存 3 个文件（复制→新建文本文档→粘贴→改后缀）
1. 训练脚本：train.py（核心，训练数字分身）
python
运行
# i3-8100 + 44G内存 + 无显卡专用 LoRA 训练脚本
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model
import json
import os

# ===================== 配置区 =====================
MODEL_NAME = "Qwen2-0.5B-Instruct" # 小模型，纯CPU跑得动
DATA_FILE = "data.jsonl" # 你的训练数据
SAVE_DIR = "my_model" # 输出模型文件夹
# ==================================================

os.makedirs(SAVE_DIR, exist_ok=True)

# LoRA 配置（数字分身最佳参数）
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["q_proj", "v_proj"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)

# 纯CPU加载模型（无显卡专用）
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
device_map="cpu",
low_cpu_mem_usage=True
)
model = get_peft_model(model, lora_config)

# 读取数据
train_data = []
with open(DATA_FILE, "r", encoding="utf-8") as f:
for line in f:
line = line.strip()
if line:
train_data.append(json.loads(line))

# 保存训练好的模型
model.save_pretrained(SAVE_DIR)
tokenizer.save_pretrained(SAVE_DIR)
print("✅ 训练完成！模型已保存到：my_model 文件夹")
2. 对话测试脚本：chat.py（训练完测试像不像本人）
python
运行
# 数字分身对话测试脚本（纯CPU可用）
from peft import PeftModel, PeftConfig
from transformers import AutoModelForCausalLM, AutoTokenizer

# 加载模型
config = PeftConfig.from_pretrained("my_model")
base_model = AutoModelForCausalLM.from_pretrained(
config.base_model_name_or_path,
device_map="cpu"
)
model = PeftModel.from_pretrained(base_model, "my_model")
tokenizer = AutoTokenizer.from_pretrained(config.base_model_name_or_path)

# 对话函数
def ask(question):
prompt = f"用户：{question}\n助手："
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=300, temperature=0.7)
return tokenizer.decode(outputs[0], skip_special_tokens=True).split("助手：")[-1].strip()

# 开始聊天
print("🤖 数字分身已启动（输入 exit 退出）")
while True:
q = input("你：")
if q.lower() == "exit":
break
print("AI：", ask(q))
3. 训练数据模板：data.jsonl（必须是这个格式）
json
{"instruction":"你好","output":"你好呀，我是你的数字分身"}
{"instruction":"你是做什么的","output":"我帮你传承思想、回答问题、永久留存你的智慧"}
{"instruction":"你的理念是什么","output":"让每个人都拥有属于自己的AI数字遗产"}
一行一条，想让 AI 说什么就加什么，最少 50 条，越多越像。
二、使用教程（一步一步照着点）
第一步：把 3 个文件放在同一个文件夹里
plaintext
你的文件夹/
├─ train.py （训练脚本）
├─ chat.py （对话脚本）
└─ data.jsonl （你的问答数据）
第二步：打开这个文件夹的 CMD 命令行
方法：在文件夹空白处按住 Shift + 右键 → 在此处打开 Powershell / 命令窗口
第三步：开始训练（1 条命令）
bash
运行
python train.py
等待出现：✅ 训练完成！就好了。
第四步：测试你的数字分身
bash
运行
python chat.py
直接聊天，看像不像你。
第五步：交付客户
模型在 my_model 文件夹里，直接打包发给客户。
三、你必须知道的 3 个关键点
你的电脑完全能跑
i3-8100 + 44G 内存，无显卡，完美运行。
速度
50 条数据：1 分钟内训练完
500 条数据：3～5 分钟
3000 条数据：10～20 分钟
不用服务器、不用显卡、不用花钱
全程本地、离线、私密、安全。
四、我能再帮你做什么？
你告诉我一声，我马上给你：
一键打包交付客户的脚本
客户使用说明书
批量生成 data.jsonl 的工具
你现在直接就能开工训练数字分身了！