Google 开源大模型 Gemma4 是「深夜炸厂」

运行后，终端会返回模型的 JSON 格式回复，你可以把这个 API 地址填入任何支持自定义 OpenAI API 地址的应用中，比如 ChatGPT-Next-Web、Dify、LangFlow 等，搭建自己的私有 AI 应用。系列开源大模型，被 AI 社区称为「深夜炸厂」，核心原因是它彻底打破了开源大模型的行业格局，完成了三大颠覆性突破，直接对标 Llama 3、通义千问 3.5、DeepSee

倔强的胖蚂蚁

692人浏览 · 2026-04-14 23:40:56

倔强的胖蚂蚁 · 2026-04-14 23:40:56 发布

一、背景认知：为什么叫「深夜炸厂」

1. 核心发布信息

2026 年 4 月 2 日深夜，Google DeepMind 无预告突袭发布Gemma 4系列开源大模型，被 AI 社区称为「深夜炸厂」，核心原因是它彻底打破了开源大模型的行业格局，完成了三大颠覆性突破，直接对标 Llama 3、通义千问 3.5、DeepSeek 等顶流开源模型。

它是 Gemma 系列的第四代产品，与谷歌闭源旗舰Gemini 3共享底层技术架构，相当于把顶级闭源模型的核心能力完全开源下放。截至发布时，Gemma 系列全球累计下载量已突破 4 亿次，衍生出超 10 万个社区变体，形成了庞大的「Gemmaverse」生态。

2. 「炸厂」核心亮点（对初学者最关键的 4 点）

协议彻底放开，零门槛商用放弃了前 3 代的谷歌自定义商用限制协议，全系采用Apache 2.0 开源协议—— 这是业内最宽松的商业友好协议，你可以免费下载、修改、分发、二次开发，甚至用于商业产品，无需申请授权、无营收门槛、无附加法律限制，个人和中小企业可完全放心使用。
全场景覆盖，消费级硬件就能跑从手机端 20 亿参数（E2B）到服务器级 310 亿参数（31B Dense），4 个型号覆盖「手机→笔记本→消费级显卡→专业工作站」全硬件场景，哪怕是普通办公本、千元安卓手机，都能离线流畅运行。
性能越级，小参数打大模型旗舰 31B 版本在 AIME 2026 数学竞赛中得分 89.2%，比前代暴涨超 60 个百分点，直接冲进开源榜单前三；26B MoE 版本推理时仅激活 38 亿参数，速度接近 4B 小模型，性能却对标 30B + 大模型，实现了「速度与智能兼得」。
能力原生集成，无需额外适配全系原生支持多模态、长上下文、函数调用、思考模式，不用像其他模型一样需要单独微调、安装插件，零基础就能直接用它做文档解析、图片理解、工具调用、Agent 智能体搭建。

3. 对初学者的核心价值

无版权顾虑：学习、练手、做项目、甚至创业做产品，都不会有合规风险；
硬件门槛极低：不用买几万块的专业显卡，普通家用电脑、手机就能跑；
能力全面：一个模型就能搞定文本、代码、图像、音频、视频，不用学多个模型；
生态完善：发布即适配 Ollama、Hugging Face、LM Studio 等主流工具，教程和社区资源丰富。

二、核心配置：选型不踩坑，初学者一眼看懂

1. 全系模型核心参数表（初学者直接对照选型）

Gemma 4 共发布 4 个核心型号，所有型号均支持文本 / 图像 / 视频理解，仅 E2B/E4B 端侧型号原生支持音频输入。

模型型号	架构类型	核心参数	上下文窗口	推荐运行硬件	核心定位	初学者适配度
Gemma 4 E2B	密集型 Dense	20 亿参数	128K	手机、树莓派、8G 内存办公本	端侧极致轻量化，唯一支持音频的型号	★★★★★（入门首选）
Gemma 4 E4B	密集型 Dense	40 亿参数	128K	16G 内存笔记本、6G 显存独显	笔记本主力款，平衡性能与速度	★★★★★（新手主力）
Gemma 4 26B A4B	混合专家 MoE	总参数 252 亿，推理仅激活 38 亿	256K	16G + 显存消费级显卡（RTX3060/4060 及以上）	性价比之王，速度接近 4B，性能接近 31B	★★★★☆（有显卡首选）
Gemma 4 31B	密集型 Dense	307 亿全激活参数	256K	24G + 显存显卡（RTX4090/A10/H100）、专业工作站	旗舰性能款，开源第一梯队水准	★★★☆☆（进阶学习）

2. 核心能力矩阵（全系通用，无额外付费）

多模态能力
- 图像：支持 PNG/JPG/WEBP 等格式，可完成对象检测、文档 / PDF 解析、屏幕截图理解、图表解读、多语言 OCR、手写识别，支持任意顺序混合文本 + 图片输入Google AI；
- 视频：通过帧序列分析完成视频内容理解，支持长视频分段解读；
- 音频：E2B/E4B 型号原生支持自动语音识别（ASR）、多语言语音翻译，无需额外插件Google AI。
语言与代码能力
- 开箱即用支持 35 + 主流语言，预训练覆盖 140 + 语言，中文支持优化完善；
- 原生支持代码生成、补全、调试、纠错，覆盖 Python/Java/C++ 等主流编程语言，可直接用于本地代码助手开发Google AI。
原生 Agent 能力
- 全系内置函数调用（Function Calling）能力，无需微调即可实现多步规划、工具调用、结果回传，直接用于搭建智能体工作流；
- 支持思考模式（Chain of Thought），可输出完整推理过程，提升复杂任务的准确率。
长上下文能力
- 端侧 E2B/E4B 支持 128K 上下文窗口，可一次性输入约 10 万字文本；
- 26B/31B 型号支持 256K 超长上下文，可一次性输入约 20 万字文本，长文档检索准确率达 66.4%，远超前代产品。

3. 初学者最低硬件要求（避坑必看）

运行场景	最低硬件配置	推荐模型	预期效果
手机离线运行	安卓 14+/iOS 17+，8G RAM，32G 存储空间	E2B	8-15 token/s，流畅对话，离线可用
办公本无显卡运行	16G 内存，Windows/macOS，无独显	E4B（4-bit 量化）	5-10 token/s，基础文本对话，轻量图像理解
家用游戏本运行	6G + 独显，16G 内存	E4B/26B MoE（4-bit 量化）	15-30 token/s，流畅多模态对话，长文档处理
台式机高性能运行	16G + 独显，32G 内存	26B MoE/31B（4-bit 量化）	30+ token/s，全功能流畅运行，复杂推理、Agent 搭建

三、基础实操：零门槛部署，全程无步骤省略

为照顾完全零基础的初学者，这里提供3 种部署方案，从「零代码可视化方案」到「官方原生代码方案」，难度依次递增，你可以根据自己的基础选择。

方案一：零代码可视化部署（LM Studio，纯小白首选）

适合人群：完全不懂代码、不想用命令行，想要和 ChatGPT 网页版一样的可视化对话界面，全程鼠标点击操作即可。

步骤 1：下载并安装 LM Studio

打开浏览器，访问 LM Studio 官网：https://lmstudio.ai/
选择对应你电脑系统的安装包（Windows/macOS/Linux 均支持），点击下载；
双击安装包，全程点击「Next」，默认安装即可，无需修改任何配置；
安装完成后，打开 LM Studio，完成初始引导，进入主界面。

步骤 2：搜索并下载 Gemma 4 模型

点击左侧菜单栏的「Discover」（发现）按钮，进入模型下载页面；
在顶部搜索框中输入 gemma4，按下回车，即可看到官方发布的全系 Gemma 4 模型；
根据你的硬件配置，选择对应的模型版本（纯小白优先选 gemma-4-E4B-it，4-bit 量化版本，体积小、兼容性最好）；
点击模型右侧的「Download」按钮，等待下载完成（下载进度在界面底部可查看，模型大小约 2-15GB，取决于你选的型号）。

步骤 3：加载模型，开始对话

下载完成后，点击左侧菜单栏的「Chat」（对话）按钮，进入对话界面；
点击界面顶部的下拉框，选择你刚刚下载好的 Gemma 4 模型，等待 10-30 秒，模型会自动加载完成；
加载完成后，你就可以在底部输入框中输入问题，和本地部署的 Gemma 4 对话了，使用体验和 ChatGPT 网页版完全一致，所有数据都在你的本地，无需联网也能使用。

步骤 4：基础多模态体验（图片理解）

在对话界面，点击输入框右侧的「图片」图标，选择你电脑上的任意图片；
图片上传完成后，在输入框中输入你的问题，比如「这张图片里有什么内容？」「帮我提取这张图片里的所有文字」；
按下回车，Gemma 4 就会分析图片内容，给你对应的回答。

方案二：极简命令行部署（Ollama，新手主力推荐）

适合人群：有基础的电脑操作能力，想要更灵活的使用方式，后续可以对接代码、搭建 API 服务，是目前最主流的本地大模型部署方案。

步骤 1：下载并安装 Ollama

打开浏览器，访问 Ollama 官网：https://ollama.com/
选择对应系统的安装包，Windows 用户下载 exe 安装包，macOS/Linux 用户可以直接使用终端命令安装；
- macOS/Linux 一键安装命令：打开终端，粘贴以下命令，按下回车即可自动安装
```
curl -fsSL https://ollama.com/install.sh | sh
```
Windows 用户双击 exe 安装包，全程点击「下一步」，默认安装即可，无需修改任何配置；
安装完成后，验证是否安装成功：
- Windows 用户按 Win+R，输入 cmd 打开命令提示符；macOS/Linux 用户直接打开终端；
- 在终端中输入以下命令，按下回车
```
ollama --version
```

如果终端输出了 Ollama 的版本号，说明安装成功；如果提示「不是内部或外部命令」，重启电脑再试一次即可。

步骤 2：一键拉取并运行 Gemma 4

打开终端 / 命令提示符，根据你的硬件配置，选择对应的命令，粘贴后按下回车，Ollama 会自动完成「模型下载→加载→启动对话」全流程，无需任何额外操作。

表格

推荐硬件	对应命令	模型说明
手机 / 8G 内存办公本	`ollama run gemma4:e2b`	20 亿参数轻量化版本，入门首选
笔记本 / 16G 内存办公本	`ollama run gemma4:e4b`	40 亿参数主力版本，平衡性能与速度
16G + 显存游戏本	`ollama run gemma4:26b`	26B MoE 版本，性价比之王
24G + 显存显卡 / 工作站	`ollama run gemma4:31b`	31B 旗舰性能版本

等待模型下载完成（下载进度会在终端显示，模型大小 1.5GB-20GB 不等，取决于你选的型号）；
下载完成后，模型会自动加载，终端出现 >>> 提示符，说明已经进入交互式对话界面，你可以直接输入问题，按下回车，Gemma 4 就会给你回复。

步骤 3：基础常用操作命令

操作需求	对应命令	说明
退出对话界面	`/bye`	按下回车即可退出对话，关闭模型
查看本地已下载的所有模型	`ollama list`	终端直接输入，无需进入对话界面
仅下载模型，不启动对话	`ollama pull 模型名`	比如 `ollama pull gemma4:e4b`
删除本地模型	`ollama rm 模型名`	比如 `ollama rm gemma4:e2b`
查看正在运行的模型	`ollama ps`	可查看占用的显存、运行时长

步骤 4：基础多模态对话（Ollama）

新建一个文本文件，命名为 gemma4_image.py，保存在你的电脑桌面；

把以下代码粘贴到文件中，代码功能是读取本地图片，调用 Gemma 4 完成图片理解，零基础直接复制即可：

import ollama
import base64

# 定义图片读取函数，把图片转为base64编码
def encode_image(image_path: str) -> str:
    with open(image_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

# 核心配置：替换为你的图片路径，比如Windows是 "C:\\Users\\用户名\\Desktop\\test.png"，macOS是 "/Users/用户名/Desktop/test.png"
IMAGE_PATH = "替换为你的图片绝对路径"
# 你要问的问题
QUESTION = "请详细描述这张图片里的所有内容，包括文字、物体、场景"
# 你使用的Gemma 4模型名
MODEL_NAME = "gemma4:e4b"

# 调用模型，获取结果
response = ollama.chat(
    model=MODEL_NAME,
    messages=[
        {
            "role": "user",
            "content": QUESTION,
            "images": [encode_image(IMAGE_PATH)]
        }
    ]
)

# 打印模型的回答
print("Gemma 4 回复：")
print(response["message"]["content"])

把代码里的 IMAGE_PATH 替换为你自己的图片绝对路径，保存文件；
确保你的电脑已经安装了 Python，打开终端，输入以下命令安装依赖：
```
pip install ollama
```
依赖安装完成后，在终端中输入以下命令，运行代码：
```
cd Desktop
python gemma4_image.py
```
终端就会输出 Gemma 4 对图片的分析结果，零基础也能完成多模态体验。

方案三：官方原生 Hugging Face Transformers 部署（进阶入门）

适合人群：想要学习大模型原生开发，后续要做微调、二次开发的初学者，完全遵循 Google 官方推荐的使用方式。

前置环境准备

安装 Python 3.10 及以上版本；
安装 NVIDIA CUDA（有独显的用户，macOS 用户无需安装）；
注册 Hugging Face 账号，完成邮箱验证，获取访问令牌（Access Token）。

步骤 1：安装核心依赖库

打开终端，输入以下命令，一键安装所有必需的依赖库：

pip install -U transformers torch accelerate pillow python-dotenv

transformers：Hugging Face 核心库，用于加载和运行 Gemma 4 模型；
torch：PyTorch 深度学习框架，模型运行的基础；
accelerate：用于优化模型加载速度，降低显存占用；
pillow：用于图像处理，实现多模态功能。

步骤 2：基础文本对话代码实现

新建一个 Python 文件，命名为 gemma4_text.py；

粘贴以下官方原生代码，零基础直接复制，仅需替换你的 Hugging Face 访问令牌：

import torch
from transformers import AutoProcessor, AutoModelForCausalLM
from dotenv import load_dotenv
import os

# 加载环境变量，保护你的访问令牌
load_dotenv()
HF_TOKEN = os.getenv("HF_TOKEN")

# 模型ID，初学者优先选google/gemma-4-E4B-it，可根据硬件替换为其他型号
MODEL_ID = "google/gemma-4-E4B-it"

# 加载处理器和模型
print("正在加载模型，首次运行会自动下载，耐心等待...")
processor = AutoProcessor.from_pretrained(MODEL_ID, token=HF_TOKEN)
# 4-bit量化加载，大幅降低显存占用，初学者必加，无独显也能跑
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    load_in_4bit=True,
    token=HF_TOKEN
)

# 你的问题
prompt = "你好，请用通俗易懂的话，给初学者介绍一下你自己"
# 处理输入文本
inputs = processor(text=prompt, return_tensors="pt").to(model.device)

# 生成回复
print("正在生成回复...")
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=512,  # 生成的最大长度
        temperature=0.7,     # 创造性，0=最严谨，1=最有创意
        top_p=0.9,
        do_sample=True
    )

# 解码并打印结果
response = processor.decode(outputs[0], skip_special_tokens=True)
print("\nGemma 4 回复：")
print(response.replace(prompt, ""))

新建一个 .env 文件，和 Python 文件放在同一个文件夹里，内容如下：
```
HF_TOKEN=替换为你的Hugging Face访问令牌
```
保存文件后，在终端中运行代码：
```
python gemma4_text.py
```
首次运行会自动下载模型权重，等待下载完成后，终端就会输出 Gemma 4 的回复，完成原生部署。

步骤 3：原生多模态（图像理解）代码实现

新建 Python 文件 gemma4_image_hf.py，粘贴以下代码，替换图片路径和访问令牌即可运行：

import torch
from transformers import AutoProcessor, AutoModelForCausalLM
from PIL import Image
from dotenv import load_dotenv
import os

load_dotenv()
HF_TOKEN = os.getenv("HF_TOKEN")

# 模型配置
MODEL_ID = "google/gemma-4-E4B-it"
IMAGE_PATH = "替换为你的图片绝对路径"
QUESTION = "请详细描述这张图片的内容，提取所有可见的文字"

# 加载处理器、模型和图片
processor = AutoProcessor.from_pretrained(MODEL_ID, token=HF_TOKEN)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    load_in_4bit=True,
    token=HF_TOKEN
)
image = Image.open(IMAGE_PATH).convert("RGB")

# 处理多模态输入
inputs = processor(text=QUESTION, images=image, return_tensors="pt").to(model.device)

# 生成回复
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=1024, temperature=0.7)

# 输出结果
response = processor.decode(outputs[0], skip_special_tokens=True)
print("Gemma 4 回复：")
print(response.replace(QUESTION, ""))

四、高阶用法：从会用到用好，初学者也能上手的进阶玩法

1. 原生函数调用（Agent 智能体基础）

Gemma 4 全系原生支持函数调用，无需微调，就能让模型自动调用你写的工具函数，这是搭建本地 AI 智能体的核心能力。下面给初学者提供一个可直接运行的极简示例，实现「模型自动调用天气查询函数，回答用户的天气问题」。

步骤 1：新建 Python 文件 `gemma4_function_call.py`

粘贴以下完整代码，零基础直接复制即可运行：

import ollama
import json

# 1. 定义我们的工具函数：模拟查询城市天气
def get_weather(city: str, unit: str = "摄氏度") -> str:
    """查询指定城市的实时天气"""
    # 这里可以替换为真实的天气API，初学者先用模拟数据
    weather_data = {
        "北京": {"天气": "晴", "温度": 22, "湿度": 45},
        "上海": {"天气": "多云", "温度": 25, "湿度": 60},
        "广州": {"天气": "小雨", "温度": 28, "湿度": 75}
    }
    if city in weather_data:
        return f"{city}当前天气：{weather_data[city]['天气']}，温度{weather_data[city]['温度']}{unit}，湿度{weather_data[city]['湿度']}%"
    else:
        return f"暂不支持查询{city}的天气数据"

# 2. 告诉模型我们有哪些工具，以及工具的使用方法
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "查询指定城市的实时天气",
            "parameters": {
                "type": "object",
                "properties": {
                    "city": {
                        "type": "string",
                        "description": "要查询的城市名称，比如北京、上海"
                    },
                    "unit": {
                        "type": "string",
                        "description": "温度单位，可选值：摄氏度、华氏度",
                        "default": "摄氏度"
                    }
                },
                "required": ["city"]
            }
        }
    }
]

# 3. 用户的问题
USER_QUESTION = "今天北京的天气怎么样？适合出门吗？"
# 4. 使用的模型
MODEL_NAME = "gemma4:e4b"

# 5. 第一步：让模型判断是否需要调用工具
print("用户问题：", USER_QUESTION)
response = ollama.chat(
    model=MODEL_NAME,
    messages=[{"role": "user", "content": USER_QUESTION}],
    tools=tools
)

# 6. 第二步：如果模型判断需要调用工具，就执行对应的函数
if response.message.tool_calls:
    for tool_call in response.message.tool_calls:
        function_name = tool_call.function.name
        function_args = tool_call.function.arguments
        print(f"\n模型正在调用工具：{function_name}，参数：{function_args}")
        
        # 执行对应的函数
        if function_name == "get_weather":
            function_result = get_weather(**function_args)
            print(f"工具执行结果：{function_result}")

        # 7. 第三步：把工具执行结果传给模型，让它生成最终回答
        final_response = ollama.chat(
            model=MODEL_NAME,
            messages=[
                {"role": "user", "content": USER_QUESTION},
                response.message,
                {
                    "role": "tool",
                    "content": function_result,
                    "name": function_name
                }
            ]
        )

        # 输出最终回答
        print("\nGemma 4 最终回答：")
        print(final_response.message.content)
else:
    # 不需要调用工具，直接输出回答
    print("\nGemma 4 回答：")
    print(response.message.content)

步骤 2：运行代码

在终端中输入 python gemma4_function_call.py，即可看到完整的调用流程，模型会自动判断是否需要调用工具、提取参数、执行函数，最后基于工具结果生成完整回答。你可以基于这个框架，扩展更多工具，比如文件读取、数据库查询、API 调用等，搭建自己的本地 AI 智能体。

2. 长上下文能力使用（长文档 / 书籍解读）

Gemma 4 E2B/E4B 支持 128K 上下文，26B/31B 支持 256K 上下文，可一次性读取整本书、超长合同、代码项目，完成解读、总结、问答。这里给初学者提供 Ollama 方案的极简实现步骤：

新建一个 Modelfile，命名为 Gemma4_LongContext.Modelfile，内容如下：

# 基础模型
FROM gemma4:e4b
# 设置上下文窗口为128K，26B/31B可设置为256K
PARAMETER num_ctx 131072
# 设置温度，长文档总结推荐0.3-0.5，更严谨
PARAMETER temperature 0.4
# 系统提示词，定义模型的行为
SYSTEM 你是一个专业的文档分析助手，擅长处理超长文本，能够精准提取文档中的核心信息、总结要点、回答用户针对文档的问题，回答要严谨、全面、有条理。

打开终端，进入 Modelfile 所在的文件夹，输入以下命令，创建自定义长上下文模型：
```
ollama create gemma4-long-context -f Gemma4_LongContext.Modelfile
```
运行自定义长上下文模型：
```
ollama run gemma4-long-context
```
进入对话界面后，直接把超长文本、整本书的内容粘贴进去，按下回车，再输入你的需求，比如「总结这份文档的核心要点」「提取这份合同里的所有风险条款」「基于这份文档，回答我以下问题」，模型就能基于完整的长文本完成处理。

3. 本地 API 服务搭建，对接各类应用

Ollama 启动后，默认会在本地 11434 端口提供 REST API，完全兼容 OpenAI 的 API 格式，你可以把它替换掉 ChatGPT API，对接各类 AI 应用、插件、低代码平台。

步骤 1：启动本地 API 服务

安装好 Ollama 后，它默认会在后台启动服务，无需额外操作；
验证服务是否正常：打开浏览器，访问 http://localhost:11434，如果页面显示「Ollama is running」，说明服务启动成功。

步骤 2：API 调用示例

你可以用 Postman、Python、curl 等方式调用，下面是最基础的 curl 调用命令，直接在终端运行即可：

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:e4b",
    "messages": [
      {
        "role": "user",
        "content": "给初学者写一份Python入门的3个核心知识点"
      }
    ],
    "temperature": 0.7,
    "max_tokens": 512
  }'

运行后，终端会返回模型的 JSON 格式回复，你可以把这个 API 地址填入任何支持自定义 OpenAI API 地址的应用中，比如 ChatGPT-Next-Web、Dify、LangFlow 等，搭建自己的私有 AI 应用。

4. 轻量化微调（LoRA）入门

如果你想让 Gemma 4 学习专属知识、适配特定场景（比如客服话术、行业知识库、代码风格定制），可以用 LoRA 轻量化微调，无需全量训练，消费级显卡就能完成。

初学者核心注意事项

截至 2026 年 4 月，Gemma 4 的微调需要从源码安装 transformers 库，命令如下：
```
pip install git+https://github.com/huggingface/transformers.git
```
推荐使用 unsloth、peft 两个库完成 LoRA 微调，对显存优化极好，16G 显存就能完成 E4B 模型的微调；
微调数据集推荐用 100-1000 条高质量的问答对，格式为「指令 - 输入 - 输出」，初学者优先用小数据集练手；
微调核心参数：LoRA 秩 r 推荐 8-32，学习率推荐 2e-4，训练轮次推荐 3-10 轮，避免过拟合。

五、拓展建议：初学者避坑 + 学习路径规划

1. 初学者避坑指南（90% 的新手都会踩的坑）

模型选型避坑：不要一上来就下载 31B 大模型，优先从 E2B/E4B 入门，先跑通基础流程，再尝试更大的模型；量化版本优先选 Q4_K_M，平衡体积、速度和精度，是新手的最优选择。
显存占用避坑：Windows 用户一定要关闭虚拟内存占用，关闭其他占用显存的程序（比如游戏、浏览器多标签页）；4-bit 量化是新手必开的选项，能降低 75% 的显存占用，精度损失几乎可以忽略。
合规避坑：虽然 Apache 2.0 协议完全放开商用，但不要用模型生成违法违规内容，不要用模型做诈骗、侵权等行为；二次分发模型时，要保留原始的开源协议声明。
性能避坑：不要盲目追求长上下文，128K/256K 上下文会大幅增加显存占用和推理速度，普通对话用 8K-32K 就足够；如果运行卡顿，优先降低上下文窗口大小，再换更小的模型。

2. 初学者分阶段学习路径

学习阶段	核心目标	推荐学习内容	完成标准
入门阶段（1-7 天）	跑通基础部署，完成基础对话和多模态体验	LM Studio/Ollama 基础部署、基础对话、图片理解	能独立在自己的电脑上部署 Gemma 4，完成多模态对话
进阶阶段（8-30 天）	掌握 API 调用、函数调用、长上下文使用	本地 API 服务搭建、函数调用、Agent 基础、长文档处理	能搭建自己的本地 AI 助手，实现工具调用，完成超长文档解读
精通阶段（1-3 个月）	掌握微调、二次开发、生产级应用搭建	LoRA 轻量化微调、模型量化优化、多模态进阶、生产级部署	能完成模型专属微调，搭建可商用的 AI 应用，适配特定行业场景

3. 生态工具推荐（初学者一站式配齐）

部署工具：Ollama（命令行主力）、LM Studio（零代码可视化）、llama.cpp（极致轻量化，端侧部署）；
对话界面：ChatGPT-Next-Web、Open WebUI、Lobe Chat，都能一键对接本地 Ollama API，打造美观的网页版对话界面；
低代码开发平台：Dify、LangFlow、Flowise，零代码就能搭建 AI 工作流、Agent 智能体，不用写代码就能实现复杂功能；
微调工具：unsloth、peft、axolotl，优化显存占用，新手也能快速完成 LoRA 微调；
端侧部署工具：Google AI Edge Gallery、MLC Chat，手机端一键部署 Gemma 4，完全离线运行。