基于 4sapi 构建企业级 RAG 知识库：零代码改造 + 生产级性能优化

在数字化转型的今天，几乎每个企业都积累了大量的内部文档：产品手册、技术规范、会议纪要、培训资料、客户案例等等。如何让这些沉睡的文档变成可被智能检索和问答的知识资产，成为了很多企业面临的共同挑战。我们团队最近为公司内部搭建了一套 RAG 知识库系统，前后踩了不少坑。长文档处理能力不足：超过 128K 上下文的技术手册经常截断网络不稳定：高峰期经常出现超时，严重影响员工使用体验成本居高不下：每天大量的

2601_95787369

71人浏览 · 2026-04-22 16:37:35

2601_95787369 · 2026-04-22 16:37:35 发布

前言

在数字化转型的今天，几乎每个企业都积累了大量的内部文档：产品手册、技术规范、会议纪要、培训资料、客户案例等等。如何让这些沉睡的文档变成可被智能检索和问答的知识资产，成为了很多企业面临的共同挑战。

我们团队最近为公司内部搭建了一套 RAG 知识库系统，前后踩了不少坑。最初我们直接对接 OpenAI 官方 API，结果遇到了一系列问题：

长文档处理能力不足：超过 128K 上下文的技术手册经常截断
网络不稳定：高峰期经常出现超时，严重影响员工使用体验
成本居高不下：每天大量的检索和问答请求，API 费用增长惊人
模型切换困难：想尝试 Claude 的长上下文能力，需要重写大量代码
缺乏运维工具：无法统计每个部门的使用量，也没有异常告警机制

在尝试了多个方案后，我们最终基于 4sapi 重构了整个 RAG 系统。仅仅用了 3 天时间就完成了全部迁移，不仅解决了所有痛点，还将 API 成本降低了 42%，系统可用性提升到了 99.99%。本文将详细分享我们的完整实现方案，从基础 RAG 搭建到生产级性能优化，所有代码都可以直接复制使用。

一、为什么 4sapi 是 RAG 系统的最佳选择

RAG 系统对 AI API 的要求非常高，需要同时满足长上下文、稳定性、成本和灵活性等多个维度的需求。4sapi 在这些方面都表现得尤为出色：

1.1 业界领先的长上下文支持

4sapi 支持最高 200 万 Token 的上下文窗口，远超其他平台。这意味着我们可以直接将整本书、完整的技术手册或几十份会议纪要一次性传入模型，无需复杂的分块和检索策略，大幅提升了问答的准确性。

1.2 多模型无缝切换

不同的 RAG 场景适合不同的模型：

简单问答：使用轻量级模型，成本低、速度快
复杂推理：使用 GPT-5.4，推理能力最强
长文档处理：使用 Claude 4.6 Sonnet，200 万 Token 无压力
多模态问答：使用 Gemini 3.1 Pro，支持图片和表格识别

通过 4sapi 的统一接口，我们可以在不同场景下自由切换模型，只需要修改一个参数即可，无需任何代码重构。

1.3 内置向量检索与 RAG 增强

4sapi 提供了内置的向量数据库和 RAG 增强功能，支持自动文档分块、向量化、混合检索和重排序。我们不需要额外部署和维护 Chroma、Pinecone 等向量数据库，大幅降低了系统复杂度和运维成本。

1.4 企业级安全与合规

4sapi 承诺不存储任何用户数据，所有请求都经过端到端 AES-256 加密。同时提供完整的审计日志和权限管理系统，支持按部门、按用户分配 API 密钥和使用配额，完全符合企业的数据安全要求。

二、快速上手：30 分钟搭建基础 RAG 系统

使用 4sapi 搭建 RAG 系统非常简单，不需要复杂的环境配置和第三方依赖。下面我将一步步带你实现一个完整的知识库问答系统。

2.1 环境准备

bash

运行

# 安装必要的依赖
pip install openai>=1.0.0 python-dotenv pypdf

创建.env文件，配置你的 4sapi API 密钥：

env

4SAPI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
4SAPI_BASE_URL=https://4sapi.com/v1

2.2 文档加载与分块

首先，我们需要加载本地的 PDF 文档，并将其分割成合适大小的块：

python

运行

import os
from dotenv import load_dotenv
from pypdf import PdfReader
from openai import OpenAI

# 加载环境变量
load_dotenv()

# 初始化4sapi客户端
client = OpenAI(
    base_url=os.getenv("4SAPI_BASE_URL"),
    api_key=os.getenv("4SAPI_API_KEY")
)

def load_pdf(file_path):
    """加载PDF文档并提取文本"""
    reader = PdfReader(file_path)
    text = ""
    for page in reader.pages:
        text += page.extract_text() + "\n"
    return text

def split_text(text, chunk_size=1000, chunk_overlap=200):
    """将文本分割成块"""
    chunks = []
    start = 0
    while start < len(text):
        end = start + chunk_size
        chunk = text[start:end]
        chunks.append(chunk)
        start = end - chunk_overlap
    return chunks

# 加载并处理文档
document_text = load_pdf("公司产品手册.pdf")
document_chunks = split_text(document_text)
print(f"文档已分割为{len(document_chunks)}个块")

2.3 文本向量化与检索

使用 4sapi 的嵌入接口将文本块转换为向量，并实现相似度检索：

python

运行

def get_embeddings(texts):
    """获取文本的向量表示"""
    response = client.embeddings.create(
        model="text-embedding-3-large",
        input=texts
    )
    return [item.embedding for item in response.data]

def cosine_similarity(a, b):
    """计算两个向量的余弦相似度"""
    return sum(x*y for x, y in zip(a, b)) / (sum(x*x for x in a)**0.5 * sum(y*y for y in b)**0.5)

# 生成所有文档块的向量
document_embeddings = get_embeddings(document_chunks)

def search_similar_chunks(query, top_k=3):
    """检索与查询最相似的文档块"""
    query_embedding = get_embeddings([query])[0]
    similarities = [cosine_similarity(query_embedding, doc_emb) for doc_emb in document_embeddings]
    
    # 获取相似度最高的top_k个块
    top_indices = sorted(range(len(similarities)), key=lambda i: similarities[i], reverse=True)[:top_k]
    return [document_chunks[i] for i in top_indices]

2.4 智能问答实现

将检索到的相关文档块与用户问题一起传给大模型，生成准确的回答：

python

运行

def answer_question(query):
    """基于知识库回答用户问题"""
    # 检索相关文档
    relevant_chunks = search_similar_chunks(query)
    context = "\n\n".join(relevant_chunks)
    
    # 构建提示词
    prompt = f"""请基于以下上下文回答用户的问题。如果上下文中没有相关信息，请回答"抱歉，我在知识库中没有找到相关信息"。

上下文：
{context}

用户问题：{query}

回答："""
    
    # 调用4sapi获取回答
    response = client.chat.completions.create(
        model="claude-4.6-sonnet",  # 使用Claude处理长上下文
        messages=[
            {"role": "system", "content": "你是一个专业的企业知识库助手，回答要准确、简洁、有条理"},
            {"role": "user", "content": prompt}
        ],
        temperature=0.1,  # 降低温度，提高回答的准确性
        max_tokens=2000
    )
    
    return response.choices[0].message.content

# 测试问答功能
if __name__ == "__main__":
    query = "我们公司的产品有哪些主要功能？"
    answer = answer_question(query)
    print(f"问题：{query}")
    print(f"回答：{answer}")

运行这段代码，你就拥有了一个可以回答公司产品手册问题的智能助手了。整个过程不到 30 分钟，而且代码非常简洁易懂。

三、进阶功能：打造生产级 RAG 系统

基础版 RAG 系统已经可以满足简单的问答需求，但要应用到生产环境，我们还需要添加一些进阶功能。

3.1 多模型智能路由

不同类型的问题适合不同的模型。我们可以实现一个简单的智能路由功能，根据问题的类型自动选择最合适的模型：

python

运行

def select_model(query):
    """根据问题类型自动选择最优模型"""
    # 先调用轻量级模型判断问题类型
    response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[
            {"role": "system", "content": "请判断用户问题属于以下哪种类型：简单问答、复杂推理、长文档分析、多模态。只返回类型名称。"},
            {"role": "user", "content": query}
        ]
    )
    
    query_type = response.choices[0].message.content.strip()
    
    model_mapping = {
        "简单问答": "gpt-4o-mini",
        "复杂推理": "gpt-5.4",
        "长文档分析": "claude-4.6-sonnet",
        "多模态": "gemini-3.1-pro-vision"
    }
    
    return model_mapping.get(query_type, "gpt-4o-mini")

def answer_question_advanced(query):
    """使用智能路由的问答功能"""
    model = select_model(query)
    print(f"自动选择模型：{model}")
    
    relevant_chunks = search_similar_chunks(query)
    context = "\n\n".join(relevant_chunks)
    
    prompt = f"""请基于以下上下文回答用户的问题。如果上下文中没有相关信息，请回答"抱歉，我在知识库中没有找到相关信息"。

上下文：
{context}

用户问题：{query}

回答："""
    
    response = client.chat.completions.create(
        model=model,
        messages=[
            {"role": "system", "content": "你是一个专业的企业知识库助手，回答要准确、简洁、有条理"},
            {"role": "user", "content": prompt}
        ],
        temperature=0.1,
        max_tokens=2000
    )
    
    return response.choices[0].message.content

通过智能路由，我们可以在保证回答质量的前提下，将平均 API 成本降低 50% 以上。

3.2 对话历史与多轮问答

为了支持多轮对话，我们需要保存对话历史，并在每次提问时将历史上下文一起传给模型：

python

运行

def answer_question_with_history(query, history=None):
    """支持多轮对话的问答功能"""
    if history is None:
        history = []
    
    model = select_model(query)
    relevant_chunks = search_similar_chunks(query)
    context = "\n\n".join(relevant_chunks)
    
    # 构建消息列表
    messages = [
        {"role": "system", "content": f"你是一个专业的企业知识库助手，回答要准确、简洁、有条理。请基于以下上下文回答用户的问题：\n\n{context}"}
    ]
    
    # 添加对话历史
    messages.extend(history)
    
    # 添加当前问题
    messages.append({"role": "user", "content": query})
    
    response = client.chat.completions.create(
        model=model,
        messages=messages,
        temperature=0.1,
        max_tokens=2000
    )
    
    answer = response.choices[0].message.content
    
    # 更新对话历史
    history.append({"role": "user", "content": query})
    history.append({"role": "assistant", "content": answer})
    
    return answer, history

# 多轮对话示例
if __name__ == "__main__":
    history = []
    
    query1 = "我们公司的产品有哪些主要功能？"
    answer1, history = answer_question_with_history(query1, history)
    print(f"问题1：{query1}")
    print(f"回答1：{answer1}\n")
    
    query2 = "其中哪个功能最受客户欢迎？"
    answer2, history = answer_question_with_history(query2, history)
    print(f"问题2：{query2}")
    print(f"回答2：{answer2}")

3.3 缓存机制优化性能

对于重复出现的问题，我们可以添加缓存机制，避免重复调用 API，大幅提升响应速度并降低成本：

python

运行

import hashlib
import json

# 简单的内存缓存
cache = {}

def get_cache_key(query, context):
    """生成缓存键"""
    key_data = json.dumps({"query": query, "context": context}, sort_keys=True)
    return hashlib.md5(key_data.encode()).hexdigest()

def answer_question_with_cache(query):
    """带缓存的问答功能"""
    relevant_chunks = search_similar_chunks(query)
    context = "\n\n".join(relevant_chunks)
    
    cache_key = get_cache_key(query, context)
    
    # 检查缓存
    if cache_key in cache:
        print("命中缓存")
        return cache[cache_key]
    
    # 未命中缓存，调用API
    model = select_model(query)
    prompt = f"""请基于以下上下文回答用户的问题。如果上下文中没有相关信息，请回答"抱歉，我在知识库中没有找到相关信息"。

上下文：
{context}

用户问题：{query}

回答："""
    
    response = client.chat.completions.create(
        model=model,
        messages=[
            {"role": "system", "content": "你是一个专业的企业知识库助手，回答要准确、简洁、有条理"},
            {"role": "user", "content": prompt}
        ],
        temperature=0.1,
        max_tokens=2000
    )
    
    answer = response.choices[0].message.content
    
    # 存入缓存
    cache[cache_key] = answer
    
    return answer

四、生产级部署与监控

在将 RAG 系统部署到生产环境之前，我们还需要考虑一些运维和监控方面的问题。

4.1 错误处理与重试

python

运行

from tenacity import retry, stop_after_attempt, wait_exponential, retry_if_exception_type
from openai import APIError, APIConnectionError, RateLimitError

@retry(
    stop=stop_after_attempt(3),
    wait=wait_exponential(multiplier=1, min=2, max=10),
    retry=retry_if_exception_type((APIConnectionError, RateLimitError))
)
def call_llm_with_retry(**kwargs):
    """带重试机制的LLM调用"""
    try:
        return client.chat.completions.create(**kwargs)
    except APIError as e:
        print(f"API错误: {e}")
        raise
    except Exception as e:
        print(f"未知错误: {e}")
        raise