RAGFlow 入门指南：解锁你的智能知识库引擎，建议收藏！！

RAGFlow 是一款开源的 RAG（Retrieval-Augmented Generation，检索增强生成）引擎，它的核心使命是帮助你利用深度文档理解技术，构建出高质量、高可靠性的智能知识库。无论你是大型企业还是个人开发者，RAGFlow 都能为你提供一套精简而强大的 RAG 工作流程，让你的 LLM 能够真正理解和利用各种复杂格式的数据，给出令人信服的回答并提供清晰的引用来源。

模型优化师

1167人浏览 · 2025-05-26 11:37:28

模型优化师 · 2025-05-26 11:37:28 发布

前言

你是否曾被大语言模型（LLM）的“一本正经地胡说八道”（幻觉）所困扰？你是否希望 LLM 能够基于你自己的专业文档给出可靠且有据可查的答案？那么，RAGFlow 就是你一直在寻找的答案！

在这里插入图片描述

想象一下，你的知识库拥有以下超能力：

智能文档处理大师： 不再担心“垃圾进垃圾出”！RAGFlow 能像一位经验丰富的学者一样，深入解析各种文档，包括 PDF、Word、PPT、Excel、图片甚至扫描件，提取出隐藏在复杂结构中的宝贵信息，确保你的输入数据是高质量的。
高可靠知识检索专家： 告别“一本正经地胡说八道”！RAGFlow 采用多路召回机制和融合重排序技术，像一位资深的图书馆员一样，从海量知识中精准找到与用户问题最相关的部分，大幅减少 AI 的“幻觉”。更棒的是，它还能告诉你答案的来源，让你明明白白。
模型应用变形金刚： 灵活应对各种场景需求！RAGFlow 支持多种主流 LLM 和向量模型，你可以根据自己的需求自由选择和切换。它还提供了丰富的参数配置和自定义提示工程，让你可以像一位调酒师一样，为不同的场景调制出最完美的模型应用方案。
企业级协作好帮手： 从个人用到团队协作，无缝切换！RAGFlow 内置了完善的团队协作机制，支持多角色权限管理，让你的团队可以高效地共同构建和维护知识库。同时，它还提供了标准化的 API 接口，方便与你现有的企业系统集成。
完整 RAG 工作流管家： 一站式解决所有问题！RAGFlow 提供从文档上传、处理到检索生成的完整自动化流程，你还可以随时进行人工干预和调整，并实时监控系统状态，就像一位贴心的管家，帮你打理好 RAG 应用的每一个环节。

RAGFlow 核心能力和主要功能

1.核心能力

1.1. 智能文档处理系统

核心价值： 解决"垃圾进垃圾出"问题，实现"质量输入，质量输出"

深度文档解析：超越普通文本提取，能够识别并解析文档中的图像、表格和复杂结构

基于深度文档理解[1]，能够从各类复杂格式的非结构化数据中提取真知灼见。
使用 DeepDoc 解析 PDF 或其他文件的示例？参阅 rag/app 文件夹下的 Python 文件。

多格式支持：支持丰富的文件类型，包括 Word 文档、PPT、excel 表格、txt 文件、图片、PDF、影印件、复印件、结构化数据、网页等，适应企业多样化数据
模板化分块策略：采用语义感知的分块方法，保留文档结构和上下文关系
文本切片可视化：多种文本模板可供选择，文本切片过程可视化，支持手动调整

1.2. 高可靠知识检索框架

核心价值： 大幅减少AI回答中的"幻觉"问题

多路召回机制：结合多种检索策略，提高知识覆盖面
融合重排序技术：优化检索结果的相关性排序
可视化知识溯源：提供答案的关键引用快照和原始来源链接
透明的检索过程：用户可查看系统如何筛选和利用知识

1.3. 灵活的模型应用架构

核心价值： 适应不同场景需求，提供定制化能力

模型灵活配置：支持多种大语言模型和向量模型的配置和切换
参数化控制：提供细粒度的模型参数调整能力
自定义提示工程：支持针对特定应用场景的提示词优化
智能体扩展：通过可配置的智能体实现复杂任务处理

1.4. 企业级协作与集成平台

核心价值： 从个人应用到企业级系统的无缝扩展

团队协作机制：支持多角色协作，包括管理员、编辑者和查看者权限体系
系统健康管理：提供版本升级和系统诊断功能
API接口生态：标准化API设计便于与企业现有系统集成
安全与合规：注重数据安全和访问控制

1.5. 完整RAG工作流

核心价值： 提供端到端的RAG应用构建体验

自动化处理管道：从文档上传、处理到检索生成的完整流程
交互式调优：支持人工干预和调整各环节参数
可视化监控：直观展示处理状态和系统性能
场景适配能力：适用于知识密集型、需要高可信度的专业领域应用

2. 主要功能

2.1. 数据集管理

数据集是 RAG（检索增强生成）应用的基础，用于存储和管理知识库内容。

文件上传：支持多种格式文件上传（PDF、docx、txt等）
文件处理：自动进行文本提取、分块和向量化
文件组织：可以创建文件夹进行分类管理
批量操作：支持批量上传和管理文件

2.2. 搜索/聊天功能

聊天是 RAG 应用的核心交互方式，让用户可以基于知识库进行问答。

知识库聊天：基于上传的数据集进行问答交互
多轮对话：支持上下文理解和多轮对话
实时应答：系统会实时从知识库中检索相关信息进行回答

AI 搜索和聊天的主要区别是什么？

AI 搜索：这是使用预定义检索策略（加权关键词相似度和加权向量相似度的混合搜索）和系统默认聊天模型的单轮 AI 对话。它不涉及知识图谱、自动关键词或自动问题等高级 RAG 策略。检索到的文本块将列在聊天模型响应的下方。
AI 聊天：这是多轮 AI 对话，您可以定义检索策略（在混合搜索中可以使用加权重排序分数替代加权向量相似度）并选择聊天模型。在 AI 聊天中，您可以为特定案例配置高级 RAG 策略，如知识图谱、自动关键词和自动问题。检索到的文本块不会与答案一起显示。

在调试聊天助手时，您可以使用 AI 搜索作为参考来验证模型设置和检索策略。

2.3. 模型管理

模型是 RAG 系统的核心组件，负责理解用户问题和生成回答。RagFlow 支持多种模型管理功能：

多模型支持：支持主流大语言模型（如GPT系列、Claude系列等）
模型配置：可以配置模型参数如温度、最大生成长度等
自定义提示词：可以设定系统提示以优化模型行为

2.4. 智能体管理

智能体是能够执行特定任务的自动化组件，可增强RAG系统的功能。

任务自动化：智能体可以执行特定任务，如信息检索、数据处理等
工具集成：可以集成各种工具扩展智能体能力
自定义行为：可以通过提示词和配置自定义智能体行为

2.5. 系统管理

团队成员管理

RagFlow 提供了完善的团队协作功能：

成员邀请：通过邮件邀请新成员加入
角色管理：支持管理员、编辑者、查看者三种角色
权限控制：基于角色的细粒度权限管理

系统升级与健康检查

版本升级：提供自动升级和手动升级两种方式
健康检查：可以运行系统健康检查确保所有组件正常运行
问题排查：提供常见问题的排查和解决指南

快速上手：RAGFlow 部署初体验

想要体验 RAGFlow 的强大功能吗？最便捷的方式就是使用 Docker 镜像启动服务。

准备工作：

在开始之前，请确保你的系统满足以下条件：

CPU： 至少 4 核
内存： 至少 16 GB
磁盘： 至少 50 GB
Docker： 版本 >= 24.0.0
Docker Compose： 版本 >= v2.26.1

启动你的 RAGFlow 服务：

调整内核参数： 确保 vm.max_map_count 不小于 262144。你可以通过命令 sysctl vm.max_map_count 查看当前值，如果小于该值，可以使用 sudo sysctl -w vm.max_map_count=262144 临时修改，并建议修改 /etc/sysctl.conf 文件永久生效。

克隆代码仓库：

git clone https://github.com/infiniflow/ragflow.git
cd ragflow

进入 Docker 目录：
```
cd docker
```
启动服务：

如果你遇到 Docker 镜像下载缓慢的问题，可以尝试修改docker/.env文件中的RAGFLOW_IMAGE变量，选择华为云或阿里云的镜像地址。

• 使用 CPU：

docker compose -f docker-compose.yml up -d

• 使用 GPU 加速（如果你的机器支持）：

docker compose -f docker-compose-gpu.yml up -d

检查服务状态：等待一段时间后，使用以下命令查看服务是否成功启动：

docker logs -f ragflow-server

看到类似如下的欢迎信息，就说明 RAGFlow 服务已经成功运行起来了！

    ____    ___     ______ ______ __
   / __ \  /   |   / ____// ____// /____  _     __
  / /_/ / / /| |  / / __ / /_   / // __ \| | /| / /
 / _, _/ / ___ | / /_/ // __/  / // /_/ /| |/ |/ /
/_/ |_|/_/  |_|\____//_/    /_/ \____/ |__/|__/

 * Running on all addresses (0.0.0.0)

登录 RAGFlow： 在浏览器中输入你的服务器 IP 地址（默认端口是 80，无需输入）。

Tip

首次登录后，你可能需要系统配置中配置你想要使用的大语言模型（LLM factory）以及对应的 API Key。

在使用 RAGFlow 的过程中，遇到问题是很正常的。以下是一些常用的调试方法和技巧：

查看 Docker 日志： 使用 docker logs -f <container_name> 命令查看相关容器的日志输出，例如 docker logs -f ragflow-server 可以查看后端服务的日志，帮助你了解系统运行状态和错误信息。
利用 Kibana 查询 Elasticsearch 数据： 如果你选择 Elasticsearch 作为文档引擎，可以通过 Kibana (默认地址 http://<your_server_ip>:6601) 查看和查询向量数据，了解文档是否被正确处理和索引。登录 Kibana 的账号是 rag_flow，密码是 infini_rag_flow。

最后的最后

感谢你们的阅读和喜欢，作为一位在一线互联网行业奋斗多年的老兵，我深知在这个瞬息万变的技术领域中，持续学习和进步的重要性。

为了帮助更多热爱技术、渴望成长的朋友，我特别整理了一份涵盖大模型领域的宝贵资料集。

这些资料不仅是我多年积累的心血结晶，也是我在行业一线实战经验的总结。

这些学习资料不仅深入浅出，而且非常实用，让大家系统而高效地掌握AI大模型的各个知识点。如果你愿意花时间沉下心来学习，相信它们一定能为你提供实质性的帮助。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

大模型知识脑图

为了成为更好的 AI大模型开发者，这里为大家提供了总的路线图。它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平，开拓视野，掌握核心技术，提高解决问题的能力，同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说，阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作，下面这些面试题都是总结当前最新、最热、最高频的面试题，并且每道题都有详细的答案，面试前刷完这套面试题资料，小小offer，不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

EazyDevelop社区

一站式 AI 云服务平台

更多推荐

【亲测免费】探索Coder：一款强大的云端开发环境与协作平台

是一个基于云技术的开发者工具，它提供了一个安全、高效的在线代码编辑器和协作平台，让开发者可以在任何地方、任何设备上进行编码工作，并实现团队间的无缝协作。本文将深入探讨其技术特性、应用场景及亮点，以期吸引更多用户加入到这个便捷的开发世界中。## 技术分析1. **基于容器的技术**：Coder 基于Docker容器构建，每个开发环境都是独立的隔离实例，确保了软件依赖的一致性，避免了“我的环境

EazyDevelop社区

从“教程地狱“到“氛围编程地狱“：为什么Cursor和ChatGPT正在毁掉编程学习

EazyDevelop社区

【亲测免费】探秘OpenAI Cookbook：一个强大的人工智能实验平台

是一个开源项目，由OpenAI团队倾力打造，旨在为开发者和研究者提供一个实践和探索人工智能（AI）模型的互动平台。这个“食谱”集合了各种AI模型的应用示例，覆盖自然语言处理、图像识别、强化学习等多个领域，让你轻松上手并理解复杂的AI算法。## 技术分析OpenAI Cookbook基于Gitcode托管，采用现代Web技术构建，包括：- **React**: 前端框架，用于构建用户界面