本篇教程适合:零基础小白+大神

房地产集团做项目分析,难点并不只是输出几张统计表,而是要先处理土地、项目、销售、成本、竞品等多张源表的清洗、关联和统计问题。面对千万级 XLSX/CSV 数据时,不同部门导出的字段口径、日期格式、金额单位往往并不统一,很多关键指标也需要先整理数据,才能真正完成项目利润、去化率和竞品对比分析。放在传统流程里,这类任务通常要借助 Python 做数据清洗、借助 SQL 做多表汇总,门槛高,落地也更复杂。

今天给大家介绍一种更简单的 AI 工作流方案:

不用写 Python,也不用懂 SQL,直接在本地电脑上完成千万级 XLSX/CSV 房地产数据的清洗、关联、统计分析和可视化展示。

通过提示词配置好AI工作流,可以生成统计结果表与可视化大盘,如下图:

image

统计出的结果表:

image

工作流涉及的主要内部技术:

  • 数据清洗技术 :通过内置的 Python + SQL 引擎,支持日期标准化、金额与面积字段的单位剥离和数值化转换、城市/区域文本去空格、项目类型与付款方式归一化、成本类别标准化、新增成交单价等派生清洗。
  • 数据建模技术 :通过 SQL 智能体 + 上下文建模技术,支持基于项目ID的多表关联、项目级汇总宽表构建、土地汇总表/销售汇总表/成本汇总表生成、项目全景表构建,以及去化率、项目利润、投入回报率、月均销售套数等指标计算。
  • 数据统计技术 :通过 SQL 智能体,支持按城市、项目类型、项目ID、户型等维度做分组聚合、汇总统计、TopN 排名、亏损项目筛选、区域竞品均价对比、综合指标计算。
  • 本地存储与分析技术 :通过 DuckDB + 本地磁盘,支持房地产多源 XLSX/CSV 数据在本地完成千万级数据存储、关联与分析,满足本地处理和数据安全要求。
  • 数据可视化技术 :通过 AI + HTML + ECharts 图表组件,自动对项目利润、销售表现、城市分布、项目排名、竞品价差等统计结果进行总结,并生成可视化图表与分析大盘。

通过对这些复杂技术的包装,你是一个零基础小白都能完成很复杂的千万级数据量的清洗统计分析了。

接下来我们就来看下这个案例实战:房地产集团项目分析(土地表 + 项目表 + 销售表 + 成本表 + 竞品表)

一、案例需求分析

这个案例的重点,是先对土地储备、项目基础信息、销售明细、项目成本、竞品楼盘等源表数据进行清洗和统一,再按项目ID完成多表关联,进一步开展项目盈利分析,最终输出可直接用于经营判断的结果表。

1、源表数据清洗流程

 数据清洗,指的是先把原始业务数据中格式不统一、不能直接计算、不能直接关联的内容整理成统一标准的数据,例如统一日期格式、处理面积和金额字段、规范城市和区域名称、归一化项目类型和付款方式、补充派生指标字段等。只有先把这些源表清洗到可直接使用的状态,后面的项目汇总、利润测算、城市统计、类型分析和竞品对比才能顺利展开。

这个案例需要清洗下面几张源表:

清洗土地储备表

  • "拿地日期"统一为 yyyy-MM-dd 格式
  • "土地面积""楼面价""土地总价"去除单位后缀和千分位逗号
  • "城市""区域"去除前后空格

清洗项目信息表

  • "开盘日期""预计交房日期"统一为 yyyy-MM-dd 格式
  • "可售面积"去除"㎡"后缀
  • "项目类型"归一化:"住宅""普通住宅""高层住宅"统一为"住宅"

清洗销售明细表

  • "成交日期"统一为 yyyy-MM-dd 格式
  • "成交总价"去除"万元""万"后缀
  • "建筑面积"去除"㎡"后缀
  • "付款方式"归一化:"按揭""贷款""按揭贷款"统一为"按揭","全款""一次性"统一为"全款"
  • 新增"成交单价" = 成交总价 / 建筑面积(万元/㎡)

清洗项目成本表

  • "实际金额""预算金额"去除"万元"后缀和千分位逗号
  • "成本类别"归一化:"建安""建安工程""建筑安装"统一为"建安工程"
  • 按"项目ID"汇总:总实际成本、总预算成本、总超支金额 = 总实际成本 - 总预算成本

清洗竞品楼盘表

  • "开盘日期"统一为 yyyy-MM-dd 格式
  • "均价"去除"元/㎡"后缀和千分位逗号
  • "城市""区域"去除前后空格

2、最终输出哪些统计结果表

完成土地储备表、项目信息表、销售明细表、项目成本表和竞品楼盘表这几类数据的清洗、汇总与关联之后,这个案例最后会形成 7 张比较有业务价值的结果表 :

  • 城市项目统计表 :按城市维度做汇总,统计各城市的项目数、总销售额、总利润、综合投入回报率和综合去化率,用来判断哪些城市销售规模更大、利润贡献更高、整体经营效率更好。
  • 项目类型统计表 :按项目类型维度做分组,统计项目数、综合成交均价、综合投入回报率和平均月均销售套数,用来比较不同类型项目在价格水平、销售节奏和盈利能力上的差异。
  • 项目投入回报率 Top10 表 :按投入回报率从高到低排序,筛出表现最好的项目,用来识别资金回报能力最强的项目,方便快速查看高收益项目样本。
  • 项目去化率 Top10 表 :按去化率从高到低排序,筛出销售转化最快的一批项目,用来观察哪些项目市场消化能力更强、销售推进更顺利。
  • 项目销售额 Top20 表 :按销售额从高到低排序,筛出销售贡献最高的核心项目,用来判断集团当前主要销售规模集中在哪些项目上。
  • 亏损项目明细表 :筛选项目利润小于 0 的项目,保留项目名称、城市、销售额、总土地总价、总实际成本、亏损金额等关键字段,方便进一步定位亏损项目,分析问题主要出在土地投入过高、成本超支,还是销售表现不足。
  • 竞品对比表 :将项目价格与所在城市、区域的竞品均价进行对比,输出本盘均价、区域竞品均价、价差和竞品数量等指标,用来判断项目在区域市场中的价格竞争力,以及面临的竞品压力大小。

3、业务数据涉及哪些源表

源表指的是直接来自业务环节沉淀下来的基础数据表,它们承接的是房地产项目经营过程中的原始记录,不是最后用于汇报的统计结果表,而是后续做数据清洗、字段统一、项目关联、利润测算和竞品对比分析的起点。

这次案例一共涉及 5 张核心源表 :

  • 土地储备表 :记录地块编号、城市、区域、拿地日期、土地面积、容积率、楼面价、土地总价、项目ID等信息,是项目拿地端的原始数据来源,后续可用于汇总项目地块数、总土地面积和总土地总价,并作为利润测算中的土地成本基础。
  • 项目信息表 :记录项目ID、项目名称、城市、区域、项目类型、开盘日期、预计交房日期、总套数、可售面积等信息,是项目主数据来源,用来补充项目基本属性,并作为后续构建项目全景表、计算去化率、月均销售套数等指标的核心基础表。
  • 销售明细表 :记录销售ID、项目ID、房号、户型、建筑面积、成交总价、成交日期、付款方式、置业顾问等信息,是项目销售端最关键的明细数据来源,后续可据此统计已售套数、销售总面积、销售总额、项目成交均价,以及进一步分析户型销售结构。
  • 项目成本表 :记录成本ID、项目ID、成本类别、预算金额、实际金额、发生日期等信息,用来反映项目在建设和经营过程中的成本投入情况,后续可按项目汇总总实际成本、总预算成本和总超支金额,并参与项目利润和投入回报率测算。
  • 竞品楼盘表 :记录竞品ID、竞品名称、城市、区域、均价、开盘日期、在售套数等信息,是外部市场对比分析的重要数据来源,后续可按城市和区域汇总竞品均价与竞品数量,并与项目数据结合,形成竞品对比分析结果。

二、提示词整理

在工作流配置之前,需要先把这次业务处理逻辑整理成一份提示词。

这一步的作用,就是先明确 清洗哪些表 、 怎么关联 、 输出哪些报表 。整理好之后,这份提示词就可以作为工作流配置输入,指导后续执行。

这里也需要说明一点: 提示词不一定非要写成固定模板 。只要表达得 清晰 、 明确 、 简洁 ,让人一眼能看懂要做什么、按什么顺序做、最后输出什么结果,就可以了。

本次案例整理出的提示词如下:

整体要求:生成房地产集团项目盈利分析报告:

第一步 - 清洗土地储备表:
1. "拿地日期"统一为 yyyy-MM-dd 格式
2. "土地面积""楼面价""土地总价"去除单位后缀和千分位逗号
3. "城市""区域"去除前后空格

第二步 - 清洗项目信息表:
1. "开盘日期""预计交房日期"统一为 yyyy-MM-dd 格式
2. "可售面积"去除"㎡"后缀
3. "项目类型"归一化:"住宅""普通住宅""高层住宅"统一为"住宅"

第三步 - 清洗销售明细表:
1. "成交日期"统一为 yyyy-MM-dd 格式
2. "成交总价"去除"万元""万"后缀
3. "建筑面积"去除"㎡"后缀
4. "付款方式"归一化:"按揭""贷款""按揭贷款"统一为"按揭","全款""一次性"统一为"全款"
5. 新增"成交单价" = 成交总价 / 建筑面积(万元/㎡)

第四步 - 清洗项目成本表:
1. "实际金额""预算金额"去除"万元"后缀和千分位逗号
2. "成本类别"归一化:"建安""建安工程""建筑安装"统一为"建安工程"
3. 按"项目ID"汇总:总实际成本、总预算成本、总超支金额 = 总实际成本 - 总预算成本

第五步 - 清洗竞品楼盘表:
1. "开盘日期"统一为 yyyy-MM-dd 格式
2. "均价"去除"元/㎡"后缀和千分位逗号
3. "城市""区域"去除前后空格

第六步 - 生成土地项目汇总表:
1. 土地储备表按"项目ID"汇总:地块数、总土地面积、总土地总价
2. 输出"土地项目汇总表"

第七步 - 生成项目销售汇总表:
1. 销售明细表按"项目ID"汇总:已售套数、销售总面积、销售总额
2. 新增"项目成交均价" = 销售总额 / 销售总面积
3. 输出"项目销售汇总表"

第八步 - 生成项目户型销售结构表:
1. 基于"销售明细表"
2. 按"项目ID"+"户型"分组,统计:销售套数、销售面积、销售总额、户型均价 = 销售总额 / 销售面积
3. 输出"项目户型销售结构表"

第九步 - 生成项目全景表:
1. 项目信息表 关联 土地项目汇总表(按"项目ID"匹配),再 关联 项目销售汇总表(按"项目ID"匹配),再 关联 成本汇总表(按"项目ID"匹配)
2. 新增"去化率" = 已售套数 / 总套数
3. 新增"项目利润" = 销售总额 - 总土地总价 - 总实际成本
4. 新增"投入回报率" = 项目利润 / (总土地总价 + 总实际成本)
5. 以销售明细表中的最大"成交日期"作为统计截止日期,新增"已开盘月数" = 从开盘日期到统计截止日期的自然月数,至少按1个月计算
6. 新增"月均销售套数" = 已售套数 / 已开盘月数

第十步 - 生成城市项目统计表:
1. 基于"项目全景表"
2. 按"城市"分组,统计:项目数、总销售额、总利润、综合投入回报率 = 总利润 / (总土地总价 + 总实际成本)、综合去化率 = 已售套数合计 / 总套数合计
3. 输出"城市项目统计表"

第十一步 - 生成项目类型统计表:
1. 基于"项目全景表"
2. 按"项目类型"分组,统计:项目数、综合成交均价 = 总销售额 / 总销售面积、综合投入回报率 = 总利润 / (总土地总价 + 总实际成本)、平均月均销售套数
3. 输出"项目类型统计表"

第十二步 - 生成项目排名表:
1. 基于"项目全景表"
2. 分别按"投入回报率"降序取Top10、按"去化率"降序取Top10、按"销售额"降序取Top20
3. 输出"项目投入回报率Top10表""项目去化率Top10表""项目销售额Top20表"

第十三步 - 生成亏损项目明细表:
1. 基于"项目全景表"
2. 筛选条件:项目利润 < 0
3. 输出"亏损项目明细表"(含项目名称、城市、销售额、总土地总价、总实际成本、亏损金额)

第十四步 - 生成竞品对比表:
1. 竞品楼盘表先按"城市"+"区域"分组,汇总区域竞品均价和竞品数量
2. 项目全景表 关联 区域竞品汇总表(按"城市"+"区域"匹配)
3. 新增"价差" = 项目成交均价 - 区域竞品均价
4. 输出"竞品对比表"(含项目名称、本盘均价、区域竞品均价、价差、竞品数量)

三、落地实现:工作流配置

 工作流是由多个智能体节点组成的,这个案例我们涉及到下面几个智能体:

  • 文件助手: 获取磁盘的文件或目录。
  • 内容清洗器: 专门用来做数据清洗的,只要输入清洗描述就可以对文件数据进行任意整理。
  • 数据入库:将文件数据转成本地数据库,用于后面作SQL统计。
  • 表统计: 对本地数据库表进行SQL统计,不需要写sql,只需要统计的描述就可以了。
  • 报表导出: 对数据库表进行导出,支持导出csv,xlsx,HTML(可视化显示) 。

根据这几个智能体还有上面描述的提示词,我们就可以完成工作流的配置了。

1. 配置文件助手

”文件助手“ 可以用来获取磁盘上任意的一个或多个文件。打开DT-Bot工作流, 配置一个 “文件助手”智能体节点,描述原始数据文件位置,如图:

DT-Bot工作流,解决方案获取可以看文章末尾名片。

image

根据提示词描述,获取到了”土地储备表.csv“原始表格,因为我们先对这个表进行清洗,这个智能体就会输出 记录表.csv,给后面智能体使用。

2. 配置内容清洗

“内容清洗器” 很强大,内部是通过python+单表sql执行引擎处理的, 可以对文件进行任意数据整理,我们直接输入清洗提示词就可以了, 如图:

image

3. 数据入库

清洗节点智能体任然返回的是文件,后面需要统计,还必须得入到本地数据库里面,如图:

image

无需配置任何提示词, 入库后,就是在本地开启数据库,并且生成了一张表,表名就是前面的文件名, 支持批量文件入库。

同理,所有的源表清洗都是这个套路。我就不一一配置了。 

4. 表统计

接下来我们需要进行表统计,直接用“表统计”智能体就好了, 也是直接输入提示词描述,工作流内部会生成相关sql进行统计(全程不用你操心),下面是我配置完成的图:

image

5. 导出报表

表统计后,只生成了结果表到数据库里面,还需要从数据库里面下载出来,这是要用“报表导出”智能体,可以指定哪些表,下载类型(支持CSV+HTML),如下图:

image

配置完成后,我们发布工作流执行就可以了。

四、结尾语

这个案例的价值,不只是生成了几张统计结果表,更重要的是把原本分散、繁琐的房地产项目分析流程,整理成了一套更清晰的处理路径。先做源表清洗,再做汇总关联,最后完成统计分析,整个过程更顺,也更容易理解。

对于没有技术背景的业务人员来说,这种方式会更容易上手。不需要自己写 Python,也不用自己写 SQL,只要按照工作流逐步推进,就能把土地、项目、销售、成本、竞品等多张数据表整理清楚,并完成常见的项目盈利分析、城市统计分析和竞品对比分析。

Logo

一站式 AI 云服务平台

更多推荐