数据接入与标准化:历史材料价格Excel字段统一处理方案

By 15284166296, 16 April, 2026
角色
user
content

我需要完成下面这五道问答题的提示词:三、问答题

说明:以下 5 题请按电脑作答方式完整书写,围绕 “问题理解 - 方案设计 - 实施步骤 - 风险与异常处理 - 验收方式” 展开,要求写出清晰、可执行的解决方案,能够真的按照这个步骤做出可落地的产品。

16.【数据接入与标准化】

公司各部门会提交历史材料价格 Excel,字段格式不完全统一,有些写 “钢筋 HRB400 Φ18”,有些写 “HRB400 18 螺纹钢”,有些地区写 “德阳”,有些写 “德阳市旌阳区”。请设计一个从 Excel 导入到标准化入库的完整方案,要求最终能进入结构化价格库,并能支撑后续 RAG 检索。

必须覆盖:

导入流程

字段映射

材料名称标准化

规格拆分

单位标准化

地区标准化

异常值处理

入库前校验

原始数据留痕

17.【RAG 链路设计】

请基于 “德阳 2026-03 C30 商品混凝土多少钱” 这个问题,设计一条完整的查询 -> 检索 -> 生成链路。要求写清楚系统如何识别查询字段、如何做元数据过滤、如何做混合检索、如何重排、如何生成结构化答案,以及如何返回引用依据。

必须覆盖:

Query parsing

查询重写

metadata filter

BM25 + 向量召回

rerank

structured output / JSON

source citation

18.【非结构化文件入库】

现在除了 Excel,还会收到 PDF 报价单、Word 询价说明、截图、历史项目附件。请设计一个非结构化资料入库到知识库的方案,并说明如何与结构化价格表建立关联。

必须覆盖:

文件分类与存储

文本提取方式

文档分块策略

元数据设计

source_file 与 price_fact /material_knowledge 的关联方式

如何保证可追溯

如何处理 “有附件但字段不全” 的情况

19.【Demo 落地与部署】

假设要求在 1-2 周内做出 Demo,支持 500-800 条价格记录、10 个典型查询案例、一个简单问答页面或接口。请给出你的技术落地方案,包括前后端、数据库、向量库、模型调用、部署方式和验收方式。

必须覆盖:

最小可行技术栈

数据库选型

向量库选型

后端接口设计

前端或管理页设计

Docker / Linux / 云服务器部署

日志与错误排查

Demo 验收指标

20.【Vibe Coding 实战题】

请结合 Cursor 或 VS Code + Cline,说明如果让你来开发这个项目中的 “Excel 批量导入 + 标准化校验 + 入库接口” 模块,你会如何使用 AI 编程工具提升效率,同时避免它生成错误代码或破坏原有工程结构。

必须覆盖:

你会如何拆任务给 AI

你会如何写 prompt / 约束

你会如何让 AI 先读现有项目结构

你会如何校验生成代码

如果 AI 改坏代码,你怎么回滚

如何防止 AI 一次性生成过大改动

如何让 AI 补测试或自检脚本

total_tokens
0
uiParsing
关闭