《文献通考》服饰内容提取 · 操作日志
时间:2026-03-05
任务:提取《文献通考》全部服饰相关内容,整理分类输出3MD
输入:/home/z/my-project/upload/zhengshu/政书/文献通考.txt(33,360行,约14MB)
输出:/home/z/my-project/upload/政书重制output/文献通考/
操作流程
Step 1: 检查文件基本信息
wc -l → 33,360行
wc -c → 14,100,485字节(约14MB)
⚠️ 文件极大,严禁载入全文,必须grep定位+sed提取
Step 2: 定位服饰核心章节
rg -n '王礼考' → 找到王礼考22卷位置(卷一百六至卷一百二十七,行9709-11255)
rg -n '舆服|冠服|服章|车服' → 定位服饰专节
结果:
- 卷一百十二 王礼考七(行10144)○君臣冠冕服章
- 卷一百十三 王礼考八(行10252)○君臣冠冕服章(续)
- 卷一百十四 王礼考九(行10308)○后妃命妇以下首饰服章制度
- 卷一百十五 王礼考十(行10342)○圭璧符节玺印
Step 3: 按词库关键词grep(第1轮:核心服饰词)
Grep工具搜索:衮冕|通天冠|绛纱|朝服|公服|常服|赐服|服色|鱼袋|革带
命中分布:
- 王礼考7-9:核心服饰章节,命中密集
- 职官考(卷四八-六七):各官职冠服散见
- 学校考(卷四三-四六):孔子冕服/释奠冠服
- 物异考(约行31390):服妖专条
Step 4: 按词库关键词grep(第2轮:制度动作词)
Grep工具搜索:赐服|赐紫|赐绯|僭|逾制|品色|冠礼|笄礼
命中分布:
- 王礼考8:宋朝赐紫赐绯制度
- 物异考:服妖僭越记录
- 职官考:冠服品级制度
Step 5: 按需grep(第3轮:组合扩展词)
Grep工具搜索:折帛|和买|匹帛|蚕|桑|茧|缫|织
命中分布:
- 国用考/市籴考:绢帛税收、蚕桑经济
- 王礼考9:蚕服制度
Step 6: sed提取核心段落
sed -n '10144,10160p' → 王礼考7开头(秦汉服章)
sed -n '10252,10270p' → 王礼考8开头(宋朝冠服)
sed -n '10308,10320p' → 王礼考9开头(后妃服章)
sed -n '10342,10360p' → 王礼考10开头(圭璧符节)
sed -n '31390,31410p' → 服妖段落
sed -n '10095,10144p' → 先秦冕服制度(王礼考6末尾)
Step 7: 散见他考内容提取
rg -n '衮冕|通天冠|朝服|公服' → 职官考/学校考/宗庙考散见
提取:
- 行5157:孔子冕服九旒/十二旒争议
- 行5445:侍中冠武弁貂尾制度
- 行5616:文思院舆服供给
- 行5911:少府监裁造院服饰制造
- 行7903:泰一宫冠服制度
Step 8: 排除误命中(按词库排除规则)
| 关键词 | 误命中 | 处理 |
|---|---|---|
| 麻 | "麻制"=翰林诏书 | 排除 |
| 罗 | "锣"=乐器、"罗列"=排列 | 排除 |
| 带 | "带领""地带" | 排除,仅保留腰带义 |
| 冠 | "冠军""冠绝" | 排除,仅保留首服义 |
| 服 | "服药""服从""服丧" | 排除,仅保留服饰义 |
Step 9: 撰写3MD文件
- 文献通考_总结.md:分类总结(本文件配套)
- 文献通考_原文提取.md:核心原文摘录
- 文献通考_日志.md:本文件
关键发现
- 王礼考7-9为服饰主文献:约5000行,涵盖先秦至宋历代冠冕服章制度
- 马端临考证精审:多处按语辨析旧说,如"大裘衮衣同冕""十二章非周所减"
- 宋朝冠服记录最详:天子衮冕通天冠、群臣五梁至两梁冠、腰带笏鱼袋时服等
- 服妖为独特内容:物异考中从齐梁至宋的服饰异象占验
- 后妃服章有专章:王礼考九系统记录周制至汉晋后妃命妇首服六服
踩坑记录
- 文件14MB极大,rg -n 搜索超时需分批(限定行号范围awk过滤)
- 部分古字编码异常(如、等),sed提取时需容错
- 王礼考各卷单行极长(可达4000+字),sed即可完整提取
- 王礼考10(圭璧符节玺印)虽非纯服饰,但含佩绶制度,需关联收录
审核结果
- ✅ 核心服饰词(词库第一表)全部搜索
- ✅ 制度动作词(词库第二表)全部搜索
- ✅ 排除规则逐条执行(麻制/罗列/带领/冠军等误命中已排除)
- ✅ 每MD≤20KB
- ✅ 原文均从grep+sed提取,有明确行号对应