《万姓统谱》服饰内容提取操作日志
基本信息
- 文件路径:/home/z/my-project/upload/part1_extracted/万姓统谱.txt
- 文件大小:4,893,868 字节(约4.9MB)
- 文件行数:40,218行
- 编码:UTF-8(含CRLF换行符)
- 文件判定:超过500KB,禁止全文载入LLM上下文
Step 0:文件预检
命令:
wc -c /home/z/my-project/upload/part1_extracted/万姓统谱.txt
wc -l /home/z/my-project/upload/part1_extracted/万姓统谱.txt
file /home/z/my-project/upload/part1_extracted/万姓统谱.txt
结果:
- 文件大小:4,893,868字节 → 超过500KB阈值,必须使用grep提取
- 行数:40,218行
- 编码:UTF-8 text with CRLF
Step 1:第一轮grep——核心词
关键词:衣、裳、冠、冕、巾、帽、袍、衫、裙、裘、带、佩、履、舄、靴
命令:
LC_ALL=C rg -n "关键词" 万姓统谱.txt
匹配统计:
| 关键词 | 匹配行数 | 备注 |
|--------|---------|------|
| 衣 | 572 | 含人名"衣免仁"、机构"锦衣卫"等非服饰用法 |
| 裳 | 32 | 含人名"黄裳""杜黄裳"等 |
| 冠 | 537 | 含"弱冠""冠军"等非服饰用法,需筛选 |
| 冕 | 60 | 含人名"蒋冕""裴冕"等 |
| 巾 | 61 | 含地名等 |
| 帽 | 5 | 较少 |
| 袍 | 32 | 较精准 |
| 衫 | 5 | 较少 |
| 裙 | 8 | 较少 |
| 裘 | 55 | 含姓氏"裘万顷"等 |
| 带 | 132 | 含"解带""束带""衣不解带"等 |
| 佩 | 54 | 含"佩服""佩印"等 |
| 履 | 195 | 含"操履""履职"等非服饰用法 |
| 舄 | 2 | 极少 |
| 靴 | 3 | 极少 |
关键发现:大量匹配为人名、地名、引申义,需二次筛选。
Step 2:第二轮grep——制度词
关键词:服色、舆服、冠服、章服、朝服、祭服、丧服、吉服、常服、公服
命令:
for kw in 服色 舆服 冠服 章服 朝服 祭服 丧服 吉服 常服 公服; do
echo "=== $kw ===" && LC_ALL=C rg -n "$kw" 万姓统谱.txt
done
匹配统计:
| 关键词 | 匹配行数 | 关键行号 |
|--------|---------|---------|
| 服色 | 6 | 6718(崔仲方议服色)、35748(公孙臣) |
| 舆服 | 3 | 14559(王寀撰舆服志)、23153、33673 |
| 冠服 | 3 | 4377(赐冠服)、15219、15429 |
| 章服 | 7 | 9931(赐紫章服)、14431、18793(颁章服) |
| 朝服 | 12 | 2619、8558、13166、16104、21262、23652等 |
| 祭服 | 1 | 26617(柳庄不释祭服) |
| 丧服 | 12 | 6742(丧服图)、8535(丧服经)、14042等 |
| 吉服 | 2 | 27636、36078 |
| 常服 | 0 | 无匹配 |
| 公服 | 3 | 11469、15042、24440 |
Step 3:第三轮grep——材质词
关键词:丝、帛、绢、锦、绮、绫、罗、缎、绸、缂丝、葛、麻、布、褐
匹配统计:
| 关键词 | 匹配行数 | 有效服饰记录 |
|--------|---------|-------------|
| 帛 | 156 | 约8条与赐帛相关 |
| 绢 | 37 | 约5条与赐绢相关 |
| 锦 | 135 | 含"锦衣"机构名,约5条服饰相关 |
| 绮 | 52 | 约4条与绮服相关 |
| 绫 | 3 | 5320、25983、28239 |
| 罗 | 325 | 绝大多数为姓氏/地名,约2条服饰相关 |
| 缎 | 0 | 无匹配 |
| 绸 | 2 | 非服饰用法 |
| 缂丝 | 0 | 无匹配 |
| 葛 | 188 | 含大量姓氏地名,约2条服饰(葛巾) |
| 麻 | 93 | 含大量地名,约2条服饰(衰麻) |
| 布 | 702 | 含"布衣""布政使"等,约8条服饰相关 |
| 褐 | 94 | 含"释褐""解褐"等入仕用语,约3条服饰(布褐) |
Step 4:第四轮grep——品色词
关键词:紫袍、绯袍、绿袍、赐紫、赐绯、鱼袋、笏、幞头、金带、玉带
匹配统计:
| 关键词 | 匹配行数 | 关键行号 |
|--------|---------|---------|
| 紫袍 | 1 | 11348(金狮子带紫袍) |
| 绯袍 | 0 | 无匹配 |
| 绿袍 | 1 | 2591(梦绿袍判官) |
| 赐紫 | 8 | 2657、5631、9931、15064、20574等 |
| 赐绯 | 20 | 1938、5301、6230、10990等 |
| 鱼袋 | 14 | 与赐紫赐绯高度重叠 |
| 笏 | 25 | 含"袍笏""搢笏""秉笏"等 |
| 幞头 | 1 | 25846(幞头山地名) |
| 金带 | 9 | 4954、5530、6882、7307等 |
| 玉带 | 6 | 12172、12920、21995、30476、32864、35692 |
Step 5:第五轮grep——配饰词
关键词:旂、旗、章、珮、环、玦、簪、钗、钿、翠、珠、玉
匹配统计:
| 关键词 | 匹配行数 | 有效服饰记录 |
|--------|---------|-------------|
| 簪 | 4 | 13357(簪珥)、15450、33783、34265 |
| 钗 | 2 | 7380(白金钗股)、19150(荆钗布裙) |
| 钿 | 0 | 无匹配 |
| 翠 | 27 | 约2条服饰(佩金翠、翠装) |
| 珠 | 83 | 多为珠宝泛指,约3条服饰 |
| 玉 | 487 | 大量为人名/器物,约5条服饰(玉带等) |
| 珮 | 0 | 无匹配 |
| 环 | 120 | 多为姓氏/地理,约2条服饰 |
| 玦 | 0 | 无匹配 |
Step 6:复合词精准提取
命令:
rg -n "衮冕|轩冕|衣冠|冠服|服色|章服|朝服|祭服|丧服|袍笏|赐紫|赐绯|鱼袋|金带|玉带|貂裘|锦袍|绨袍|布衣|布褐|布袍|角巾|葛巾|鹤氅|鹿裘|羊裘|豸衣|蟒衣|龙衮|道衣|裂衣|敝衣|衣裳|衣不解带|襃衣博带|冠带|挂冠|束带|释褐" 万姓统谱.txt
结果:提取到约120条精准匹配,经人工筛选得到87条有效服饰记录。
Step 7:上下文提取
对关键命中行使用 sed -n '起始行,结束行p' 提取上下文(前后各扩5行),确认语境无歧义。
示例:
sed -n '455,465p' 万姓统谱.txt # 验证"轩冕之服"
sed -n '6714,6724p' 万姓统谱.txt # 验证"议正朔服色"
sed -n '20844,20854p' 万姓统谱.txt # 验证"衮冕六服"
Step 8:对抗式学术审查
方法:从整理出的87条记录中抽取30条关键引文,逐一用 rg -n "关键片段" 验证。
验证命令示例:
rg -n "轩冕之服" 万姓统谱.txt # 行459 ✅
rg -n "制衮冕六服" 万姓统谱.txt # 行20848 ✅
rg -n "正朔服色" 万姓统谱.txt # 行6718 ✅
rg -n "赐紫章服" 万姓统谱.txt # 行9931 ✅
rg -n "朝服不可改也" 万姓统谱.txt # 行16104 ✅
rg -n "赐范睢绨袍" 万姓统谱.txt # 行5899 ✅
rg -n "品官服色" 万姓统谱.txt # 行29436 ✅
结果:30/30全部验证通过,无编造、无篡改。
Step 9:分类整理与文档输出
将87条有效服饰记录按10个类别整理,产出三篇MD文档:
1. 万姓统谱_总结.md — 结构化综述+审查
2. 万姓统谱_日志.md — 本文件
3. 万姓统谱_原文提取.md — 带行号原始片段
总结
- 关键词覆盖:5轮共56个关键词
- 总匹配行数:约3,800行(含大量非服饰用法)
- 有效服饰记录:87条
- 最大难点:大量人名、地名、引申义干扰(如"布"702命中中仅8条服饰相关)
- 最显著发现:该书作为姓氏谱牒之书,服饰记载依附于人物传记,朝服殉节与赐服制度为两大突出主题