十朝诗乘·服饰提取日志
基本信息
- 书名:十朝诗乘
- 文件路径:/home/z/my-project/upload/诗集/诗集/十朝诗乘.txt
- 文件大小:2668行,2,023,363字节(极长行,每行可达5000+字)
- 处理时间:2026-03-04
处理流程
第1步:文件检查
wc -l -c 十朝诗乘.txt
# 结果:2668行,2023363字节
# 特殊情况:极长行文本(行均758字节),为散文体诗话,非一般分行诗集
第2步:逐轮grep检索
第1轮:核心词
rg -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|佩玉|带|绶|笏|舄|履|靴|袍|衫|裙|褶|袂|襟|领' 十朝诗乘.txt | wc -l
# 结果:753行匹配
第2轮:材质
rg -n '锦|绮|绢|帛|丝|缎|绫|罗|纱|缟|绸|葛|麻|褐|布|绵|茧' 十朝诗乘.txt | wc -l
# 结果:600行匹配
第3轮:色彩纹饰
rg -n '紫|绯|朱|赭|青|绿|白|玄|黄|丹|素|绣|纹|章|黼|黻|华' 十朝诗乘.txt | wc -l
# 结果:1089行匹配(颜色词大量为非服饰用法)
第4轮:制度
rg -n '服[饰妆办]|赐服|赐紫|赐绯|品色|舆服|章服|冠服|朝服|祭服|丧服|常服|加冠|衮[服衣冕]' 十朝诗乘.txt | wc -l
# 结果:21行匹配——精准度极高,制度词命中率最高
关键发现:
- L80:章服未定时期记载(清初冠服制度)
- L814:军机处章京服制详述
- L1417/1865:八分制度(宗室服饰特权)
- L1113:朝珠制度沿革
- L1183:貂服限制令
第5轮:配饰
rg -n '簪|钗|钿|珰|珥|环|镯|鱼袋|幞头|云肩|霞帔|蔽膝|芾|韠|佩鱼' 十朝诗乘.txt | wc -l
# 结果:182行匹配
第3步:高价值组合检索
由于本书为散文体,行极长,grep输出单行可达数千字,因此采用更精确的组合词搜索:
章服|冠服|赐衣|赐袍|朝服|朝衣→ 清代官服制度锦袍|紫袍|绯袍|貂裘|狐裘→ 具体服饰团龙|补服|开气袍|紫缰|朝珠|帽罩→ 品级标识花翎|黄马褂|黄褂→ 清代特有赐服八分|宝石顶→ 宗室特权窄袖|短衣|罗襦|绣罗|珠帽|貂袍→ 满蒙联姻服饰
第4步:关键行上下文提取
使用sed提取关键行(因每行极长,直接读取grep结果即可获取完整上下文)。
第5步:筛选与分类
筛选原则:
- 优先收录制度性服饰记载(品色、赐服、冠服制度等)
- 重视散文注释中的服饰制度细节
- 排除纯色彩词非服饰用法
- 保留殉节服饰、薙发易服等历史事件相关记载
- 特别关注清代特有服饰制度(花翎、黄马褂、八分等)
第6步:对抗式审查
- 审: 第3轮1089行匹配过多 → 改: 仅保留与服饰制度明确关联者
- 审: 本书记载大量非服饰制度内容(军事、政治等) → 改: 聚焦服饰制度与品色等级
- 审: 散文体导致grep输出过长 → 改: 从长行中提取关键诗句和注释
- 审: "服"字匹配大量非服饰用法("服官""服刑"等) → 改: 仅保留"朝服""章服""冠服"等明确服饰词
- 审: 部分行因编码问题grep超时 → 改: 使用LC_ALL=C确保检索正常
统计
- 有效服饰相关片段:约45条(因散文体,每条信息量远超一般诗集)
- 服饰制度最丰富的条目:L80(章服制度)、L814(军机处服制)、L1417/1865(八分制度)、L1095(花翎黄马褂)、L1183(貂服制度)
- 本书服饰内容的独特价值:清代官服制度沿革的系统性记载,为一般诗集所无