十朝诗乘·服饰提取日志

基本信息

处理流程

第1步:文件检查

wc -l -c 十朝诗乘.txt
# 结果:2668行,2023363字节
# 特殊情况:极长行文本(行均758字节),为散文体诗话,非一般分行诗集

第2步:逐轮grep检索

第1轮:核心词

rg -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|佩玉|带|绶|笏|舄|履|靴|袍|衫|裙|褶|袂|襟|领' 十朝诗乘.txt | wc -l
# 结果:753行匹配

第2轮:材质

rg -n '锦|绮|绢|帛|丝|缎|绫|罗|纱|缟|绸|葛|麻|褐|布|绵|茧' 十朝诗乘.txt | wc -l
# 结果:600行匹配

第3轮:色彩纹饰

rg -n '紫|绯|朱|赭|青|绿|白|玄|黄|丹|素|绣|纹|章|黼|黻|华' 十朝诗乘.txt | wc -l
# 结果:1089行匹配(颜色词大量为非服饰用法)

第4轮:制度

rg -n '服[饰妆办]|赐服|赐紫|赐绯|品色|舆服|章服|冠服|朝服|祭服|丧服|常服|加冠|衮[服衣冕]' 十朝诗乘.txt | wc -l
# 结果:21行匹配——精准度极高,制度词命中率最高

关键发现:

第5轮:配饰

rg -n '簪|钗|钿|珰|珥|环|镯|鱼袋|幞头|云肩|霞帔|蔽膝|芾|韠|佩鱼' 十朝诗乘.txt | wc -l
# 结果:182行匹配

第3步:高价值组合检索

由于本书为散文体,行极长,grep输出单行可达数千字,因此采用更精确的组合词搜索:

第4步:关键行上下文提取

使用sed提取关键行(因每行极长,直接读取grep结果即可获取完整上下文)。

第5步:筛选与分类

筛选原则:

  1. 优先收录制度性服饰记载(品色、赐服、冠服制度等)
  2. 重视散文注释中的服饰制度细节
  3. 排除纯色彩词非服饰用法
  4. 保留殉节服饰、薙发易服等历史事件相关记载
  5. 特别关注清代特有服饰制度(花翎、黄马褂、八分等)

第6步:对抗式审查

  1. 审: 第3轮1089行匹配过多 → 改: 仅保留与服饰制度明确关联者
  2. 审: 本书记载大量非服饰制度内容(军事、政治等) → 改: 聚焦服饰制度与品色等级
  3. 审: 散文体导致grep输出过长 → 改: 从长行中提取关键诗句和注释
  4. 审: "服"字匹配大量非服饰用法("服官""服刑"等) → 改: 仅保留"朝服""章服""冠服"等明确服饰词
  5. 审: 部分行因编码问题grep超时 → 改: 使用LC_ALL=C确保检索正常

统计