十八家诗抄·服饰提取日志

基本信息

处理流程

第1步:文件检查

wc -l -c 十八家诗抄.txt
# 结果:22347行,1881591字节(大文件,严禁整本载入)

第2步:逐轮grep检索

第1轮:核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领)

rg -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|佩玉|带|绶|笏|舄|履|靴|袍|衫|裙|褶|袂|襟|领' 十八家诗抄.txt | wc -l
# 结果:1760行匹配(大量非服饰用法的"衣/带/履/领"等需人工筛选)

第2轮:材质(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧)

rg -n '锦|绮|绢|帛|丝|缎|绫|罗|纱|缟|绸|葛|麻|褐|布|绵|茧' 十八家诗抄.txt | wc -l
# 结果:1190行匹配

第3轮:色彩纹饰(紫绯朱赭青绿白玄黄丹素绣纹章黼黻华)

rg -n '紫|绯|朱|赭|青|绿|白|玄|黄|丹|素|绣|纹|章|黼|黻|华' 十八家诗抄.txt | wc -l
# 结果:5043行匹配(数量过多,大量非服饰用法的颜色词需结合上下文筛选)

第4轮:制度(服赐服赐紫赐绯品色舆服章服冠服朝服祭服丧服常服加冠衮)

rg -n '服[饰妆办]|赐服|赐紫|赐绯|品色|舆服|章服|冠服|朝服|祭服|丧服|常服|加冠|衮[服衣冕]' 十八家诗抄.txt | wc -l
# 结果:8行匹配(精准度高)

关键发现:

第5轮:配饰(簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼)

rg -n '簪|钗|钿|珰|珥|环|镯|鱼袋|幞头|云肩|霞帔|蔽膝|芾|韠|佩鱼' 十八家诗抄.txt | wc -l
# 结果:172行匹配

第3步:高价值组合检索

针对大文件特点,进行组合精搜:

第4步:关键上下文提取

使用sed提取关键行上下文:

sed -n '13472,13480p' 十八家诗抄.txt  # 端午日赐衣
sed -n '8748,8760p' 十八家诗抄.txt    # 上阳宫人时世妆
sed -n '7598,7620p' 十八家诗抄.txt    # 丽人行
sed -n '8855,8870p' 十八家诗抄.txt    # 蛮子朝·赐衣赐食
sed -n '9400,9415p' 十八家诗抄.txt    # 霓裳羽衣舞歌

第5步:筛选与分类

从原始匹配中筛选出有效服饰片段的原则:

  1. 排除纯比喻用法(如"环堵""连环"等非服饰用"环")
  2. 排除泛指(如"青天""白云"中颜色词非指服饰)
  3. 保留明确的服饰描写、制度记载、品色指代
  4. 特别关注"时世妆""赐衣""品色"等制度性描述

第6步:对抗式审查

  1. 审: 第3轮5043行匹配过多 → 改: 结合服饰上下文二次筛选,仅保留色彩与服饰关联者
  2. 审: "环"字大量匹配为地理/自然意象 → 改: 仅保留"环珮""金环"等明确佩饰
  3. 审: "带"字泛指过多 → 改: 仅保留"玉带""锦带""革带"等服饰带
  4. 审: "华"字过于泛化 → 改: 不单独收录,仅收录"华衮"等组合
  5. 审: "衣"字泛化(衣食/衣冠/衣马等) → 改: 仅保留明确描写服饰款式、材质、制度者

统计