十八家诗抄·服饰提取日志
基本信息
- 书名:十八家诗抄
- 文件路径:/home/z/my-project/upload/诗集/诗集/十八家诗抄.txt
- 文件大小:22347行,1,881,591字节
- 处理时间:2026-03-04
处理流程
第1步:文件检查
wc -l -c 十八家诗抄.txt
# 结果:22347行,1881591字节(大文件,严禁整本载入)
第2步:逐轮grep检索
第1轮:核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领)
rg -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|佩玉|带|绶|笏|舄|履|靴|袍|衫|裙|褶|袂|襟|领' 十八家诗抄.txt | wc -l
# 结果:1760行匹配(大量非服饰用法的"衣/带/履/领"等需人工筛选)
第2轮:材质(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧)
rg -n '锦|绮|绢|帛|丝|缎|绫|罗|纱|缟|绸|葛|麻|褐|布|绵|茧' 十八家诗抄.txt | wc -l
# 结果:1190行匹配
第3轮:色彩纹饰(紫绯朱赭青绿白玄黄丹素绣纹章黼黻华)
rg -n '紫|绯|朱|赭|青|绿|白|玄|黄|丹|素|绣|纹|章|黼|黻|华' 十八家诗抄.txt | wc -l
# 结果:5043行匹配(数量过多,大量非服饰用法的颜色词需结合上下文筛选)
第4轮:制度(服赐服赐紫赐绯品色舆服章服冠服朝服祭服丧服常服加冠衮)
rg -n '服[饰妆办]|赐服|赐紫|赐绯|品色|舆服|章服|冠服|朝服|祭服|丧服|常服|加冠|衮[服衣冕]' 十八家诗抄.txt | wc -l
# 结果:8行匹配(精准度高)
关键发现:
- L3155:"衮冕弹鸣琴"(李白)
- L4926:"服饰定尊卑,大哉万古程"(韩愈)
- L5738:"相公朝服立"(韩愈)
- L8674:"加冠巾"(韩愈)
- L8880:"正朝服汉仪"(白居易)
- L10146:"幅巾常服俨不动"(苏轼)
第5轮:配饰(簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼)
rg -n '簪|钗|钿|珰|珥|环|镯|鱼袋|幞头|云肩|霞帔|蔽膝|芾|韠|佩鱼' 十八家诗抄.txt | wc -l
# 结果:172行匹配
第3步:高价值组合检索
针对大文件特点,进行组合精搜:
袍|衫|裙|裘→ 提取核心服饰词汇冠|冕|弁|帻|巾|帽→ 头服专搜紫袍|绯袍|朱衣|青袍|白衣|黄衣→ 品色制度赐服|赐紫|赐绯|赐衣|赐袍|赐冠|赐带→ 赐服制度金鱼|银鱼|鱼袋|佩鱼→ 佩鱼制度绣[衣裳袍裙罗]|黼|黻→ 纹饰紫绶|金章|银章|墨绶|黄绶→ 印绶制度幞头|角巾|纶巾|葛巾|幅巾|乌巾→ 巾帽专搜步摇|翠翘|金雀|玉搔头→ 女性头饰霓裳→ 特色舞服鹤氅→ 隐士服饰短衣|窄衣|广袖→ 服装形制
第4步:关键上下文提取
使用sed提取关键行上下文:
sed -n '13472,13480p' 十八家诗抄.txt # 端午日赐衣
sed -n '8748,8760p' 十八家诗抄.txt # 上阳宫人时世妆
sed -n '7598,7620p' 十八家诗抄.txt # 丽人行
sed -n '8855,8870p' 十八家诗抄.txt # 蛮子朝·赐衣赐食
sed -n '9400,9415p' 十八家诗抄.txt # 霓裳羽衣舞歌
第5步:筛选与分类
从原始匹配中筛选出有效服饰片段的原则:
- 排除纯比喻用法(如"环堵""连环"等非服饰用"环")
- 排除泛指(如"青天""白云"中颜色词非指服饰)
- 保留明确的服饰描写、制度记载、品色指代
- 特别关注"时世妆""赐衣""品色"等制度性描述
第6步:对抗式审查
- 审: 第3轮5043行匹配过多 → 改: 结合服饰上下文二次筛选,仅保留色彩与服饰关联者
- 审: "环"字大量匹配为地理/自然意象 → 改: 仅保留"环珮""金环"等明确佩饰
- 审: "带"字泛指过多 → 改: 仅保留"玉带""锦带""革带"等服饰带
- 审: "华"字过于泛化 → 改: 不单独收录,仅收录"华衮"等组合
- 审: "衣"字泛化(衣食/衣冠/衣马等) → 改: 仅保留明确描写服饰款式、材质、制度者
统计
- 有效服饰相关片段:约150条
- 涉及诗人:曹植、阮籍、陶渊明、谢灵运、谢朓、李白、杜甫、韩愈、白居易、王维、苏轼、黄庭坚、陆游等
- 服饰内容最丰富的诗人:杜甫(约40条)、白居易(约25条)、李白(约30条)、陆游(约15条)