乐府诗集 服饰内容提取日志

基本信息

处理流程记录

步骤1:文件大小检查

wc -l /home/z/my-project/upload/诗集/诗集/乐府诗集.txt  # 18383行
wc -c /home/z/my-project/upload/诗集/诗集/乐府诗集.txt  # 1267338字节

判断:文件1.2MB,严禁整本载入LLM,采用grep+sed逐轮提取。

步骤2:创建输出目录

mkdir -p /home/z/my-project/upload/诗集output/乐府诗集/

步骤3:5轮关键词grep提取

第1轮:核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领)

rg -n '衣裳|裘|冠|冕|弁|帻|巾|帽|佩玉|带|绶|笏|舄|履|靴|袍|衫|裙|褶|袂|襟|领' 乐府诗集.txt | head -200

结果:命中约200+行,涉及祭服、朝服、女性裙襦、军旅袍甲、民间裤褶等。

第2轮:材质词(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧)

rg -n '锦|绮|绢|帛|丝|缎|绫|罗|纱|缟|绸|葛|麻|褐|布|绵|茧' 乐府诗集.txt | head -200

结果:命中约200+行,但"丝""罗""布"等字大量作非服饰用法(丝竹、星罗、布政等),需逐条甄别。

第3轮:色彩纹饰词(紫绯朱赭青绿白玄黄丹素绣纹章黼黻华)

rg -n '紫|绯|朱|赭|青|绿|白|玄|黄|丹|素|绣|纹|章|黼|黻|华' 乐府诗集.txt | head -300

结果:命中300+行,色彩词泛滥(自然景物修饰为主),需严格筛选与服饰搭配者。关键词如"黼绣""黻冕""绣裳"等价值最高。

第4轮:制度词(服赐赐服赐紫赐绯品色舆服章服冠服朝服祭服丧服常服加冠衮)

rg -n '服赐|赐服|赐紫|赐绯|品色|舆服|章服|冠服|朝服|祭服|丧服|常服|加冠|衮' 乐府诗集.txt | head -100

结果:命中约30行,关键发现:

第5轮:配饰词(簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼)

rg -n '簪|钗|钿|珰|珥|环|镯|鱼袋|幞头|云肩|霞帔|蔽膝|芾|韠|佩鱼' 乐府诗集.txt | head -80

结果:命中约80行,簪钗钿珰珥为高频配饰词,尤以罗敷、采桑、相逢行系列最为集中。

步骤4:sed提取上下文

对重点行号进行上下文提取(前后各2-5行),共执行约15次sed命令:

sed -n '108,109p'     # 序跋-舞服制度线索
sed -n '1083,1089p'   # 唐舞服制度详情
sed -n '2051,2057p'   # 龙池乐舞服
sed -n '115,120p'     # 郊祀歌-被华文厕雾縠
sed -n '530,536p'     # 衮衣文绣裳
sed -n '6796,6810p'   # 木兰诗服饰
sed -n '7273,7282p'   # 罗敷服饰
sed -n '6928,6942p'   # 采莲曲女性容饰
sed -n '6964,6970p'   # 采莲曲续
sed -n '7393,7420p'   # 罗敷拟作系列
sed -n '7478,7485p'   # 庾信昭君
sed -n '7598,7618p'   # 薛道衡昭君
sed -n '8556,8592p'   # 相逢行系列
sed -n '8612,8640p'   # 相逢行续
sed -n '8628,8640p'   # 庾肩吾
sed -n '9238,9252p'   # 宋舞服制度
sed -n '9394,9410p'   # 曹植圣皇篇
sed -n '9668,9682p'   # 鲍照淮南王
sed -n '9788,9806p'   # 白纻舞服
sed -n '9985,9995p'   # 霓裳羽衣
sed -n '18036,18050p' # 白居易缚戎人
# ... 及批量提取命令若干

步骤5:筛选与甄别

筛选原则

  1. 排除色彩词修饰自然景物者("白云""青山""紫微"等天文学名词)
  2. 排除"衣冠"作为阶层代词的泛指用法
  3. 排除"冠"在"冠军"等官号中的用法
  4. 排除"履"作动词"履行"的用法
  5. 排除"章"指乐章、文章的用法
  6. 保留有具体服饰形制描写或服制制度记载的片段

有效片段统计

类别有效片段数
祭祀礼服/冠服制度12
女性容饰35+
军旅服饰7
民间日常服饰7
舞服10+
朝会官服6
特殊记载7
合计约84条

步骤6:对抗式学术审查

审查1:是否存在"伪服饰"?

审查2:是否存在重复或同源?

审查3:是否存在误读风险?

审查4:史料价值评级

步骤7:输出

三篇MD文档写入 /home/z/my-project/upload/诗集output/乐府诗集/:

  1. 乐府诗集_总结.md
  2. 乐府诗集_日志.md(本文件)
  3. 乐府诗集_原文提取.md