《中州集·中州乐府》服饰提取日志

基本信息

处理流程记录

步骤1:文件检查

wc -l -c /home/z/my-project/upload/诗集/诗集/中州集中州乐府.txt
# 结果:5049行 582984字节
# 判断:大体积文件,严禁整本载入LLM,采用grep+sed分片处理
mkdir -p /home/z/my-project/upload/诗集output/中州集中州乐府/

步骤2:5轮关键词grep检索

第1轮:核心服饰词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领)

rg -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|佩|玉|带|绶|笏|舄|履|靴|袍|衫|裙|褶|袂|襟|领' 中州集中州乐府.txt | head -200
# 命中行数众多,截取前200行分析
# 有效服饰相关行约60条

第2轮:材质词(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧)

rg -n '锦|绮|绢|帛|丝|缎|绫|罗|纱|缟|绸|葛|麻|褐|布|绵|茧' 中州集中州乐府.txt | head -200
# 材质词大量出现,但多数为景物描写(如"锦锈""丝竹")
# 有效服饰材质相关行约25条

第3轮:色彩纹饰词(紫绯朱赭青绿白玄黄丹素绣纹章黼黻华服)

rg -n '紫|绯|朱|赭|青|绿|白|玄|黄|丹|素|绣|纹|章|黼|黻|华服' 中州集中州乐府.txt | head -200
# 色彩词极多,大量为自然景物色彩
# 有效服饰色彩相关行约30条

第4轮:制度词(服赐服赐紫赐绯品色舆服章服冠服朝服祭服丧服常服加冠衮)

rg -n '服|赐紫|赐绯|品色|舆服|章服|冠服|朝服|祭服|丧服|常服|加冠|衮' 中州集中州乐府.txt | head -200
# "服"字命中极多,需大量人工筛选
# 有效制度相关行约15条

第5轮:配饰词(簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼)

rg -n '簪|钗|钿|珰|珥|环|镯|鱼袋|幞头|云肩|霞帔|蔽膝|芾|韠|佩鱼' 中州集中州乐府.txt | head -100
# 配饰词命中较少
# 有效配饰相关行约15条

步骤3:sed提取关键行原文

sed -n '185p;609p;611p;613p;443p;800p;1106p;1110p;1114p;1417p;2073p;2279p;2323p;3308p;3930p' 中州集中州乐府.txt
# 提取制度服饰关键行15行

sed -n '13p;52p;94p;106p;118p;134p;137p;169p;173p;179p;214p;305p;317p;347p;421p;477p;535p;581p;633p;643p;657p;718p;724p;753p;852p;854p;874p;894p;910p;942p;977p;991p;1084p;1092p;1150p;1198p;1226p;1310p;1359p;1373p;1409p;1464p;2305p;2445p;2563p;2617p;4315p;4855p;4927p' 中州集中州乐府.txt
# 提取核心服饰关键词行49行

sed -n '850,856p;1224,1230p;2220,2230p;2275,2285p;2410,2415p;2755,2760p;4698,4705p;4768,4775p;4820,4825p;4852,4860p' 中州集中州乐府.txt
# 提取更多上下文片段10段

步骤4:筛选与分类

筛选原则

  1. 剔除纯景物描写中的服饰词(如"锦绣山河""玉洁冰清"等比喻用法)
  2. 保留与人体穿着直接相关的服饰描写
  3. 保留具有制度意义的服饰表述(即使为修辞)
  4. 保留反映民族服饰特征的描写

剔除条目示例

对抗式审查记录

审查1:"褐夫新赐雪衣裳"(L1417/L2073)

审查2:"绯衣香拂御炉风"(L800)

审查3:"绣衣朱襮固无取"(L609)

审查4:"强服冠与簮"(L443)

审查5:"殊音异服不相亲"(L3930)

统计数据