《会稽掇英总集》服饰内容提取日志

基本信息

处理流程

步骤1:文件大小检查

$ wc -c -l 会稽掇英总集.txt
1994 302413 会稽掇英总集.txt

文件约30万字符,2000行,属大体积文件,遵循铁律不整本载入LLM。

步骤2:五轮关键词grep检索

第1轮:核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领)

$ rg -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|佩玉|带|绶|笏|舄|履|靴|袍|衫|裙|褶|袂|襟|领' 会稽掇英总集.txt
命中:200行 → 保存 /tmp/round1_core.txt

注意:核心词中"衣""冠""带"等高频字误命中大量非服饰语境(如"衣冠文物""地带"等),需后续人工筛选。

第2轮:材质词(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧)

$ rg -n '锦|绮|绢|帛|丝|缎|绫|罗|纱|缟|绸|葛|麻|褐|布|绵|茧' 会稽掇英总集.txt
命中:120行 → 保存 /tmp/round2_material.txt

"丝""罗""锦"等大量命中植物名、地名、人名等非服饰语境。

第3轮:色彩纹饰词(紫绯朱赭青绿白玄黄丹素绣纹章黼黻华)

$ rg -n '紫|绯|朱|赭|青|绿|白|玄|黄|丹|素|绣|纹|章|黼|黻|华' 会稽掇英总集.txt
命中:433行 → 保存 /tmp/round3_color.txt

色彩词误命中极多(山水描写、人名等),433行中有效服饰片段不足20条,误命中率>95%。此轮结果参考价值低。

第4轮:制度词(服赐/赐紫/赐绯/品色/舆服/章服/冠服/朝服/祭服/丧服/常服/加冠/衮/衮冕/垂衣)

$ rg -n '服赐|赐紫|赐绯|品色|舆服|章服|冠服|朝服|祭服|丧服|常服|加冠|衮|衮冕|垂衣' 会稽掇英总集.txt
命中:11行 → 保存 /tmp/round4_system.txt

制度词精准度高,几乎全部为有效命中。但因"衮"字单独使用误中"衮衮"等词,需甄别。

第5轮:配饰词(簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼)

$ rg -n '簪|钗|钿|珰|珥|环|镯|鱼袋|幞头|云肩|霞帔|蔽膝|芾|韠|佩鱼' 会稽掇英总集.txt
命中:43行 → 保存 /tmp/round5_accessory.txt

"环""簪"命中含"环绕""簪裾"等,有效配饰片段约15条。

步骤3:复合词精准检索

为进一步精确,追加复合服饰词检索:

$ rg -n '衣冠|锦衣|朝服|霓裳|羽衣|衮冕|垂衣|缓带|紫绶|金紫|簪裾|簪笏|章甫|角巾|幅巾|麻衣|儒冠|儒衣|野服|戎服|白纶巾|纱帽|幞头|鹴裘|黑貂|罗衣|绣衣|绛袖|绮霞|缟素|织素|越布|组绣|緤练' 会稽掇英总集.txt

命中80行,精准度显著高于单字检索。

步骤4:sed上下文提取

对关键行号执行sed提取上下文,确保理解语境:

$ sed -n '1300,1302p' 会稽掇英总集.txt  # 越地缯纱
$ sed -n '1468,1470p' 会稽掇英总集.txt  # 越女芙蓉衣
$ sed -n '1714,1720p' 会稽掇英总集.txt  # 华衮
$ sed -n '1769,1770p' 会稽掇英总集.txt  # 中朝衣冠

步骤5:筛选与分类

从800+行grep结果中筛选出47条有效服饰片段,分类如下:

步骤6:对抗式学术审查

审查1:误命中排除

审查2:文学用典vs实际服饰

审查3:重复与冗余

审查4:遗漏检查

命令执行记录

序号命令结果
1wc -c -l 会稽掇英总集.txt1994行 302413字节
2mkdir -p 输出目录目录已创建
3rg -n 核心词 会稽掇英总集.txt > /tmp/round1_core.txt200行
4rg -n 材质词 会稽掇英总集.txt > /tmp/round2_material.txt120行
5rg -n 色彩词 会稽掇英总集.txt > /tmp/round3_color.txt433行
6rg -n 制度词 会稽掇英总集.txt > /tmp/round4_system.txt11行
7rg -n 配饰词 会稽掇英总集.txt > /tmp/round5_accessory.txt43行
8rg -n 复合词 会稽掇英总集.txt80行
9sed -n '1300,1302p' 会稽掇英总集.txt越地缯纱文
10sed -n '1468,1470p' 会稽掇英总集.txt越女芙蓉衣
11sed -n '1714,1720p' 会稽掇英总集.txt华衮/褒衣博带
12sed -n '1769,1770p' 会稽掇英总集.txt中朝衣冠

统计