《会稽掇英总集》服饰内容提取日志
基本信息
- 书名:会稽掇英总集
- 文件路径:/home/z/my-project/upload/诗集/诗集/会稽掇英总集.txt
- 文件大小:302,413字节,1,994行
- 输出目录:/home/z/my-project/upload/诗集output/会稽掇英总集/
- 处理时间:2026年3月4日
处理流程
步骤1:文件大小检查
$ wc -c -l 会稽掇英总集.txt
1994 302413 会稽掇英总集.txt
文件约30万字符,2000行,属大体积文件,遵循铁律不整本载入LLM。
步骤2:五轮关键词grep检索
第1轮:核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领)
$ rg -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|佩玉|带|绶|笏|舄|履|靴|袍|衫|裙|褶|袂|襟|领' 会稽掇英总集.txt
命中:200行 → 保存 /tmp/round1_core.txt
注意:核心词中"衣""冠""带"等高频字误命中大量非服饰语境(如"衣冠文物""地带"等),需后续人工筛选。
第2轮:材质词(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧)
$ rg -n '锦|绮|绢|帛|丝|缎|绫|罗|纱|缟|绸|葛|麻|褐|布|绵|茧' 会稽掇英总集.txt
命中:120行 → 保存 /tmp/round2_material.txt
"丝""罗""锦"等大量命中植物名、地名、人名等非服饰语境。
第3轮:色彩纹饰词(紫绯朱赭青绿白玄黄丹素绣纹章黼黻华)
$ rg -n '紫|绯|朱|赭|青|绿|白|玄|黄|丹|素|绣|纹|章|黼|黻|华' 会稽掇英总集.txt
命中:433行 → 保存 /tmp/round3_color.txt
色彩词误命中极多(山水描写、人名等),433行中有效服饰片段不足20条,误命中率>95%。此轮结果参考价值低。
第4轮:制度词(服赐/赐紫/赐绯/品色/舆服/章服/冠服/朝服/祭服/丧服/常服/加冠/衮/衮冕/垂衣)
$ rg -n '服赐|赐紫|赐绯|品色|舆服|章服|冠服|朝服|祭服|丧服|常服|加冠|衮|衮冕|垂衣' 会稽掇英总集.txt
命中:11行 → 保存 /tmp/round4_system.txt
制度词精准度高,几乎全部为有效命中。但因"衮"字单独使用误中"衮衮"等词,需甄别。
第5轮:配饰词(簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼)
$ rg -n '簪|钗|钿|珰|珥|环|镯|鱼袋|幞头|云肩|霞帔|蔽膝|芾|韠|佩鱼' 会稽掇英总集.txt
命中:43行 → 保存 /tmp/round5_accessory.txt
"环""簪"命中含"环绕""簪裾"等,有效配饰片段约15条。
步骤3:复合词精准检索
为进一步精确,追加复合服饰词检索:
$ rg -n '衣冠|锦衣|朝服|霓裳|羽衣|衮冕|垂衣|缓带|紫绶|金紫|簪裾|簪笏|章甫|角巾|幅巾|麻衣|儒冠|儒衣|野服|戎服|白纶巾|纱帽|幞头|鹴裘|黑貂|罗衣|绣衣|绛袖|绮霞|缟素|织素|越布|组绣|緤练' 会稽掇英总集.txt
命中80行,精准度显著高于单字检索。
步骤4:sed上下文提取
对关键行号执行sed提取上下文,确保理解语境:
$ sed -n '1300,1302p' 会稽掇英总集.txt # 越地缯纱
$ sed -n '1468,1470p' 会稽掇英总集.txt # 越女芙蓉衣
$ sed -n '1714,1720p' 会稽掇英总集.txt # 华衮
$ sed -n '1769,1770p' 会稽掇英总集.txt # 中朝衣冠
步骤5:筛选与分类
从800+行grep结果中筛选出47条有效服饰片段,分类如下:
- 礼制舆服:12条
- 越地纺织与服饰:8条
- 隐逸服饰:10条
- 军戎与仕进服饰:6条
- 民间与女性服饰:6条
- 佛教服饰:5条
步骤6:对抗式学术审查
审查1:误命中排除
- 行121"缟素竞飞腾"——"缟素"指雪色,非服饰,排除
- 行119"紫霄零杂佩"——"杂佩"为佩饰,但语境为雪景拟人,标记为文学用典
- 行1716"衮衮沧江去复归"——"衮衮"为水流貌,非衮服,排除
审查2:文学用典vs实际服饰
- "垂衣"(行205,894):化用《易·系辞》"黄帝尧舜垂衣裳而天下治",属政治典故而非服饰描写
- "霓裳"(贺知章系列17处):"霓裳明主赐"指唐玄宗赐道服,有一定服饰史料价值;其余多为诗歌意象
- "衣冠耀海隅"(行919):"衣冠"为文明代称,非具体服饰
- "鹴裘欣未至"(行117):自注"司马相如衣鹔鹴裘",为用典
审查3:重复与冗余
- 贺知章归道系列共17首诗,服饰意象高度重复(霓裳7次、羽衣4次、挂冠4次),已合并分析
- 行973与行975为白居易两首长诗,服饰描写内容近似,已去重
审查4:遗漏检查
- 重新检索"褐"字:行397"披褐良足钦"有效,已补充至隐逸类
- 重新检索"舄"字:行179"诣台飞舄日"、行244"鳬舄游帝乡"均为典故,已标注
命令执行记录
| 序号 | 命令 | 结果 |
|---|---|---|
| 1 | wc -c -l 会稽掇英总集.txt | 1994行 302413字节 |
| 2 | mkdir -p 输出目录 | 目录已创建 |
| 3 | rg -n 核心词 会稽掇英总集.txt > /tmp/round1_core.txt | 200行 |
| 4 | rg -n 材质词 会稽掇英总集.txt > /tmp/round2_material.txt | 120行 |
| 5 | rg -n 色彩词 会稽掇英总集.txt > /tmp/round3_color.txt | 433行 |
| 6 | rg -n 制度词 会稽掇英总集.txt > /tmp/round4_system.txt | 11行 |
| 7 | rg -n 配饰词 会稽掇英总集.txt > /tmp/round5_accessory.txt | 43行 |
| 8 | rg -n 复合词 会稽掇英总集.txt | 80行 |
| 9 | sed -n '1300,1302p' 会稽掇英总集.txt | 越地缯纱文 |
| 10 | sed -n '1468,1470p' 会稽掇英总集.txt | 越女芙蓉衣 |
| 11 | sed -n '1714,1720p' 会稽掇英总集.txt | 华衮/褒衣博带 |
| 12 | sed -n '1769,1770p' 会稽掇英总集.txt | 中朝衣冠 |
统计
- 总检索行数:806行(5轮合计)
- 有效服饰片段:47条
- 误命中率:约94%(主要来自第3轮色彩词)
- 精准命中率:约6%
- 最高效检索轮次:第4轮制度词(精准度>90%)