《会稽掇英总集》服饰内容提取日志

基本信息

书名：会稽掇英总集
文件路径：/home/z/my-project/upload/诗集/诗集/会稽掇英总集.txt
文件大小：302,413字节，1,994行
输出目录：/home/z/my-project/upload/诗集output/会稽掇英总集/
处理时间：2026年3月4日

处理流程

步骤1：文件大小检查

$ wc -c -l 会稽掇英总集.txt
1994 302413 会稽掇英总集.txt

文件约30万字符，2000行，属大体积文件，遵循铁律不整本载入LLM。

步骤2：五轮关键词grep检索

第1轮：核心词（衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领）

$ rg -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|佩玉|带|绶|笏|舄|履|靴|袍|衫|裙|褶|袂|襟|领' 会稽掇英总集.txt
命中：200行 → 保存 /tmp/round1_core.txt

注意：核心词中"衣""冠""带"等高频字误命中大量非服饰语境（如"衣冠文物""地带"等），需后续人工筛选。

第2轮：材质词（锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧）

$ rg -n '锦|绮|绢|帛|丝|缎|绫|罗|纱|缟|绸|葛|麻|褐|布|绵|茧' 会稽掇英总集.txt
命中：120行 → 保存 /tmp/round2_material.txt

"丝""罗""锦"等大量命中植物名、地名、人名等非服饰语境。

第3轮：色彩纹饰词（紫绯朱赭青绿白玄黄丹素绣纹章黼黻华）

$ rg -n '紫|绯|朱|赭|青|绿|白|玄|黄|丹|素|绣|纹|章|黼|黻|华' 会稽掇英总集.txt
命中：433行 → 保存 /tmp/round3_color.txt

色彩词误命中极多（山水描写、人名等），433行中有效服饰片段不足20条，误命中率>95%。此轮结果参考价值低。

第4轮：制度词（服赐/赐紫/赐绯/品色/舆服/章服/冠服/朝服/祭服/丧服/常服/加冠/衮/衮冕/垂衣）

$ rg -n '服赐|赐紫|赐绯|品色|舆服|章服|冠服|朝服|祭服|丧服|常服|加冠|衮|衮冕|垂衣' 会稽掇英总集.txt
命中：11行 → 保存 /tmp/round4_system.txt

制度词精准度高，几乎全部为有效命中。但因"衮"字单独使用误中"衮衮"等词，需甄别。

第5轮：配饰词（簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼）

$ rg -n '簪|钗|钿|珰|珥|环|镯|鱼袋|幞头|云肩|霞帔|蔽膝|芾|韠|佩鱼' 会稽掇英总集.txt
命中：43行 → 保存 /tmp/round5_accessory.txt

"环""簪"命中含"环绕""簪裾"等，有效配饰片段约15条。

步骤3：复合词精准检索

为进一步精确，追加复合服饰词检索：

$ rg -n '衣冠|锦衣|朝服|霓裳|羽衣|衮冕|垂衣|缓带|紫绶|金紫|簪裾|簪笏|章甫|角巾|幅巾|麻衣|儒冠|儒衣|野服|戎服|白纶巾|纱帽|幞头|鹴裘|黑貂|罗衣|绣衣|绛袖|绮霞|缟素|织素|越布|组绣|緤练' 会稽掇英总集.txt

命中80行，精准度显著高于单字检索。

步骤4：sed上下文提取

对关键行号执行sed提取上下文，确保理解语境：

$ sed -n '1300,1302p' 会稽掇英总集.txt  # 越地缯纱
$ sed -n '1468,1470p' 会稽掇英总集.txt  # 越女芙蓉衣
$ sed -n '1714,1720p' 会稽掇英总集.txt  # 华衮
$ sed -n '1769,1770p' 会稽掇英总集.txt  # 中朝衣冠

步骤5：筛选与分类

从800+行grep结果中筛选出47条有效服饰片段，分类如下：

礼制舆服：12条
越地纺织与服饰：8条
隐逸服饰：10条
军戎与仕进服饰：6条
民间与女性服饰：6条
佛教服饰：5条

步骤6：对抗式学术审查

审查1：误命中排除

行121"缟素竞飞腾"——"缟素"指雪色，非服饰，排除
行119"紫霄零杂佩"——"杂佩"为佩饰，但语境为雪景拟人，标记为文学用典
行1716"衮衮沧江去复归"——"衮衮"为水流貌，非衮服，排除

审查2：文学用典vs实际服饰

"垂衣"（行205,894）：化用《易·系辞》"黄帝尧舜垂衣裳而天下治"，属政治典故而非服饰描写
"霓裳"（贺知章系列17处）："霓裳明主赐"指唐玄宗赐道服，有一定服饰史料价值；其余多为诗歌意象
"衣冠耀海隅"（行919）："衣冠"为文明代称，非具体服饰
"鹴裘欣未至"（行117）：自注"司马相如衣鹔鹴裘"，为用典

审查3：重复与冗余

贺知章归道系列共17首诗，服饰意象高度重复（霓裳7次、羽衣4次、挂冠4次），已合并分析
行973与行975为白居易两首长诗，服饰描写内容近似，已去重

审查4：遗漏检查

重新检索"褐"字：行397"披褐良足钦"有效，已补充至隐逸类
重新检索"舄"字：行179"诣台飞舄日"、行244"鳬舄游帝乡"均为典故，已标注

命令执行记录

序号	命令	结果
1	`wc -c -l 会稽掇英总集.txt`	1994行 302413字节
2	`mkdir -p 输出目录`	目录已创建
3	`rg -n 核心词会稽掇英总集.txt > /tmp/round1_core.txt`	200行
4	`rg -n 材质词会稽掇英总集.txt > /tmp/round2_material.txt`	120行
5	`rg -n 色彩词会稽掇英总集.txt > /tmp/round3_color.txt`	433行
6	`rg -n 制度词会稽掇英总集.txt > /tmp/round4_system.txt`	11行
7	`rg -n 配饰词会稽掇英总集.txt > /tmp/round5_accessory.txt`	43行
8	`rg -n 复合词会稽掇英总集.txt`	80行
9	`sed -n '1300,1302p' 会稽掇英总集.txt`	越地缯纱文
10	`sed -n '1468,1470p' 会稽掇英总集.txt`	越女芙蓉衣
11	`sed -n '1714,1720p' 会稽掇英总集.txt`	华衮/褒衣博带
12	`sed -n '1769,1770p' 会稽掇英总集.txt`	中朝衣冠

统计

总检索行数：806行（5轮合计）
有效服饰片段：47条
误命中率：约94%（主要来自第3轮色彩词）
精准命中率：约6%
最高效检索轮次：第4轮制度词（精准度>90%）