交谊典宴集部 服饰提取日志

操作流程

步骤1:文件大小检测

wc -c 交谊典宴集部.txt → 470806 字节

文件约470KB,未超出处理能力。

步骤2:五轮grep关键词扫描

轮次 词库 命令 命中行数
R1 衣裳冠冕巾帽袍衫裙裘带佩履舄靴 grep -n '衣|裳|冠|冕|巾|帽|袍|衫|裙|裘|带|佩|履|舄|靴' 96
R2 服色舆服冠服章服朝服祭服丧服吉服常服公服 grep -n '服色|舆服|冠服|章服|朝服|祭服|丧服|吉服|常服|公服' 7
R3 丝帛绢锦绮绫罗缎绸缂丝葛麻布褐 grep -n '丝|帛|绢|锦|绮|绫|罗|缎|绸|缂|葛|麻|布|褐' 75
R4 紫袍绯袍绿袍赐紫赐绯鱼袋笏幞头金带玉带 grep -n '紫袍|绯袍|绿袍|赐紫|赐绯|鱼袋|笏|幞头|金带|玉带' 6
R5 旂旗章珮环玦簪钗钿翠珠玉 grep -n '旂|旗|章|珮|环|玦|簪|钗|钿|翠|珠|玉' 117

步骤3:定向grep提取服饰片段

对R1结果进一步细化,用具体词组减少伪命中:

grep -n '弹冠\|振衣\|整衣\|牵衣\|落帽\|脱帽\|冠盖\|冠冕\|轩冕\|绂冕\|岸帻\|帻堕\|巾堕\|散发\|褰裳\|曳履\|脱屣\|束带\|解带'

命中18行

grep -n '缊袍\|青衫\|白衣\|羽服\|卉服\|袨服\|黼衣\|野服\|朝服\|乡服\|冠服\|丧服'

命中5行

grep -n '佩玉\|佩璋\|簪笏\|象笏\|手版\|簪裾\|搢绅\|印绶\|朱绂\|鱼袋\|珠翠\|珥笔\|垂珰\|衮旒\|星弁\|乌纱帽\|缁衣\|素履\|悬鹑\|罗纨\|罗袂\|锦壁\|绮罗\|锦帆\|绮阁'

命中25行

步骤4:审查去伪

逐条审查,剔除以下伪命中:

伪命中类型 示例 原因
食物用语 带骨而脔曰殽 "带"指连骨,非腰带
乐器用语 丝竹管弦 "丝"指弦乐器
地理描写 映带左右 "带"指环绕
道德用语 身佩先王之德 "佩"为抽象用法
植物名 玉带瑶华 非服饰玉带
人名 师冕 "冕"为人名
仪仗 旌旃/旗/旂 军事仪仗,非服饰

步骤5:生成三MD文件

文件大小控制

每个MD文件均控制在20KB以内,原文提取仅摘录服饰相关片段,不做整段照搬。