《严陵集》服饰内容提取日志

基本信息


处理流程记录

步骤1:文件大小检查

wc -l /home/z/my-project/upload/诗集/诗集/严陵集.txt   # 939行
wc -c /home/z/my-project/upload/诗集/诗集/严陵集.txt   # 136968字节

判断:文件约137KB/939行,属中等规模,可用grep+sed分段处理,无需整本载入LLM。

步骤2:创建输出目录

mkdir -p /home/z/my-project/upload/诗集output/严陵集/

步骤3:五轮关键词grep

第1轮:核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领)

grep -n '衣\|裳\|裘\|冠\|冕\|弁\|帻\|巾\|帽\|佩\|玉带\|绶\|笏\|舄\|履\|靴\|袍\|衫\|裙\|褶\|袂\|襟\|领' 严陵集.txt

结果:82行命中

第2轮:材质词(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧)

grep -n '锦\|绮\|绢\|帛\|丝\|缎\|绫\|罗\|纱\|缟\|绸\|葛\|麻\|褐\|布\|绵\|茧' 严陵集.txt

结果:51行命中

第3轮:色彩纹饰词(紫绯朱赭青绿白玄黄丹素绣纹章黼黻华服)

grep -n '紫\|绯\|朱\|赭\|青\|绿\|白\|玄\|黄\|丹\|素\|绣\|纹\|章\|黼\|黻\|华服' 严陵集.txt

结果:174行命中(大量噪音,如"青山""白云""黄河"等非服饰用例)

第4轮:制度词(服赐服赐紫赐绯品色舆服章服冠服朝服祭服丧服常服加冠衮)

grep -n '服\|赐服\|赐紫\|赐绯\|品色\|舆服\|章服\|冠服\|朝服\|祭服\|丧服\|常服\|加冠\|衮' 严陵集.txt

结果:7行命中("服"字多出在"不服""服务"等非服饰语境,需人工筛选)

第5轮:配饰词(簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼)

grep -n '簪\|钗\|钿\|珰\|珥\|环\|镯\|鱼袋\|幞头\|云肩\|霞帔\|蔽膝\|芾\|韠\|佩鱼' 严陵集.txt

结果:12行命中

步骤4:sed提取上下文

对筛选出的关键行号,使用sed提取完整行内容:

sed -n '360p;576p;578p;582p;638p;681p;738p;740p' 严陵集.txt  # 羊裘相关
sed -n '318p;397p;532p;685p;740p;832p;837p;871p' 严陵集.txt  # 制度服饰
sed -n '41p;51p;116p;118p;130p;133p;139p;143p;195p;199p;203p;213p;215p;269p;281p;297p;324p;354p;366p;376p;385p;391p;401p;431p;448p;450p;456p;460p;464p;501p;519p;527p;574p;605p;614p;634p;666p;696p;708p;714p;722p;724p;726p;736p;744p;765p;790p;795p;807p;877p;883p;913p' 严陵集.txt
sed -n '803,804p' 严陵集.txt   # 黼帐灵衣
sed -n '911p' 严陵集.txt       # 丝枲绢税
sed -n '399p;400p' 严陵集.txt  # 乌纱/儒服
sed -n '261p' 严陵集.txt       # 戴乌纱
sed -n '748p;873p;297p;96p;356p;130p' 严陵集.txt

步骤5:筛选有效片段

从五轮grep合计326行命中中,经人工逐行审查,剔除以下噪音:

最终有效服饰片段:约45处,涵盖7大类。

步骤6:分类整理与对抗式审查

详见《严陵集_总结.md》第四部分"对抗式审查"。


五轮grep命中统计

轮次词类命中行数有效行数(估)噪音率
第1轮核心词82~4545%
第2轮材质词51~1571%
第3轮色彩纹饰174~1293%
第4轮制度词7~529%
第5轮配饰词12~833%
合计326~8574%

结论:色彩纹饰轮噪音率极高(93%),因"青白黄素"等字在山水诗中出现频率远高于服饰语境。核心词轮有效率最高,为最可靠的提取轮次。


处理命令完整记录

# 步骤1
wc -l 严陵集.txt && wc -c 严陵集.txt

# 步骤2
mkdir -p /home/z/my-project/upload/诗集output/严陵集/

# 步骤3
grep -n '衣\|裳\|裘\|冠\|冕\|弁\|帻\|巾\|帽\|佩\|玉带\|绶\|笏\|舄\|履\|靴\|袍\|衫\|裙\|褶\|袂\|襟\|领' 严陵集.txt > /tmp/yl_round1.txt
grep -n '锦\|绮\|绢\|帛\|丝\|缎\|绫\|罗\|纱\|缟\|绸\|葛\|麻\|褐\|布\|绵\|茧' 严陵集.txt > /tmp/yl_round2.txt
grep -n '紫\|绯\|朱\|赭\|青\|绿\|白\|玄\|黄\|丹\|素\|绣\|纹\|章\|黼\|黻\|华服' 严陵集.txt > /tmp/yl_round3.txt
grep -n '服\|赐服\|赐紫\|赐绯\|品色\|舆服\|章服\|冠服\|朝服\|祭服\|丧服\|常服\|加冠\|衮' 严陵集.txt > /tmp/yl_round4.txt
grep -n '簪\|钗\|钿\|珰\|珥\|环\|镯\|鱼袋\|幞头\|云肩\|霞帔\|蔽膝\|芾\|韠\|佩鱼' 严陵集.txt > /tmp/yl_round5.txt

# 步骤4(关键行提取)
sed -n '360p;576p;578p;582p;638p;681p;738p;740p' 严陵集.txt
sed -n '318p;397p;532p;685p;740p;832p;837p;871p' 严陵集.txt
sed -n '803p;911p;399p;400p;261p;748p;873p;297p;96p;356p;130p' 严陵集.txt