《严陵集》服饰内容提取日志
基本信息
- 书名:严陵集
- 文件路径:/home/z/my-project/upload/诗集/诗集/严陵集.txt
- 输出路径:/home/z/my-project/upload/诗集output/严陵集/
- 文件规模:939行,136968字节
- 处理时间:2026年
处理流程记录
步骤1:文件大小检查
wc -l /home/z/my-project/upload/诗集/诗集/严陵集.txt # 939行
wc -c /home/z/my-project/upload/诗集/诗集/严陵集.txt # 136968字节
判断:文件约137KB/939行,属中等规模,可用grep+sed分段处理,无需整本载入LLM。
步骤2:创建输出目录
mkdir -p /home/z/my-project/upload/诗集output/严陵集/
步骤3:五轮关键词grep
第1轮:核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领)
grep -n '衣\|裳\|裘\|冠\|冕\|弁\|帻\|巾\|帽\|佩\|玉带\|绶\|笏\|舄\|履\|靴\|袍\|衫\|裙\|褶\|袂\|襟\|领' 严陵集.txt
结果:82行命中
第2轮:材质词(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧)
grep -n '锦\|绮\|绢\|帛\|丝\|缎\|绫\|罗\|纱\|缟\|绸\|葛\|麻\|褐\|布\|绵\|茧' 严陵集.txt
结果:51行命中
第3轮:色彩纹饰词(紫绯朱赭青绿白玄黄丹素绣纹章黼黻华服)
grep -n '紫\|绯\|朱\|赭\|青\|绿\|白\|玄\|黄\|丹\|素\|绣\|纹\|章\|黼\|黻\|华服' 严陵集.txt
结果:174行命中(大量噪音,如"青山""白云""黄河"等非服饰用例)
第4轮:制度词(服赐服赐紫赐绯品色舆服章服冠服朝服祭服丧服常服加冠衮)
grep -n '服\|赐服\|赐紫\|赐绯\|品色\|舆服\|章服\|冠服\|朝服\|祭服\|丧服\|常服\|加冠\|衮' 严陵集.txt
结果:7行命中("服"字多出在"不服""服务"等非服饰语境,需人工筛选)
第5轮:配饰词(簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼)
grep -n '簪\|钗\|钿\|珰\|珥\|环\|镯\|鱼袋\|幞头\|云肩\|霞帔\|蔽膝\|芾\|韠\|佩鱼' 严陵集.txt
结果:12行命中
步骤4:sed提取上下文
对筛选出的关键行号,使用sed提取完整行内容:
sed -n '360p;576p;578p;582p;638p;681p;738p;740p' 严陵集.txt # 羊裘相关
sed -n '318p;397p;532p;685p;740p;832p;837p;871p' 严陵集.txt # 制度服饰
sed -n '41p;51p;116p;118p;130p;133p;139p;143p;195p;199p;203p;213p;215p;269p;281p;297p;324p;354p;366p;376p;385p;391p;401p;431p;448p;450p;456p;460p;464p;501p;519p;527p;574p;605p;614p;634p;666p;696p;708p;714p;722p;724p;726p;736p;744p;765p;790p;795p;807p;877p;883p;913p' 严陵集.txt
sed -n '803,804p' 严陵集.txt # 黼帐灵衣
sed -n '911p' 严陵集.txt # 丝枲绢税
sed -n '399p;400p' 严陵集.txt # 乌纱/儒服
sed -n '261p' 严陵集.txt # 戴乌纱
sed -n '748p;873p;297p;96p;356p;130p' 严陵集.txt
步骤5:筛选有效片段
从五轮grep合计326行命中中,经人工逐行审查,剔除以下噪音:
- "青"在"青山""青天"中:非服饰 → 剔除
- "白"在"白云""白鸟"中:非服饰 → 剔除
- "丝"在"鬓丝""雨丝"中:非服饰 → 剔除
- "黄"在"黄河""黄梅"中:非服饰 → 剔除
- "素"在"素鸥""素鳞"中:非服饰 → 剔除
- "纹"在"纹理"中:无此用例
- "华"在"华省""华屋"中:非服饰 → 剔除
- "服"在"不服""服刑""佩服"中:非服饰 → 剔除
- "锦"在"锦鳞""锦沙"中:比喻用 → 仅保留"锦帐""红锦"
- "翠"在"翠山""翠色"中:非服饰 → 剔除
- "丹"在"丹桂""丹砂"中:非服饰 → 仅保留"丹诏"
最终有效服饰片段:约45处,涵盖7大类。
步骤6:分类整理与对抗式审查
详见《严陵集_总结.md》第四部分"对抗式审查"。
五轮grep命中统计
| 轮次 | 词类 | 命中行数 | 有效行数(估) | 噪音率 |
|---|---|---|---|---|
| 第1轮 | 核心词 | 82 | ~45 | 45% |
| 第2轮 | 材质词 | 51 | ~15 | 71% |
| 第3轮 | 色彩纹饰 | 174 | ~12 | 93% |
| 第4轮 | 制度词 | 7 | ~5 | 29% |
| 第5轮 | 配饰词 | 12 | ~8 | 33% |
| 合计 | — | 326 | ~85 | 74% |
结论:色彩纹饰轮噪音率极高(93%),因"青白黄素"等字在山水诗中出现频率远高于服饰语境。核心词轮有效率最高,为最可靠的提取轮次。
处理命令完整记录
# 步骤1
wc -l 严陵集.txt && wc -c 严陵集.txt
# 步骤2
mkdir -p /home/z/my-project/upload/诗集output/严陵集/
# 步骤3
grep -n '衣\|裳\|裘\|冠\|冕\|弁\|帻\|巾\|帽\|佩\|玉带\|绶\|笏\|舄\|履\|靴\|袍\|衫\|裙\|褶\|袂\|襟\|领' 严陵集.txt > /tmp/yl_round1.txt
grep -n '锦\|绮\|绢\|帛\|丝\|缎\|绫\|罗\|纱\|缟\|绸\|葛\|麻\|褐\|布\|绵\|茧' 严陵集.txt > /tmp/yl_round2.txt
grep -n '紫\|绯\|朱\|赭\|青\|绿\|白\|玄\|黄\|丹\|素\|绣\|纹\|章\|黼\|黻\|华服' 严陵集.txt > /tmp/yl_round3.txt
grep -n '服\|赐服\|赐紫\|赐绯\|品色\|舆服\|章服\|冠服\|朝服\|祭服\|丧服\|常服\|加冠\|衮' 严陵集.txt > /tmp/yl_round4.txt
grep -n '簪\|钗\|钿\|珰\|珥\|环\|镯\|鱼袋\|幞头\|云肩\|霞帔\|蔽膝\|芾\|韠\|佩鱼' 严陵集.txt > /tmp/yl_round5.txt
# 步骤4(关键行提取)
sed -n '360p;576p;578p;582p;638p;681p;738p;740p' 严陵集.txt
sed -n '318p;397p;532p;685p;740p;832p;837p;871p' 严陵集.txt
sed -n '803p;911p;399p;400p;261p;748p;873p;297p;96p;356p;130p' 严陵集.txt