《广群芳谱》服饰内容提取日志
基本信息
- 书名:御定佩文斋广群芳谱
- 文件路径:/home/z/my-project/upload/草木鸟兽虫鱼/草木鸟兽虫鱼/广群芳谱.txt
- 文件大小:1,392,085字节(1.39MB,大文件)
- 总行数:19,483行
操作步骤
第1步:确认文件大小
wc -c 广群芳谱.txt
# 结果:1392085 字节(大文件,严禁整本载入)
wc -l 广群芳谱.txt
# 结果:19483 行
第2步:确认文件结构完整性
grep -n '广.*芳谱卷' 广群芳谱.txt
发现卷次跳跃:
- 卷一~卷九(天时谱六卷+谷谱三卷)✓
- 卷十~卷二十一 完全缺失(含桑麻谱卷十一、十二)
- 卷二十二~卷五十三(花谱三十二卷)✓
- 卷五十四以后 完全缺失(含果谱、木谱、竹谱、卉谱、药谱)
关键发现:桑麻谱(卷十一、十二)及卉谱(含染草:红花、茜草、蓝等卷八十九)均缺失!
第3步:5轮关键词搜索
① 第一轮:衣裳服冠帽巾带履鞋袜裘袍裙袂衿襟
grep -n '衣\|裳\|服\|冠\|帽\|巾\|带\|履\|鞋\|袜\|裘\|袍\|裙\|袂\|衿\|襟' 广群芳谱.txt
命中极多(数百行),绝大多数为诗词意象,需逐一过滤。
② 第二轮:丝帛绢锦绮绫罗缎纱绸麻葛布绵毡褐裘
grep -n '丝\|帛\|绢\|锦\|绮\|绫\|罗\|缎\|纱\|绸\|麻\|葛\|布\|绵\|毡\|褐\|裘' 广群芳谱.txt | wc -l
# 结果:960行命中
命中量巨大,需用精确复合词过滤。
③ 第三轮:舆服冠服章服服色品服命服朝服祭服丧服吉服
grep -n '舆服\|冠服\|章服\|服色\|品服\|命服\|朝服\|祭服\|丧服\|吉服' 广群芳谱.txt
命中1行:第16551行"旧朝服"(菊花品种别名,非制度文献)。
④ 第四轮:佩玉笏簪钗钏环珮鱼袋幞头
grep -n '佩玉\|笏\|簪\|钗\|钏\|环\|珮\|鱼袋\|幞头' 广群芳谱.txt
命中数十行,有效者如簪旛胜(2309行)、钗符(3686行)等。
⑤ 第五轮:织染绣裁缝缫纺练煮
grep -n '织\|染\|绣\|裁\|缝\|缫\|纺\|练\|煮' 广群芳谱.txt
命中数百行,有效者如缫车(1942行)、染缯帛(9232行)等。
第4步:精确复合词搜索
grep -n '衣冠\|衣裳\|朝服\|簪花\|戴花\|插花\|花冠\|罗衣\|罗裙\|锦衣\|锦袍\|锦帐\|丝帛\|染缯\|刺绣\|缫丝\|纺绩\|佩玉\|幞头\|簪花\|步摇\|翠翘\|丝带\|罗带\|锦带' 广群芳谱.txt
此轮有效缩小范围,命中约80条实质内容。
第5步:sed提取命中行上下文(大文件前后各3行)
for line in 2293 2649 3686 3694 1722 2309 2651 2889 2893 2795 2807 2857 3304 3366 3636 1016 1017 1018 3624 5032 1750 2711 2961 3045 3280 3530 3548 3732 3984 4772 16551 9232 9254 10070 10094 8181 8522 1932 1942 3750 5315 4822 3684; do
sed -n "$((line-3)),$((line+3))p" 广群芳谱.txt | nl -ba -v $((line-3))
done
成功提取40余处命中行上下文。
第6步:噪音过滤
大文件噪音极多,过滤规则:
- 诗词中"带"字作动词(带寒、带雨)→排除
- "丝"作蛛丝、游丝→排除
- "罗"作人名(罗尚书)或搜罗→排除
- "布"作分布、宣布→排除
- "练"作练习、熟练→排除
- "冠"作动词(冠时序)或"冠军"→排除
- 花卉品种名中"衣"(如苔衣)→排除
第7步:对抗式学术审查
逐条审查约40条有效结果:
1. "立春百官衣青衣服青帻"——制度性服饰,文献价值极高 ✓核心
2. "挑菜宴赏赐篦环领抹冠镯叚帛"——宫廷服饰赏赐清单 ✓核心
3. "端午赏赐金丝翠扇钗符香囊细葛香罗"——宫廷服饰赏赐 ✓核心
4. "辽端午絮衣艾衣合欢索长命缕"——少数民族服制 ✓核心
5. "红裙递相插挂以为宴幄"——民俗服饰创意 ✓核心
6. "栀子可染缯帛"——染料工艺 ✓核心
7. "红栀子花绣入衣服以绢素做首饰"——服饰工艺 ✓核心
8. "以花染缯为帐名芙蓉帐"——染织工艺 ✓核心
9. "蚕月条桑后妃躬桑"——蚕桑制度 ✓核心
10. "输绢租"——赋税制度 ✓核心
11. 诗词服饰意象——文学价值 ✓保留但标注为意象
第8步:产出三份MD文档
- 广群芳谱_总结.md ✓
- 广群芳谱_日志.md ✓(本文档)
- 广群芳谱_原文提取.md ✓
统计摘要
- 文件大小:1.39MB(大文件,grep+sed处理)
- 搜索关键词轮次:5+1(精确复合词)
- 原始命中行数:约1500+行
- 精确复合词过滤后:约80条
- 噪音过滤后有效条目:约40处
- 核心制度性服饰内容:6处
- 宫廷服饰赏赐:3处
- 民俗服饰:7处
- 蚕桑纺织:6处
- 染织工艺:6处
- 诗词服饰意象:17+处
- 桑麻谱缺失:卷十一、十二完全缺失,无法提取纺织原料专条内容