《广群芳谱》服饰内容提取日志

基本信息


操作步骤

第1步:确认文件大小

wc -c 广群芳谱.txt
# 结果:1392085 字节(大文件,严禁整本载入)
wc -l 广群芳谱.txt
# 结果:19483 行

第2步:确认文件结构完整性

grep -n '广.*芳谱卷' 广群芳谱.txt

发现卷次跳跃:
- 卷一~卷九(天时谱六卷+谷谱三卷)✓
- 卷十~卷二十一 完全缺失(含桑麻谱卷十一、十二)
- 卷二十二~卷五十三(花谱三十二卷)✓
- 卷五十四以后 完全缺失(含果谱、木谱、竹谱、卉谱、药谱)

关键发现:桑麻谱(卷十一、十二)及卉谱(含染草:红花、茜草、蓝等卷八十九)均缺失!

第3步:5轮关键词搜索

① 第一轮:衣裳服冠帽巾带履鞋袜裘袍裙袂衿襟

grep -n '衣\|裳\|服\|冠\|帽\|巾\|带\|履\|鞋\|袜\|裘\|袍\|裙\|袂\|衿\|襟' 广群芳谱.txt

命中极多(数百行),绝大多数为诗词意象,需逐一过滤。

② 第二轮:丝帛绢锦绮绫罗缎纱绸麻葛布绵毡褐裘

grep -n '丝\|帛\|绢\|锦\|绮\|绫\|罗\|缎\|纱\|绸\|麻\|葛\|布\|绵\|毡\|褐\|裘' 广群芳谱.txt | wc -l
# 结果:960行命中

命中量巨大,需用精确复合词过滤。

③ 第三轮:舆服冠服章服服色品服命服朝服祭服丧服吉服

grep -n '舆服\|冠服\|章服\|服色\|品服\|命服\|朝服\|祭服\|丧服\|吉服' 广群芳谱.txt

命中1行:第16551行"旧朝服"(菊花品种别名,非制度文献)。

④ 第四轮:佩玉笏簪钗钏环珮鱼袋幞头

grep -n '佩玉\|笏\|簪\|钗\|钏\|环\|珮\|鱼袋\|幞头' 广群芳谱.txt

命中数十行,有效者如簪旛胜(2309行)、钗符(3686行)等。

⑤ 第五轮:织染绣裁缝缫纺练煮

grep -n '织\|染\|绣\|裁\|缝\|缫\|纺\|练\|煮' 广群芳谱.txt

命中数百行,有效者如缫车(1942行)、染缯帛(9232行)等。

第4步:精确复合词搜索

grep -n '衣冠\|衣裳\|朝服\|簪花\|戴花\|插花\|花冠\|罗衣\|罗裙\|锦衣\|锦袍\|锦帐\|丝帛\|染缯\|刺绣\|缫丝\|纺绩\|佩玉\|幞头\|簪花\|步摇\|翠翘\|丝带\|罗带\|锦带' 广群芳谱.txt

此轮有效缩小范围,命中约80条实质内容。

第5步:sed提取命中行上下文(大文件前后各3行)

for line in 2293 2649 3686 3694 1722 2309 2651 2889 2893 2795 2807 2857 3304 3366 3636 1016 1017 1018 3624 5032 1750 2711 2961 3045 3280 3530 3548 3732 3984 4772 16551 9232 9254 10070 10094 8181 8522 1932 1942 3750 5315 4822 3684; do
  sed -n "$((line-3)),$((line+3))p" 广群芳谱.txt | nl -ba -v $((line-3))
done

成功提取40余处命中行上下文。

第6步:噪音过滤

大文件噪音极多,过滤规则:
- 诗词中"带"字作动词(带寒、带雨)→排除
- "丝"作蛛丝、游丝→排除
- "罗"作人名(罗尚书)或搜罗→排除
- "布"作分布、宣布→排除
- "练"作练习、熟练→排除
- "冠"作动词(冠时序)或"冠军"→排除
- 花卉品种名中"衣"(如苔衣)→排除

第7步:对抗式学术审查

逐条审查约40条有效结果:
1. "立春百官衣青衣服青帻"——制度性服饰,文献价值极高 ✓核心
2. "挑菜宴赏赐篦环领抹冠镯叚帛"——宫廷服饰赏赐清单 ✓核心
3. "端午赏赐金丝翠扇钗符香囊细葛香罗"——宫廷服饰赏赐 ✓核心
4. "辽端午絮衣艾衣合欢索长命缕"——少数民族服制 ✓核心
5. "红裙递相插挂以为宴幄"——民俗服饰创意 ✓核心
6. "栀子可染缯帛"——染料工艺 ✓核心
7. "红栀子花绣入衣服以绢素做首饰"——服饰工艺 ✓核心
8. "以花染缯为帐名芙蓉帐"——染织工艺 ✓核心
9. "蚕月条桑后妃躬桑"——蚕桑制度 ✓核心
10. "输绢租"——赋税制度 ✓核心
11. 诗词服饰意象——文学价值 ✓保留但标注为意象

第8步:产出三份MD文档


统计摘要