御定佩文斋广群芳谱 · 服饰内容提取日志
操作记录
步骤1:确认文件信息
wc -c 御定佩文斋广群芳谱.txt
# 结果:3860828字节(约3.86MB)
wc -l 御定佩文斋广群芳谱.txt
# 结果:9299行
# ⚠️ 超大文件,严禁整本载入LLM上下文
步骤2:5轮关键词grep检索(使用python逐行处理避免编码错误)
# 搜索1:衣裳服冠帽巾带履鞋袜裘袍裙袂衿襟
# 搜索2:丝帛绢锦绮绫罗缎纱绸麻葛布绵毡褐裘
# 搜索3:舆服冠服章服服色品服命服朝服祭服丧服吉服
# 搜索4:佩玉笏簪钗钏环珮鱼袋幞头
# 搜索5:织染绣裁缝缫纺练煮
搜索1结果(复合词):
- 衣裳:20+处命中(第1858、2081、2298、3223、3227等行)
- 衣冠:6处命中(第1624、2343、3214、4948、5300、6164行)
- 巾带:1处(第6291行)
- 衣带:2处(第3256、4229行)
搜索2结果(复合词):
- 锦绮:3处(第1657、2288、6960行)
- 葛布:3处(第2353、2354、2360行)
- 麻布:4处(第2337、2366、2556、5238行)
- 绵布:2处(第2367、2368行)
- 纺绩:4处(第2287、2300、2333、2365行)
- 絺绤:3处(第2352、2353、2356行)
- 缫丝:3处(第473、4531、4711行)
- 染缯:2处(第3766、3851行)
- 绛纱:3处(第2493、3061、3497行)
- 白绢:2处(第3034、3060行)
- 生绢:1处(第3174行)
- 纱罗:1处(第2275行)
- 织布:3处(第2337、2340、4408行)
- 织锦:4处(第2321、2672、3955、4674行)
- 织造:1处(第2340行)
- 蚕桑:4处(第2281、2284、2289、2367行)
- 蚕丝:1处(第2366行)
搜索3结果:
- 冠服:1处(第6287行)
- 朝服:1处(第4440行)
- 祭服:1处(第2280行)
搜索4结果:
- 佩玉/玉佩:8处(第3101、3727、3894、4144、4152、4233、4584、4587行)
- 织女:3处(第2298、2807、3403行)
搜索5结果(补充搜索):
- 缫车:2处(第1647、2297行)
- 机杼:2处(第2289、2309行)
- 裁衣:2处(第2494、3409行)
- 缝衣:2处(第2020、3038行)
- 成衣:2处(第2298、3404行)
- 制衣:2处(第2364、3421行)
- 染衣:3处(第3216、3499、3956行)
- 练丝:1处(第2297行)
- 煮茧:1处(第1819行)
- 浣纱:4处(第1632、1788、3138、3455行)
步骤3:sed提取关键段落
# 桑蚕丝织核心段落
sed -n '2275,2312p' 御定佩文斋广群芳谱.txt # 桑/蚕/丝织
# 苎麻纺织核心段落
sed -n '2333,2346p' 御定佩文斋广群芳谱.txt # 苎麻/大麻
# 葛纺织核心段落
sed -n '2351,2362p' 御定佩文斋广群芳谱.txt # 葛
# 木棉织布核心段落
sed -n '2363,2374p' 御定佩文斋广群芳谱.txt # 木棉
# 栀子染料段落
sed -n '3766,3770p' 御定佩文斋广群芳谱.txt # 栀子
步骤4:过滤噪音
- 排除"衣冠"表示"士大夫"的用法(如"文武衣冠被百蛮")
- 排除"布衣"表示"平民"的用法(如"云壑布衣骀背死")
- 排除诗文中纯比喻性用法(如"翠羽衣裳"喻花)
- 保留:制度性服饰、工艺性服饰、实质性织物描写
步骤5:对抗式审查
- 蚕桑丝织制度文献为高价值真实史料
- 丝织工艺流程(织图)为完整技术文献
- 葛麻纺织制度为先秦至汉代赋税服饰史料
- 木棉传播史为棉织史重要文献
- 染料植物为染色工艺核心史料
- 诗文服饰意象需区分真实描写与修辞比喻
步骤6:产出文档
- 御定佩文斋广群芳谱_总结.md
- 御定佩文斋广群芳谱_日志.md
- 御定佩文斋广群芳谱_原文提取.md