《全芳备祖集》服饰提取操作日志
基本信息
- 源文件:/home/z/my-project/upload/part1_extracted/全芳备祖集.txt
- 文件大小:893,253 字节(893KB)→ 超过500KB,禁止全文读取
- 输出目录:/home/z/my-project/upload/p1output/全芳备祖集/
操作步骤
步骤1:文件大小检查
- 命令:
wc -c 全芳备祖集.txt
- 结果:893253字节 → 确认不可全文载入
步骤2:第一轮grep(核心词16个)
| 关键词 |
命中行数 |
| 衣 |
极多(约200+) |
| 裳 |
约60 |
| 冠 |
约60 |
| 冕 |
1 |
| 巾 |
约20 |
| 帽 |
4 |
| 袍 |
12 |
| 衫 |
26 |
| 裙 |
39 |
| 裘 |
11 |
| 带 |
186 |
| 佩 |
60 |
| 履 |
34 |
| 舄 |
1 |
| 靴 |
2 |
步骤3:第二轮grep(制度词10个)
| 关键词 |
命中数 |
| 服色 |
0 |
| 舆服 |
0 |
| 冠服 |
0 |
| 章服 |
1(实际为"服食",误判) |
| 朝服 |
0 |
| 祭服 |
0 |
| 丧服 |
0 |
| 吉服 |
0 |
| 常服 |
0 |
| 公服 |
1 |
步骤4:第三轮grep(材质词15个)
| 关键词 |
命中数 |
| 丝 |
149 |
| 帛 |
7 |
| 绢 |
10 |
| 锦 |
186 |
| 绮 |
32 |
| 绫 |
4 |
| 罗 |
166 |
| 缎 |
0 |
| 绸 |
4 |
| 缂丝 |
0 |
| 葛 |
21 |
| 麻 |
51 |
| 布 |
40 |
| 褐 |
4 |
步骤5:第四轮grep(品色词10个)
| 关键词 |
命中数 |
| 紫袍 |
1 |
| 绯袍 |
0 |
| 绿袍 |
0 |
| 赐紫 |
0 |
| 赐绯 |
0 |
| 鱼袋 |
0 |
| 笏 |
0 |
| 幞头 |
0 |
| 金带 |
4 |
| 玉带 |
0 |
步骤6:第五轮grep(配饰词13个)
| 关键词 |
命中数 |
| 旂 |
7 |
| 旗 |
15 |
| 章 |
73 |
| 珮 |
0 |
| 环 |
29 |
| 玦 |
0 |
| 簪 |
11 |
| 钗 |
25 |
| 钿 |
23 |
| 翠 |
302 |
| 珠 |
193 |
| 玉 |
767 |
步骤7:上下文提取与筛选
- 对高价值关键词(袍、衫、裙、裘、帽、靴、舄、钗、钿、簪、金带、紫袍等)执行详细grep -n
- 对制度词/品色词执行精确grep
- 对行7222(蚕桑丝帛)、行3937(品服升迁)、行420(清平调)、行906(琼花赋)、行6604(深衣)等关键行执行sed上下文提取
- 筛选原则:区分"花喻衣裳"与"实写服饰",剔除纯植物学用法的"翠""玉""锦"等
步骤8:分类整理
- 将提取结果按8大类别整理:衣裳类、冠冕类、袍衫类、裙带类、巾帽类、配饰类、材质染织类、特殊典故
- 对每类进行学术价值评估
步骤9:对抗式学术审查
- 随机抽取10条关键引文回查原文,全部通过
- 识别并纠正"章服"误判(实际为"服食")
- 明确标注花喻与实写之别
关键发现统计
| 类别 |
有效服饰记录数 |
| 品服制度 |
1条(鹄袍换绿赐银绯) |
| 日常穿戴 |
约15条(纱帽、纶巾、角巾、簪花等) |
| 女子服饰 |
约20条(裙、衫、钗钿等) |
| 蚕桑丝帛 |
1条集中段落(行7222) |
| 花喻衣裳 |
约100+条(文学修辞) |
| 丧服 |
1条(缞麻) |
方法论备注
- 严格执行"先grep再处理"原则,未全文载入LLM上下文
- 命中数与有效记录数差异巨大——大量命中为比喻用法而非实写服饰
- "翠""玉""珠""锦"等高频词需逐条人工判断是否为服饰用途
- 本书为植物类书,服饰内容皆为间接附带,无专章论述
↑