《今古奇观》服饰内容提取 · 操作日志
时间:2026-04-19 任务:提取《今古奇观》全部服饰相关内容,整理分类总结 输入文件:/home/z/my-project/upload/part1/今古奇观.txt(3626行)
操作流程
Step 1: 文件检查
wc -l /home/z/my-project/upload/part1/今古奇观.txt
→ 3626行
文件规模适中,但遵循规则不整本载入LLM,采用grep+sed方式提取。
Step 2: 8轮grep关键词检索
| 轮次 | 关键词 | 命中行数(约) | 主要发现 |
|---|---|---|---|
| 1 | 衣/裳/袍/衫/袄/褂/裙/裤 | ~80行 | "佛是金装人是衣装"、衣衾棺椁、衣衫褴褛、锦袖花裙 |
| 2 | 冠/帽/巾/帻/笠/盔/缨/簪 | ~40行 | 纱帽象简、乌纱白发、万字头巾、箬笠、孝头巾 |
| 3 | 履/鞋/靴/袜/舄 | ~25行 | 皂靴、绣鞋、芒鞋、草履、麻鞋、镶鞋净袜 |
| 4 | 带/佩/环/钗/钏/镯/珠/玉 | ~50行 | 紫袍金带、红袍金带、翠钿金钏、瑶簪宝珥、碧玉玲珑 |
| 5 | 锦/缎/绸/绢/纱/罗/绫/帛 | ~60行 | 锦衣归故里、锦袍玉带、潞绸、湖绸道袍、绫罗 |
| 6 | 裘/褐/氅/毡/绒/棉/布/葛 | ~35行 | 蓑衣、貂帽狐裘、布帛、蓝布衫、青布唐巾 |
| 7 | 梳/妆/脂/粉/翠/金/银/绣 | ~70行 | 花钿绣袄、翠羽明珰、脂粉香泽、凤头玉簪 |
| 8 | 缟/绛/碧/赭/皂/紫/朱/赤 | ~45行 | 紫衣纱帽、皂布道袍、红袍金带、朱批 |
Step 3: 去重与筛选
8轮grep原始命中约405行,去重后筛选出约120行与服饰直接相关的关键行。排除标准: - 纯比喻用法(如"铁鞋"仅保留"踏破铁鞋"外的实际鞋履描写) - 重复引用同一描写(取最完整版本) - 非服饰语境中的关键词命中
Step 4: 分类整理
按9大类归类: 1. 官服与功名服饰(7条) 2. 女性服饰与妆饰(7条) 3. 男性日常服饰(6条) 4. 丧服与孝服(2条) 5. 面料与纺织品类(6条) 6. 首饰与配件(7条) 7. 鞋履(5条) 8. 服饰色彩(归纳性) 9. 服饰与社会观念(4条)
Step 5: 保存三份文件
/home/z/my-project/upload/1小说output/今古奇观/今古奇观_总结.md(分类总结+分析)/home/z/my-project/upload/1小说output/今古奇观/今古奇观_原文提取.md(逐条原文+行号)/home/z/my-project/upload/1小说output/今古奇观/今古奇观_日志.md(本文件)
关键发现
- "佛是金装,人是衣装"是全书核心服饰观念——潘华衣服炫丽受人追捧,萧雅不以穿着为事遭人轻视,直接论证服饰决定社会评价
- 杜十娘盛装是全书最完整的女性服饰清单——翠钿金钏、瑶簪宝珥、锦袖花裙、鸾带绣履,从头发到鞋履全覆盖
- 官服等级色彩严格——紫袍(高官)、红袍金带(四品以上)、皂靴(通用黑靴)
- 丧服制度完整呈现——闻氏的孝头巾+粗麻衫+麻绳+草履,符合传统丧服规制
- 面料等级分明——绫罗绸缎为富贵标志,布帛麻布为平民日用
- 首饰价值极高——翠羽明珰、瑶簪宝珥、祖母绿、猫儿眼等,首饰兼具装饰与财富功能
- 樵夫换装过程极细致——从箬笠蓑衣芒鞋到青布包巾蓝布衫,是全书最完整的换装描写
- 秦少游道士装扮最完整——青布唐巾+皂布道袍+黄绦+净袜草履+数珠+金漆钵盂
关键踩坑记录
- "衣"字在古代汉语中用法广泛(如"衣衾""衣食""衣冠"),需区分实际服饰描写与比喻/泛指用法
- "布衣"多为身份代称而非实际衣物描写,需单独归入社会观念类
- "金""银"作为首饰关键词命中过多(金银作为货币出现频繁),需筛选仅保留首饰语境
- "绣"字既有刺绣(服饰工艺)也有"绣花"(比喻),需甄别
- 卷七杜十娘故事中"脂粉香泽"为化妆品描写,虽非严格意义上的服饰,但与妆饰相关,予以保留
- "裹脚"为缠足布,属于内衣范畴,仅在吴八公子凌辱美娘情节中出现,具有特殊文化意义
审核清单
| 检查项 | 状态 | 说明 |
|---|---|---|
| 8轮grep全覆盖 | ✅ | 衣裳/冠帽/履鞋/佩饰/锦缎/裘布/妆饰/色彩 |
| 行号可溯源 | ✅ | 所有引用均标注原文行号 |
| 去重无遗漏 | ✅ | 8轮405行→去重120行关键行 |
| 分类逻辑清晰 | ✅ | 9大类,覆盖官服/女装/男装/丧服/面料/首饰/鞋履/色彩/观念 |
| 文件大小合规 | ✅ | 三份MD均≤20KB |
| 参照模板格式 | ✅ | 总结/日志/原文提取三份对齐参考模板 |
| 无批处理脚本 | ✅ | 全部逐条操作,无for循环 |