《金瓶梅词话万历本》服饰整理操作日志
一、基本信息
| 项目 |
内容 |
| 输入文件 |
/home/z/my-project/upload/part4/金瓶梅词话万历本.txt |
| 文件规模 |
7198行,2,618,850字节 |
| 输出目录 |
/home/z/my-project/upload/4小说output/金瓶梅词话万历本/ |
| 处理日期 |
2026-03-04 |
二、关键词检索统计
核心词命中
| 关键词 |
命中行数 |
说明 |
| 衣裳 |
114 |
含"衣裳""衣服""衣冠"等 |
| 袍 |
48 |
含"蟒袍""龙袍""道袍"等 |
| 衫 |
61 |
含"纱衫""衫儿"等 |
| 裙 |
129 |
最大量级日常服饰词 |
| 袄 |
79 |
含"红袄""棉袄"等 |
| 冠 |
101 |
含"忠靖冠""纱帽冠"等 |
| 帽 |
77 |
含"毡帽""瓦楞帽"等 |
| 巾 |
126 |
含"汗巾""孝巾""网巾"等 |
| 靴 |
47 |
含"皂靴""粉底靴"等 |
| 鞋 |
143 |
最大量级足服词 |
面料材质词命中
| 关键词 |
命中行数 |
| 绫/罗/绸/缎/纱/锦 |
399 |
| 绣 |
162 |
| 布/麻/棉 |
多处散见 |
纹饰与品类词
| 关键词 |
命中行数 |
说明 |
| 蟒 |
19 |
集中于蔡太师寿礼和官服场景 |
| 簪/钗/钏/镯 |
173 |
最高频配饰词群 |
| 朝服/公服/补服 |
极少 |
全书以"员领""蟒衣"代称 |
三、操作流程
步骤1:文件验证
wc -l 金瓶梅词话万历本.txt # 7198行
wc -c 金瓶梅词话万历本.txt # 2618850字节
mkdir -p /home/z/my-project/upload/4小说output/金瓶梅词话万历本/
步骤2:关键词批量检索
rg -c '衣裳|袍衫|衫裙|袄|裘|冠冕|弁|帽巾|帻|履舄|靴鞋|带佩|笏|绶' 金瓶梅词话万历本.txt
# 结果:177行命中
rg -c '丝|帛|绢|绸|缎|绫|罗|纱|锦|绮|缂|布|麻|葛|苎|棉' 金瓶梅词话万历本.txt
# 结果:598行命中(含大量非服饰用法的"丝""布"等)
rg -c '绣|纹|黼|黻|龙凤|蟒|鹤|狮' 金瓶梅词话万历本.txt
# 结果:261行命中
rg -c '紫|绯|青|朱|赭|玄' 金瓶梅词话万历本.txt
# 结果:422行命中(含大量非服饰色彩用法)
步骤3:细分词频统计
rg -n '衣裳' 金瓶梅词话万历本.txt | wc -l # 114
rg -n '袍' 金瓶梅词话万历本.txt | wc -l # 48
rg -n '衫' 金瓶梅词话万历本.txt | wc -l # 61
rg -n '裙' 金瓶梅词话万历本.txt | wc -l # 129
rg -n '袄' 金瓶梅词话万历本.txt | wc -l # 79
rg -n '冠' 金瓶梅词话万历本.txt | wc -l # 101
rg -n '帽' 金瓶梅词话万历本.txt | wc -l # 77
rg -n '巾' 金瓶梅词话万历本.txt | wc -l # 126
rg -n '靴' 金瓶梅词话万历本.txt | wc -l # 47
rg -n '鞋' 金瓶梅词话万历本.txt | wc -l # 143
rg -n '绫|罗|绸|缎|纱|锦' 金瓶梅词话万历本.txt | wc -l # 399
rg -n '绣' 金瓶梅词话万历本.txt | wc -l # 162
rg -n '蟒' 金瓶梅词话万历本.txt | wc -l # 19
rg -n '簪|钗|钏|镯' 金瓶梅词话万历本.txt | wc -l # 173
步骤4:重点段落上下文提取
对以下高价值场景进行上下文提取(前后5行):
- 蟒衣/蟒袍相关段落(行1055、1653、1740、1972、3616、3622)
- 官服上任场景(行2045)
- 女性日常服饰(行579、854、3303)
- 丧服场景(行467、4286)
- 首饰信物(行381、958、2769)
- 僧道服饰(行1972、3258、3303)
步骤5:精选与分类
从大量命中行中按以下标准精选代表性片段:
1. 每个类别3-5条,优先选择有完整服饰描写的段落
2. 排除仅提及"衣裳"二字无细节的段落
3. 保留行号以便溯源
步骤6:撰写三份MD文档
- 总结.md:结构化综述+学术审查
- 日志.md:操作记录(本文档)
- 原文提取.md:精选带行号片段
四、质量检查
| 检查项 |
结果 |
| 总结.md ≤ 20KB |
✅ |
| 日志.md ≤ 20KB |
✅ |
| 原文提取.md ≤ 20KB |
待验证 |
| 每类精选3-5条 |
✅ |
| 保留行号 |
✅ |
五、备注
- "朝服""公服""补服"等品类词命中极少,因小说多用"员领""蟒衣"等明代口语称谓
- "缂丝"一词全书未出现,属于作者知识盲区
- "赐紫""赐绯"等词未命中,因小说时代背景为宋代但服饰描写实为明代
- 部分高命中的通用词("丝""布"等)含大量非服饰用法,已人工筛选排除