《金瓶梅词话万历本》服饰整理操作日志

一、基本信息

项目 内容
输入文件 /home/z/my-project/upload/part4/金瓶梅词话万历本.txt
文件规模 7198行,2,618,850字节
输出目录 /home/z/my-project/upload/4小说output/金瓶梅词话万历本/
处理日期 2026-03-04

二、关键词检索统计

核心词命中

关键词 命中行数 说明
衣裳 114 含"衣裳""衣服""衣冠"等
48 含"蟒袍""龙袍""道袍"等
61 含"纱衫""衫儿"等
129 最大量级日常服饰词
79 含"红袄""棉袄"等
101 含"忠靖冠""纱帽冠"等
77 含"毡帽""瓦楞帽"等
126 含"汗巾""孝巾""网巾"等
47 含"皂靴""粉底靴"等
143 最大量级足服词

面料材质词命中

关键词 命中行数
绫/罗/绸/缎/纱/锦 399
162
布/麻/棉 多处散见

纹饰与品类词

关键词 命中行数 说明
19 集中于蔡太师寿礼和官服场景
簪/钗/钏/镯 173 最高频配饰词群
朝服/公服/补服 极少 全书以"员领""蟒衣"代称

三、操作流程

步骤1:文件验证

wc -l 金瓶梅词话万历本.txt   # 7198行
wc -c 金瓶梅词话万历本.txt   # 2618850字节
mkdir -p /home/z/my-project/upload/4小说output/金瓶梅词话万历本/

步骤2:关键词批量检索

rg -c '衣裳|袍衫|衫裙|袄|裘|冠冕|弁|帽巾|帻|履舄|靴鞋|带佩|笏|绶' 金瓶梅词话万历本.txt
# 结果:177行命中

rg -c '丝|帛|绢|绸|缎|绫|罗|纱|锦|绮|缂|布|麻|葛|苎|棉' 金瓶梅词话万历本.txt
# 结果:598行命中(含大量非服饰用法的"丝""布"等)

rg -c '绣|纹|黼|黻|龙凤|蟒|鹤|狮' 金瓶梅词话万历本.txt
# 结果:261行命中

rg -c '紫|绯|青|朱|赭|玄' 金瓶梅词话万历本.txt
# 结果:422行命中(含大量非服饰色彩用法)

步骤3:细分词频统计

rg -n '衣裳' 金瓶梅词话万历本.txt | wc -l  # 114
rg -n '袍' 金瓶梅词话万历本.txt | wc -l    # 48
rg -n '衫' 金瓶梅词话万历本.txt | wc -l    # 61
rg -n '裙' 金瓶梅词话万历本.txt | wc -l    # 129
rg -n '袄' 金瓶梅词话万历本.txt | wc -l    # 79
rg -n '冠' 金瓶梅词话万历本.txt | wc -l    # 101
rg -n '帽' 金瓶梅词话万历本.txt | wc -l    # 77
rg -n '巾' 金瓶梅词话万历本.txt | wc -l    # 126
rg -n '靴' 金瓶梅词话万历本.txt | wc -l    # 47
rg -n '鞋' 金瓶梅词话万历本.txt | wc -l    # 143
rg -n '绫|罗|绸|缎|纱|锦' 金瓶梅词话万历本.txt | wc -l  # 399
rg -n '绣' 金瓶梅词话万历本.txt | wc -l    # 162
rg -n '蟒' 金瓶梅词话万历本.txt | wc -l    # 19
rg -n '簪|钗|钏|镯' 金瓶梅词话万历本.txt | wc -l  # 173

步骤4:重点段落上下文提取

对以下高价值场景进行上下文提取(前后5行): - 蟒衣/蟒袍相关段落(行1055、1653、1740、1972、3616、3622) - 官服上任场景(行2045) - 女性日常服饰(行579、854、3303) - 丧服场景(行467、4286) - 首饰信物(行381、958、2769) - 僧道服饰(行1972、3258、3303)

步骤5:精选与分类

从大量命中行中按以下标准精选代表性片段: 1. 每个类别3-5条,优先选择有完整服饰描写的段落 2. 排除仅提及"衣裳"二字无细节的段落 3. 保留行号以便溯源

步骤6:撰写三份MD文档

  1. 总结.md:结构化综述+学术审查
  2. 日志.md:操作记录(本文档)
  3. 原文提取.md:精选带行号片段

四、质量检查

检查项 结果
总结.md ≤ 20KB
日志.md ≤ 20KB
原文提取.md ≤ 20KB 待验证
每类精选3-5条
保留行号

五、备注