《綴白裘》服饰提取日志

基本信息

  • 书名:綴白裘
  • 输入文件:/home/z/my-project/upload/剧曲/剧曲/綴白裘.txt
  • 输出目录:/home/z/my-project/upload/剧曲output/綴白裘/
  • 文件大小:3.0MB
  • 总行数:15200行
  • 处理日期:2026-03-05

关键词命中统计

关键词 命中行数 关键词 命中行数 关键词 命中行数
477 63 139
387 88 121
1 64 16
3 11 17
3 29 97
24 7 13
47 2 40
105 27 246
70 7 17
187 189 19
49 123 127
127 11 9
0 11 12
18 9 0
10 1 0
1 8 105
5 122 71
1 4

合计:48个关键词,总命中约3660行次(含重复命中)


噪音过滤说明

已过滤类型

  1. 曲牌名:"皂罗袍"出现约40次,均为曲牌名,非服饰描写,已剔除
  2. "大红袍"曲牌:第9555行【大红袍】为曲牌名,非服饰
  3. "衣食"泛指:如"衣食饭碗""衣锦荣归""衣食"等泛指约60处,不收录
  4. "衣冠禽兽":成语用法,非服饰描写,已剔除
  5. "地带""带着"等非服饰义"带":约200处,已剔除
  6. "罗"字曲牌及人名:如"罗衣""罗帐"等已甄别收录,"罗"作为姓氏或地名已剔除
  7. "环"字非佩饰义:如"环顾""环境"等约70处已剔除
  8. "布"字非织物义:如"宣布""分布"等约80处已剔除
  9. "旗"字非旗帜义:如"旗竿"等军阵语境收录,"旗"作为地名等已剔除
  10. "麻"字非织物义:如"麻烦""麻地"等已剔除

实质服饰描写估计行数

经逐项过滤后,包含实质服饰描写的行约350-400行(去重后),占全书约2.3%-2.6%。


提取策略记录

  1. 第一步wc -l 确认总行数15200行,3.0MB,属大体量书籍
  2. 第二步:对48个服饰关键词逐一 rg -c 统计命中行数
  3. 第三步:对高频词(衣、袍、冠、裙等)用 rg -n 抽样查看上下文,判断实质描写占比
  4. 第四步:构造复合词组("紫袍金带""蟒袍玉带""凤冠霞帔"等)精准grep,定位核心描写
  5. 第五步:按服饰类别(官服/军戎/民服/女性/日常/帝王)分批提取原文
  6. 第六步:交叉验证——对每条提取结果再次grep确认行号与原文一致性

关键发现记录

行号 内容摘要 服饰价值
894 铁面乌纱,紫袍金带 官服品阶完整描写
1436 净蟒袍玉带上 舞台指示中的服饰标注
1878 "人是衣装,佛是金装" 谚语反映服饰观念
4733 除铁兜鍪、卸锦征袍、松狮蛮带 卸甲程式化描写
5561 累珠嵌宝冠、紫金凤额雉尾、大红袍绣团花 武将装束详写
6550-6553 纱帽圆领、束带、粉底皂靴 戏班行头采买细节
7407 披龙袍、歪带冲天冠 民间对帝王服饰的认知
1003 赭黄袍、绣鸾袍鸳鸯靴、豸冠 朝会仪仗服饰
2528 布袄荆钗 贫素服饰意象
2568-2588 凤冠霞帔 命妇封赠服饰

输出文件清单

文件名 大小限制 实际大小 内容
綴白裘_总结.md ≤20KB ~7KB 全书服饰内容总结分析
綴白裘_原文提取.md ≤20KB ~10KB 按类别编排的原文摘录
綴白裘_日志.md ≤20KB ~5KB 提取过程与统计记录

遗留说明

  1. 苏白段落的服饰用词:本书大量使用苏州方言对白,其中服饰用词(如"海青""凌云巾""圆领"等)的方言含义与标准官话可能略有差异,已按原文直录
  2. 舞台指示中的服饰:如"(净蟒袍玉带上)""(小生更衣换纱帽坐介)"等括号内舞台指示,视为服饰描写的直接证据,已重点收录
  3. "霓裳羽衣":在本书中主要为曲牌/曲谱名,但与服饰概念密切相关("霓裳"为裙、"羽衣"为衣),酌情收录并注明
  4. 个别低频词未命中:绂(0)、缯(0)、鹖(0)、黻(1)、帻(1)、旆(1) 等关键词在本书中基本未出现实质服饰描写