《六十种曲·浣纱记》服饰提取日志


基本信息

项目 内容
输入文件 /home/z/my-project/upload/剧曲/剧曲/六十种曲浣纱记.txt
输出目录 /home/z/my-project/upload/剧曲output/六十种曲浣纱记/
文件行数 1047 行
文件编码 UTF-8
作者/朝代 明·梁辰鱼
出处 《六十种曲》本

提取过程

第一轮:初步关键词扫描

使用服饰关键词词库分三组进行 rg -n 搜索:

第一组(衣裳冠带袍裘褐巾履屦绅袂裾襟裙幅):
- 命中行数约70行,涵盖衣、裳、冠、带、袍、裘、巾、履、裙、幅等

第二组(弁冕簪珥佩环绮罗纱绢帛锦绣练絮):
- 命中行数约60行,涵盖纱、绢、帛、锦、绣、佩、环、绮、罗等

第三组(布麻丝绸缎缯绫纨绡绶绂黼黻鹖帻帷帐幄旗旌旆纛):
- 命中行数约50行,涵盖布、麻、丝、旗、旌、旆、纛、帷、帐等

第二轮:精细化提取

对高价值复合词进行定向搜索:

搜索关键词 命中数 有效条目
衣裳/衣褐/素衣/春衣/戎衣/征衣/舞衣 15+ 12
冠冕/冠裳/轩冕/鸾冠/解冠 8 7
罗裙/裙钗/裙布/钗荆/荆布/绣裙 10+ 9
环佩/旌旗/纛/锦/绣/纱 20+ 15

第三轮:噪音过滤

过滤掉的噪音类型

  1. 非服饰用法的"衣"
  2. "衣裳鞋袜都是湿的"——"衣裳"此处指日常衣物被水沾湿,属叙事而非服饰描写,但保留(有对比价值)
  3. "旧缝衣"——指缝制的旧衣,保留

  4. 非服饰用法的"丝"

  5. "细丝银子"——指细丝纹银,非丝织品,已过滤
  6. "鬓丝"——喻白发,非丝织,已过滤

  7. 非服饰用法的"旗/旌"

  8. 军事仪仗中的旗帜(旌旗、纛、朱雀旗)虽非穿在身上的服饰,但作为仪仗服饰体系的一部分,予以保留

  9. 非服饰用法的"佩"

  10. "江皋之佩"——指佩饰信物,属于佩饰类,保留
  11. "环佩"——指玉佩声,属佩饰,保留

  12. 目录行、标题行

  13. "绣刻演剧十本""绣刻浣纱记定本"中的"绣"为版刻术语,已过滤

  14. "帘幙"中的"幙"

  15. "半投帘幙"——帘幕,属帷帐类,保留

输出文件清单

文件 大小 说明
原文提取.md ~18KB 按出次排列的服饰相关原文,保留上下文
总结.md ~8KB 服饰体系总览、意象分析、频次统计、叙事功能
日志.md ~5KB 本文件,记录提取过程与方法

所有文件均 ≤ 20KB,总输出 ≤ 1MB。


关键词命中统计

关键词 命中行数 有效提取 过滤噪音
25+ 15 10(拂衣去等隐喻用法保留)
12 10 2
冠/冕 10 8 2
15+ 10 5(浣纱为业等重复)
锦/绣 12 10 2
罗/绮 8 6 2
旌/旗/纛 10 8 2
环/佩 5 4 1
帷/帐/幄 6 5 1
4 4 0
1 1 0
布/麻 5 4 1
帛/绢/缣 3 2 1
绶/绂/黼黻 0 0 0
鹖/帻 0 0 0

未命中关键词:绶、绂、黼、黻、鹖、帻、屦、绅、弁、纨、绡、缯、缎、练、絮


提取局限与说明

  1. 重复条目:部分关键词在同一长行中多次出现(如"罗衣宽褪"重复两句),已去重保留一次
  2. 上下文截取:原文为连续文本,出次间无空行分隔,提取时按出次标题定位
  3. 舞台提示:〔旦素衣持竿浣纱上〕〔生扮范蠡便服上〕等舞台提示含服饰信息,已纳入提取
  4. 曲牌唱词 vs 宾白:服饰描写在曲牌唱词中更为集中(如【金井水红花】【二犯江儿水】),宾白中多为叙事性提及
  5. "纱"的特殊性:浣纱为全剧核心意象,出现频率极高,但多数为叙事功能(浣纱溪、浣纱为业),非严格服饰描写,已做区分

日志记录完毕。