《六十种曲·玉合记》服饰提取日志

基本信息

项目 内容
输入文件 /home/z/my-project/upload/剧曲/剧曲/六十种曲玉合记.txt
输出目录 /home/z/my-project/upload/剧曲output/六十种曲玉合记/
文件行数 990行
文件大小 176KB
提取时间 2026-03-05

关键词词库

衣裳冠带袍裘褐巾履屦绅袂裾襟裙幅弁冕簪珥佩环绮罗纱绢帛锦绣练絮布麻丝绸缎缯绫纨绡绶绂黼黻鹖帻帷帐幄旗旌旆纛


提取过程

第一轮:分批grep提取行号

按关键词分6批执行grep -n:

批次 关键词 命中行数
1 衣裳冠带袍裘褐 38行
2 巾履屦绅袂裾襟裙幅 26行
3 弁冕簪珥佩环绮罗纱绢 42行
4 帛锦绣练絮布麻丝绸缎 36行
5 缯绫纨绡绶绂黼黻鹖帻 16行
6 帷帐幄旗旌旆纛 18行

合计去重后约110+行含服饰关键词。

第二轮:去重与噪音过滤

噪音判定标准
- 纯曲牌名中的字(如"绣刻"作为刻本标识,第5、9行)→ 保留"绣刻演剧"行但标注为刻本标识
- 舞台提示中的功能性服饰(如"冠带"作为出场说明)→ 保留,属于角色身份标识
- 通用语词中的非服饰义(如"线索"之"丝")→ 逐条判断

过滤结果
- "丝竹"(第97行):乐器,非服饰 → 过滤
- "丝萝"(第308行):比喻,非织物 → 过滤
- "丝纶"(第970、982行):指代官职,非织物 → 过滤
- "游丝"(第461行):比喻,非织物 → 过滤
- "红丝"(第628行):比喻姻缘,非织物 → 过滤
- 其余均保留

第三轮:未命中关键词

以下关键词在全文中未出现服饰义用法:

关键词 状态
未命中
未命中
未命中
未命中
未命中
未命中
未命中
未命中
未命中
未命中
未命中
未命中
未命中
未命中
未命中

15个关键词未命中服饰义用法。

第四轮:验证关键条目

对核心服饰描写段落,用grep逐条验证原文准确性:

验证行 关键词 验证结果
92 杏子衫/茱萸带/罗袜/金裙 ✅ 通过
94 冰纨/罗袜/弓鞋/锦带 ✅ 通过
410 宫袍/乌帽 ✅ 通过
497 平天冠/衮衣/十二章 ✅ 通过
578 伽帽缁衣/星冠羽衣 ✅ 通过
553 宫衣/素纨/文簟 ✅ 通过
383 狐裘/锦绣 ✅ 通过

文件大小检查

文件 大小 限制 状态
01_服饰提取总结.md <20KB ≤20KB
02_服饰原文提取.md <20KB ≤20KB
03_提取日志.md <20KB ≤20KB
合计 <1M ≤1M

提取统计

指标 数量
全文总行数 990
服饰关键词命中行数(去重) ~110
提取服饰条目数 ~135
命中关键词种类 23/38
未命中关键词种类 15/38
命中率 60.5%

注意事项

  1. 全文990行,采用grep逐行提取,未加载整本TXT到内存
  2. 引用原文均保持原字,包括异体字如"■〈毛叠〉""■〈氵束鸟〉"等
  3. 行号以原始文件行号为基准,可据此sed定位
  4. "绣刻"出现在第5、9行,为刻本标识("绣刻演剧""绣刻玉合记定本"),非服饰用语,已过滤
  5. "冠带"多次出现,多为舞台说明中角色身份标识,属于功能性服饰描述
  6. "鲛绡"出现7次,为本剧重要服饰意象,承载书信传情功能