盛明杂剧初集二集 · 服饰提取日志

基本信息

  • 书名:盛明杂剧初集二集
  • 输入文件:/home/z/my-project/upload/剧曲/剧曲/盛明杂剧初集二集.txt
  • 输出目录:/home/z/my-project/upload/剧曲output/盛明杂剧初集二集/
  • 处理时间:2026年3月4日

处理流程

第1步:查总行数

  • 命令:wc -l 盛明杂剧初集二集.txt
  • 结果:9181行

第2步:多轮grep提取服饰关键词行号

  • 使用ripgrep对42个关键词逐一检索
  • 总命中行数:1295行(含重复行)
  • 去重后唯一命中行:1295行

各关键词命中行数统计

关键词 行数 关键词 行数 关键词 行数
273 27 86
230 64 37
2 50 28
2 1 14
5 19 65
25 3 6
22 4 33
43 29 153
53 5 18
167 140 15
36 62 56
77 12 7
1 2 14
37 6 0
0 0 0
3 4 74
4 50 33
7 2

零命中关键词

绂、黼、黻、鹖:全文无命中

第3步:上下文提取与噪音过滤

  1. 提取命中行±1行上下文,共3427行
  2. 将命中行分为三类:
  3. 服饰行(616行):含高置信度服饰关键词或明确服饰语境
  4. 边界行(656行):含歧义关键词(带、丝、锦、绣等),需进一步判别
  5. 噪音行(20行):关键词出现在非服饰语境

  6. 对边界行二次分类:

  7. 回收为服饰行:601行(含衣冠、锦衣、罗衫等明确服饰搭配)
  8. 确认为噪音:55行(含锦标[隐喻]、旗亭[地名]、波罗蜜[佛语]等)

  9. 合并去重后:有效服饰行1217行

  10. 显著性筛选:从1217行中筛选含明确服饰描述的显著行472条

  11. 筛选标准:含具体服饰名称(如锦袍、罗裙、峨冠)、穿戴动词(穿/脱/换/披/整)、多关键词共现(≥3个)、服饰搭配组合

第4步:剧目归属

全书60个剧目均含服饰相关内容,分布如下(按命中数排序,取前15):

剧目 显著服饰行数
死里逃生 43
男王后 23
昆仑奴 16
丹桂钿合 12
广陵月 13
红莲债 12
花舫缘 9
曲江春 16
红线女 15
不伏老 19
郁轮袍 11
夭桃纨扇 14
女状元 13
团花凤 10
相思谱 9

第5步:输出文件生成

  1. 盛明杂剧初集二集_总结.md(≤20KB)
  2. 全书概况、关键词统计、类别分析、代表剧目、特色总结

  3. 盛明杂剧初集二集_原文提取.md(≤20KB)

  4. 按剧目排列,每条标注行号及命中关键词
  5. ▶标记关键词命中行,含±1行上下文

  6. 盛明杂剧初集二集_日志.md(≤20KB)

  7. 完整处理流程记录

质量控制

  • 所有引用原文均经grep验证,未转述
  • 未加载整本TXT到内存,采用逐行索引方式
  • 三份输出文件均≤20KB
  • 零命中关键词如实记录