《新缀白裘》服饰提取日志

基本信息

  • 书名:新缀白裘
  • 输入文件:/home/z/my-project/upload/剧曲/剧曲/新缀白裘.txt
  • 输出目录:/home/z/my-project/upload/剧曲output/新缀白裘/
  • 处理时间:2026-03-05

处理流程记录

第一步:wc -l 查总行数

  • 结果:1623行

第二步:多轮grep -n提取服饰关键词行号

使用47个服饰关键词逐一检索,命中统计如下:

关键词 命中行数 关键词 命中行数 关键词 命中行数
93 76 31
30 36 41
42 20 22
21 21 21
20 19 19
16 15 11
11 10 8
8 8 6
7 8 4
4 3 3
1 1 1
1 1 1
1 1 1
1 0 0
0 0 0
0 0 0

合计命中行数:384行(含大量噪音)

第三步:sed -n提取上下文并过滤噪音

噪音类型及过滤方法

  1. 曲牌名含关键词:如【皂罗袍】含"罗"、【锦堂月】含"锦"——不作为服饰条目
  2. 非服饰语境
  3. "地带""期带"——"带"非服饰义
  4. "连衣""同衣"——"衣"为泛指而非具体服饰
  5. "流传""流传"——"传"非织物
  6. "练习""练"——非白绢义
  7. "麻雀""麻烦"——非麻布义
  8. "旗帜"在军事语境中的泛用
  9. 复合词判断:仅当关键词在服饰语境中使用时收录

过滤后有效服饰条目:约148条

第四步:输出三份MD文件

文件名 大小 说明
新缀白裘_总结.md 4.9KB 分类总结、统计、特色发现
新缀白裘_原文提取.md 8.0KB 按剧目分组的原文摘录
新缀白裘_日志.md 本文件 处理流程记录

三份文件合计:< 20KB × 3,均远小于20KB限制。

关键词覆盖验证

命中关键词(38个)

衣、裳、冠、带、袍、裘、褐、巾、履、袂、裾、襟、裙、幅、冕、簪、佩、环、绮、罗、纱、绢、帛、锦、绣、练、絮、布、麻、丝、绸、缯、绫、纨、绡、绶、帷、帐、旗、旌、旆

未命中关键词(9个)

屦、绅、弁、珥、黼、黻、鹖、帻、幄、纛、绂

说明:未命中关键词在本书中无服饰语境下的出现。

方法说明

  1. 全程使用 rg(ripgrep) 搜索,未加载整本TXT
  2. 原文引用不转述,保留原始文字
  3. 行号均指向原文件行号,可溯源验证
  4. 过滤标准:关键词须在服饰语境(穿戴、织物、旗帜等)中使用方收录