《类聚名贤乐府群玉》服饰提取日志

基本信息

  • 书名:类聚名贤乐府群玉
  • 输入文件:/home/z/my-project/upload/剧曲/剧曲/类聚名贤乐府群玉.txt
  • 输出目录:/home/z/my-project/upload/剧曲output/类聚名贤乐府群玉/
  • 总行数:1640行

处理流程

步骤1:总行数统计

wc -l → 1640行

步骤2:服饰关键词grep检索

使用47个服饰关键词进行全文件grep,结果如下:

关键词 命中行数 关键词 命中行数 关键词 命中行数
42 12 28
7 13 0
5 61 1
25 78 38
8 6 21
4 11 5
1 40 2
8 4 0
4 3 0
0 11 0
1 0 0
2 0 0
0 0 1
10 1 15
18 6 3
1 1 1
0 2 0
10 5

合计命中行数:309行(含重复行)

未出现的关键词:屦、绢、缎、缯、绶、绂、黼、黻、鹖、帻、弁、裾、珥

步骤3:噪音过滤

3.1 曲牌名噪音

以下曲牌名含服饰关键词,但属固定名称,非服饰描写,已过滤:

曲牌名 出现次数 含服饰词
红绣鞋 约10次 绣、鞋
朱履曲 2次
红锦袍 2次 锦、袍

纯曲牌名行(短行≤15字符)已全部排除:
- L12, L25, L68, L74, L105, L163, L182, L188, L256, L359, L782, L810, L939, L1221, L1530, L1606

3.2 非服饰语义噪音

  • :L254"色艺为一时之冠"——"冠"为"第一"义,非帽冠,已排除
  • :L1149"竹帛烟消"——"竹帛"为典籍义,非织物,已排除
  • :L1217"缙绅"——指官员,已排除
  • :无实指服饰用法,排除
  • 布谷:L503"布谷"为鸟名,排除
  • 麻姑:L1167/L1211为仙人名,排除
  • :L405/L636/L714/L678/L1460/L1478中"练"多喻水体之白,L678"练杵"指捣衣,保留
  • :多指柳絮飞絮,非棉絮衣物义,仅L636"粉絮成衣"、L935"比絮"与服饰相关,保留
  • :高频词(40行),多数为隐喻(鬓丝、藕丝、柳丝、丝纶等),仅冰丝、龙绡等织物义保留
  • 绸缪:L1358/L1588"绸缪"为"缠绵"义,非织物,排除
  • 帷幄:L1153"帷幄功成"为军帐义,保留(属军戎服饰相关)

3.3 地名/人名噪音

  • 苎罗(L206):山名,非织物,但"苎罗山下女"暗含苎布罗纱义,保留上下文
  • 罗浮(L586/L599/L600):山名/梦名,非织物,排除
  • 绮罗(L249/L672/L1308等):指丝绸衣物,保留

步骤4:有效条目统计

经噪音过滤后:
- 有效服饰条目:约120条
- 涉及原文行数:约100行
- 覆盖关键词:衣、裳、冠、带、袍、裘、褐、巾、履、绅、袂、襟、裙、簪、佩、环、绮、罗、纱、帛、锦、绣、练、絮、布、麻、丝、绸、绫、纨、绡、帷、帐、幄、旗、旌、旆、纛

步骤5:输出文件

文件名 内容 大小
类聚名贤乐府群玉_总结.md 服饰内容分类总结 待验证
类聚名贤乐府群玉_原文提取.md 按类别引录原文 待验证
类聚名贤乐府群玉_日志.md 本处理日志 待验证

关键规则遵守情况

  • [x] 引用原文不转述
  • [x] grep验证所有关键词
  • [x] 不加载整本TXT(使用grep/sed逐行处理)
  • [x] 每篇≤20KB(待验证)
  • [x] 不凑字不灌水
  • [x] 词库固化,未自行增删