全元曲戏文·服饰提取日志

处理信息

项目 内容
输入文件 /home/z/my-project/upload/剧曲/剧曲/全元曲戏文.txt
输出目录 /home/z/my-project/upload/剧曲output/全元曲戏文/
书名 全元曲戏文
文件总行数 9507
所含戏文数 8

服饰关键词词库

衣、裳、冠、带、袍、裘、褐、巾、履、屦、绅、袂、裾、襟、裙、幅、弁、冕、簪、珥、佩、环、绮、罗、纱、绢、帛、锦、绣、练、絮、布、麻、丝、绸、缎、缯、绫、纨、绡、绶、绂、黼、黻、鹖、帻、帷、帐、幄、旗、旌、旆、纛

关键词命中统计

关键词 命中行数 备注
245 高频,含噪音
21
38
114 高频,含噪音
53 高频,含噪音
8
0 未出现
24
13
0 未出现
2
9
5
16
38
3
0 未出现
0 未出现
25
3
6
42
20
82 高频,含噪音
13
6
8
102 高频,含噪音
88 高频,含噪音
11
33
54 高频,含噪音
55 高频,含噪音
80 高频,含噪音
1
0 未出现
0 未出现
2
3
4
8
0 未出现
1
1
0 未出现
0 未出现
1
31
1
38
27
1
0 未出现

处理流程

  1. wc -l:确认总行数9507行
  2. 多轮grep:对48个服饰关键词逐一grep -n,统计命中行数
  3. 合并去重:所有命中行号合并去重,得885个唯一行号
  4. 上下文提取:对每个命中行取前后各1行上下文,sed提取共2428行
  5. 噪音过滤
  6. 曲牌名含关键词但正文无关者(如【锦堂月】之锦、【红绣鞋】之绣鞋)
  7. 非服饰用法复合词(如罗网之罗、麻木之麻)
  8. 隐喻/转义用法(如一丝之丝、循环之环)
  9. 高价值短语匹配:建立141个高价值服饰短语表,匹配得357行
  10. 曲牌名过滤:去除仅因曲牌名命中而正文无服饰内容之行,得有效行
  11. 评分排序:按服饰短语数量和特异性评分排序
  12. 按戏文选录:各戏文选最具代表性之服饰描写行

噪音过滤规则

非服饰用法过滤

关键词 过滤的非服饰用法
带领、地带、一带、连带、带着、带得、将带
宣布、分布、摆布、布置、布施、布政、布摆
丝毫、一丝、品竹弹丝
循环、环绕
麻木、麻烦、芝麻
练习、熟练、老练、练达
冠军、冠首
钦佩、敬佩、佩服
絮聒、絮叨
罗网、天罗、网罗、森罗、罗汉、紧那罗
了帐、清帐
绿绮琴
雁帛、鱼帛

曲牌名过滤

以下曲牌名含服饰关键词,但仅为曲调名称,非服饰描写:

红绣鞋、锦衣香、绣带儿、绣衣郎、绣停针、地锦花、锦堂月、锦缠道、锦天乐、傍妆台、西地锦、降黄龙、皂罗袍、罗帐里坐、脱布衫、摊破地锦花

各戏文服饰行统计

戏文 原始命中 高价值行 选录行数
小孙屠 22 21 10
荆钗记 91 90 15
幽闺记 30 30 15
白兔记 34 34 15
杀狗记 56 56 15
蔡伯喈琵琶记 80 80 15
张协状元 43 43 15
宦门子弟错立身 1 1 1

输出文件

文件名 说明
全元曲戏文_总结.md 服饰内容分类总结
全元曲戏文_原文提取.md 服饰相关原文选录
全元曲戏文_日志.md 本处理日志