《六十种曲紫钗记》服饰内容提取日志

基本信息

  • 书名:六十种曲紫钗记
  • 输入文件:/home/z/my-project/upload/剧曲/剧曲/六十种曲紫钗记.txt
  • 输出目录:/home/z/my-project/upload/剧曲output/六十种曲紫钗记/
  • 总行数:1418行
  • 处理时间:2026-03-04

处理流程

第一步:wc -l 统计行数

  • 结果:1418行

第二步:多轮grep提取服饰关键词

使用50个服饰关键词逐批检索,共分6轮:

轮次 关键词 命中行数(去重前)
1 37行
2 4行
3 17行
4 23行
5 24行
6 0行
7 褐巾履屦绅袂裾襟 12行
8 裙幅弁冕簪珥佩环 30行
9 绮罗纱绢帛锦绣练絮 92行(含大量曲牌名等噪音)
10 布麻丝绸缎缯绫纨绡 22行
11 绶绂黼黻鹖帻帷帐幄 10行
12 旗旌旆纛 25行
13 补充检索:襦衾褐绅屦弁冕珥幅 9行
14 补充检索:绫纨缯绸缎练絮布麻 20行

第三步:噪音过滤

已识别并过滤的噪音类型:

噪音类型 示例 处理方式
曲牌名含关键词 【白练序】【绵搭絮】【绣带儿】【皂罗袍】 标注非服饰用
牡丹品名用"褐" "驼褐霏烟"(第1295行) 标注非服饰用
植物名含"丝" "游丝落絮""丝萝契"等 仅保留服饰相关
"丝"作其他含义 "红丝"(姻缘)、"靑丝"(头发/马缰) 区分标注
"幅"作量词 "半幅秋光" 排除
"布"作动词 "布下春风""布施" 排除
"锦"用于非服饰 "锦字""锦书"(书信) 部分保留作织物延伸义
"绣"用于非服饰 曲牌名"绣刻演剧"等 标注或排除
通用词"旗" "酒旗""旗亭"(酒馆) 保留,属旗帜延伸

第四步:去重合并

多关键词命中同一行时仅记录一次,最终去重后有效服饰相关行约120行。


关键词命中统计

关键词 命中行数 有效服饰行 备注
37 33 高频,多与官服、寒衣相关
4 4 低频,均与"衣裳"连用
17 14 部分为"冠世""冠盖"等非服饰用
23 16 部分为"带书""带领"等动词用法
24 24 全部为服饰相关
0 0 未出现
1 0 "驼褐"为花名,非服饰
6 6 含巾箱、纶巾、轻纱巾
2 2 "剑履""同谐并履"
0 0 未出现
0 0 未出现
2 2 "罗袂""障袂"
0 0 未出现
2 2 "整襟""一襟"
11 11 全部为女性服饰
0 0 "半幅"为量词非服饰
0 0 未出现
0 0 未出现
8 8 全部为首饰相关
1 1 "堕珥遗簪"
9 9 含杂佩、金鱼佩、佩环等
5 5 含佩环、铜环、金环
3 3 "罗绮""绮罗丛"
14 14 高频织物词
11 10 含碧纱、纱窗、纱帽
0 0 未出现
0 0 未出现
30+ 25 高频,部分为书信等延伸用法
20+ 15 含绣裙、绣鞋、绣幙等
1 0 "白练序"为曲牌名
4 2 仅2行与服饰(衬褥)相关
5 1 仅"花蕊布"1行为服饰
1 0 "胡麻"非服饰
20+ 8 大量为非服饰用法(红丝、靑丝等)
0 0 未出现
0 0 未出现
0 0 未出现
0 0 未出现
0 0 未出现
5 5 鲛绡、轻绡、红绡
1 1 "龟纹绶花"
0 0 未出现
0 0 未出现
0 0 未出现
0 0 未出现
1 1 "绿鞴文帻"
0 0 未独立出现(含在"罗帏"中)
6 6 锦帐、罗帐、毡帐
1 1 "晓幄"
20+ 15 含军旗、酒旗等
6 6 旌旗、旌竿、汉旌
0 0 未出现
1 1 "绣纛"

未命中关键词(共18个)

裘、褐(非服饰)、屦、绅、裾、幅(非服饰)、弁、冕、绢、帛、绸、缎、缯、绫、纨、绂、黼、黻、鹖、旆


输出文件清单

文件名 大小 内容
六十种曲紫钗记_总结.md ≤20KB 服饰类型总览与叙事功能分析
六十种曲紫钗记_原文提取.md ≤20KB 按关键词分类辑录原文
六十种曲紫钗记_日志.md ≤20KB 本文件,处理流程记录

质量控制

  • ✅ 引用原文不转述
  • ✅ 全部grep验证
  • ✅ 未加载整本TXT(使用rg逐行检索+sed上下文提取)
  • ✅ 每篇≤20KB
  • ✅ 不凑字不灌水
  • ✅ 噪音已标注过滤