《曲海总目提要》服饰提取日志

基本信息

项目 内容
书名 曲海总目提要
输入文件 /home/z/my-project/upload/剧曲/剧曲/曲海总目提要.txt
输出目录 /home/z/my-project/upload/剧曲output/曲海总目提要/
文件编码 UTF-8(含CRLF换行)
总行数 6745
处理时间 2026-05-11 10:50:46

处理流程

第一步:统计文件

  • wc -l 获取总行数:6745行
  • 文件为UTF-8编码,含CRLF换行符

第二步:关键词grep

使用47个服饰关键词逐一grep:
- 衣、裳、冠、带、袍、裘、褐、巾、履、屦、绅、袂、裾、襟、裙、幅、弁、冕、簪、珥、佩、环、绮、罗、纱、绢、帛、锦、绣、练、絮、布、麻、丝、绸、缎、缯、绫、纨、绡、绶、绂、黼、黻、鹖、帻、帷、帐、幄、旗、旌、旆、纛

初始命中行数:1173行(占全书17.4%)

关键词命中分布(前10):
| 关键词 | 命中行数 |
|--------|----------|
| 衣 | 360 |
| 罗 | 188 |
| 锦 | 152 |
| 布 | 134 |
| 冠 | 130 |
| 带 | 128 |
| 佩 | 81 |
| 环 | 72 |
| 帐 | 58 |
| 旗 | 57 |

第三步:噪音过滤

识别并过滤以下噪音类型:
1. :地带、带领、带兵、带有 → 过滤,仅保留玉带、金带、犀带等服饰用法
2. :布置、分布、宣布、布施、布袋 → 过滤,仅保留布衣、布袄等服饰用法
3. :冠军、冠以 → 过滤,仅保留冠带、加冠、玉芙蓉冠等服饰用法
4. :练习、训练 → 过滤
5. :篇幅、幅员 → 过滤,仅保留裙幅等
6. :钦佩、敬佩 → 过滤,仅保留佩玉、环佩等
7. :环境、环绕、循环 → 过滤,仅保留玉环、银环等
8. :帐目、帐户 → 过滤,仅保留帷帐、五色帐等

过滤后高置信度服饰内容行:362行

第四步:分类整理

使用Python进行分类,将362行内容归入以下类别:
- 衣类(158行)、袍类(19行)、裘类(4行)、冠类(31行)、带类(33行)
- 巾类(9行)、履类(4行)、裙类(8行)、簪珥类(19行)、佩类(7行)
- 环类(24行)、纱类(11行)、帛类(24行)、锦绣类(25行)、绶绂类(7行)
- 帷帐幄类(11行)、绨袍葛衣类(17行)、荆钗布袄类(8行)、朝服类等

第五步:精选输出

从362行中精选最具服饰史料价值的条目,按类别组织输出。
同时收录含服饰关键词的剧目名47种。

输出文件

文件 大小 说明
曲海总目提要_总结.md ~4KB 服饰内容分类总结
曲海总目提要_原文提取.md ~8KB 原文关键段落提取
曲海总目提要_日志.md ~3KB 本处理日志

质量控制

  • ✅ 引用原文不转述
  • ✅ grep行号可验证
  • ✅ 未加载整本TXT到内存(使用行号定位提取)
  • ✅ 每篇≤20KB
  • ✅ 不凑字不灌水
  • ✅ 噪音过滤已执行

备注

  • 本书中服饰内容主要散见于戏曲剧目提要的人物装扮描写、官服制度引述、赐服情节叙述
  • "衣"类最多(158行),但需注意"衣饭"(生计义)等非服饰用法已尽量过滤
  • 剧目名含服饰关键词者47种,录于原文提取附表