《曲海总目提要》服饰提取日志
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 曲海总目提要 |
| 输入文件 | /home/z/my-project/upload/剧曲/剧曲/曲海总目提要.txt |
| 输出目录 | /home/z/my-project/upload/剧曲output/曲海总目提要/ |
| 文件编码 | UTF-8(含CRLF换行) |
| 总行数 | 6745 |
| 处理时间 | 2026-05-11 10:50:46 |
处理流程
第一步:统计文件
wc -l获取总行数:6745行- 文件为UTF-8编码,含CRLF换行符
第二步:关键词grep
使用47个服饰关键词逐一grep:
- 衣、裳、冠、带、袍、裘、褐、巾、履、屦、绅、袂、裾、襟、裙、幅、弁、冕、簪、珥、佩、环、绮、罗、纱、绢、帛、锦、绣、练、絮、布、麻、丝、绸、缎、缯、绫、纨、绡、绶、绂、黼、黻、鹖、帻、帷、帐、幄、旗、旌、旆、纛
初始命中行数:1173行(占全书17.4%)
关键词命中分布(前10):
| 关键词 | 命中行数 |
|--------|----------|
| 衣 | 360 |
| 罗 | 188 |
| 锦 | 152 |
| 布 | 134 |
| 冠 | 130 |
| 带 | 128 |
| 佩 | 81 |
| 环 | 72 |
| 帐 | 58 |
| 旗 | 57 |
第三步:噪音过滤
识别并过滤以下噪音类型:
1. 带:地带、带领、带兵、带有 → 过滤,仅保留玉带、金带、犀带等服饰用法
2. 布:布置、分布、宣布、布施、布袋 → 过滤,仅保留布衣、布袄等服饰用法
3. 冠:冠军、冠以 → 过滤,仅保留冠带、加冠、玉芙蓉冠等服饰用法
4. 练:练习、训练 → 过滤
5. 幅:篇幅、幅员 → 过滤,仅保留裙幅等
6. 佩:钦佩、敬佩 → 过滤,仅保留佩玉、环佩等
7. 环:环境、环绕、循环 → 过滤,仅保留玉环、银环等
8. 帐:帐目、帐户 → 过滤,仅保留帷帐、五色帐等
过滤后高置信度服饰内容行:362行
第四步:分类整理
使用Python进行分类,将362行内容归入以下类别:
- 衣类(158行)、袍类(19行)、裘类(4行)、冠类(31行)、带类(33行)
- 巾类(9行)、履类(4行)、裙类(8行)、簪珥类(19行)、佩类(7行)
- 环类(24行)、纱类(11行)、帛类(24行)、锦绣类(25行)、绶绂类(7行)
- 帷帐幄类(11行)、绨袍葛衣类(17行)、荆钗布袄类(8行)、朝服类等
第五步:精选输出
从362行中精选最具服饰史料价值的条目,按类别组织输出。
同时收录含服饰关键词的剧目名47种。
输出文件
| 文件 | 大小 | 说明 |
|---|---|---|
| 曲海总目提要_总结.md | ~4KB | 服饰内容分类总结 |
| 曲海总目提要_原文提取.md | ~8KB | 原文关键段落提取 |
| 曲海总目提要_日志.md | ~3KB | 本处理日志 |
质量控制
- ✅ 引用原文不转述
- ✅ grep行号可验证
- ✅ 未加载整本TXT到内存(使用行号定位提取)
- ✅ 每篇≤20KB
- ✅ 不凑字不灌水
- ✅ 噪音过滤已执行
备注
- 本书中服饰内容主要散见于戏曲剧目提要的人物装扮描写、官服制度引述、赐服情节叙述
- "衣"类最多(158行),但需注意"衣饭"(生计义)等非服饰用法已尽量过滤
- 剧目名含服饰关键词者47种,录于原文提取附表