《扬州清曲曲词卷》服饰提取日志
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 扬州清曲曲词卷 |
| 输入文件 | /home/z/my-project/upload/剧曲/剧曲/扬州清曲曲词卷.txt |
| 输出目录 | /home/z/my-project/upload/剧曲output/扬州清曲曲词卷/ |
| 总行数 | 5500行 |
| 处理日期 | 2026-03-04 |
提取过程
第一步:总行数统计
wc -l → 5500行
第二步:关键词grep扫描
使用48个服饰关键词进行全文扫描:
衣、裳、冠、带、袍、裘、褐、巾、履、屦、绅、袂、裾、襟、裙、幅、弁、冕、簪、珥、佩、环、绮、罗、纱、绢、帛、锦、绣、练、絮、布、麻、丝、绸、缎、缯、绫、纨、绡、绶、绂、黼、黻、鹖、帻、帷、帐、幄、旗、旌、旆、纛
命中行数:311行
第三步:噪音过滤
过滤规则及排除量
| 噪音类型 | 关键词误用 | 排除行数(约) |
|---|---|---|
| 丫环(环=侍女) | 环→丫环 | ~15行 |
| 心绪如麻(麻=纷乱) | 麻→如麻/麻秸/麻木/麻油 | ~8行 |
| 柳絮/絮语(絮=飞絮/絮叨) | 絮→柳絮/絮飘飘/絮语 | ~7行 |
| 情丝(丝=情丝/藕断丝连) | 丝→情丝/丝难断/丝方尽 | ~8行 |
| 网罗(罗=网罗) | 罗→网罗 | ~3行 |
| 罗敷/般若般罗(罗=人名/译音) | 罗→专有名词 | ~3行 |
| 吕布(布=人名) | 布→吕布 | ~2行 |
| 带作动词(带=携带/带着) | 带→带书/带笑/带小跑 | ~10行 |
| 九连环/循环(环=玩具/循环) | 环→九连环/循环 | ~3行 |
| 恩爱绸缪(绸缪=成语) | 绸→绸缪 | ~1行 |
| 乌丝(丝=头发) | 丝→乌丝 | ~2行 |
| 绣楼/绣户/绣阁(绣=建筑装饰) | 绣→建筑 | ~8行 |
| 集锦(锦=汇集) | 锦→集锦 | ~2行 |
| 其他(财帛、幅作量词等) | 帛/幅/帏等 | ~5行 |
过滤后有效行数:164行(含部分重复段落)
第四步:去重与分类
- 独立条目(去重后):约90条
- 分为五大类:服装、首饰佩饰、织物面料、居室织物、旗帜装饰
- 重复条目标注原行号,不重复计入
第五步:上下文提取
对164条有效命中行,使用 sed -n 提取上下文(±2行),逐一确认服饰语境真实性,确认无遗漏、无误收。
提取结果统计
| 输出文件 | 大小 |
|---|---|
| 扬州清曲曲词卷_总结.md | 5.6KB |
| 扬州清曲曲词卷_原文提取.md | 8.6KB |
| 扬州清曲曲词卷_日志.md | 本文件 |
均≤20KB,符合要求。
关键词命中情况
| 关键词 | 命中行数 | 有效行数 | 主要噪音 |
|---|---|---|---|
| 衣 | ~50 | ~45 | 无 |
| 罗 | ~35 | ~20 | 网罗、罗敷、般若般罗 |
| 纱 | ~25 | ~22 | 纺纱婆(有效) |
| 绣 | ~20 | ~10 | 绣楼/绣户/绣阁(建筑) |
| 锦 | ~15 | ~8 | 集锦、锦簇(装饰) |
| 帐 | ~8 | ~8 | 无 |
| 帷/帏 | ~12 | ~12 | 无 |
| 裙 | ~10 | ~10 | 无 |
| 绫 | ~8 | ~8 | 无 |
| 丝 | ~20 | ~5 | 情丝、乌丝、藕断丝连 |
| 带 | ~15 | ~5 | 带书信/带笑颜/带小跑 |
| 环 | ~12 | ~4 | 丫环、九连环、循环 |
| 麻 | ~8 | 0 | 如麻、麻秸、麻木、麻油 |
| 絮 | ~7 | 0 | 柳絮、絮语 |
| 布 | ~6 | ~3 | 吕布(人名) |
| 绢 | ~1 | ~1 | 无 |
| 绡 | ~2 | ~2 | 无 |
| 帛 | ~1 | 0 | 财帛(非织物) |
| 巾 | ~2 | ~2 | 无 |
| 襟 | ~2 | ~2 | 无 |
| 袍 | ~1 | ~1 | 无 |
| 旗 | ~4 | ~4 | 无 |
| 冠/裘/褐/履/屦/绅/袂/裾/幅/弁/冕/簪/珥/佩/绮/练/缎/缯/纨/绶/绂/黼/黻/鹖/帻/幄/旌/旆/纛 | 0 | 0 | 全书未出现 |
质量自检
- 引用原文不转述:✅ 所有条目均为原文引用
- grep验证:✅ 所有条目经rg/grep确认行号
- 不加载整本TXT:✅ 仅使用sed -n按行号提取上下文
- 每篇≤20KB:✅ 三篇均远低于20KB
- 不凑字不灌水:✅ 噪音已过滤,重复已标注
- 关键词词库固化:✅ 未增删关键词