娇红记 服饰提取日志
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 娇红记 |
| 输入文件 | /home/z/my-project/upload/剧曲/剧曲/娇红记.txt |
| 输出目录 | /home/z/my-project/upload/剧曲output/娇红记/ |
| 文件总行数 | 1354 |
| 提取时间 | 2026-03-05 |
处理流程
第一步:wc -l 查总行数
$ wc -l 娇红记.txt
1354 娇红记.txt
文件共1354行,体量适中。
第二步:多轮grep -n提取服饰关键词行号
使用词库全部48个关键词,以rg -n(ripgrep)批量检索:
rg -n '衣|裳|冠|带|袍|裘|褐|巾|履|屦|绅|袂|裾|襟|裙|幅|弁|冕|簪|珥|佩|环|绮|罗|纱|绢|帛|锦|绣|练|絮|布|麻|丝|绸|缎|缯|绫|纨|绡|绶|绂|黼|黻|鹖|帻|帷|帐|幄|旗|旌|旆|纛' 娇红记.txt
初步命中252行。
第三步:逐词统计命中数
| 关键词 | 命中行数 | 关键词 | 命中行数 | 关键词 | 命中行数 |
|---|---|---|---|---|---|
| 衣 | 36 | 裳 | 6 | 冠 | 9 |
| 带 | 28 | 袍 | 7 | 裘 | 5 |
| 褐 | 1 | 巾 | 1 | 履 | 3 |
| 屦 | 0 | 绅 | 0 | 袂 | 2 |
| 裾 | 1 | 襟 | 3 | 裙 | 7 |
| 幅 | 6 | 弁 | 0 | 冕 | 0 |
| 簪 | 3 | 珥 | 0 | 佩 | 4 |
| 环 | 3 | 绮 | 2 | 罗 | 41 |
| 纱 | 28 | 绢 | 1 | 帛 | 1 |
| 锦 | 65 | 绣 | 87 | 练 | 5 |
| 絮 | 5 | 布 | 0 | 麻 | 4 |
| 丝 | 22 | 绸 | 5 | 缎 | 0 |
| 缯 | 0 | 绫 | 1 | 纨 | 1 |
| 绡 | 11 | 绶 | 0 | 绂 | 0 |
| 黼 | 0 | 黻 | 0 | 鹖 | 0 |
| 帻 | 0 | 帷 | 0 | 帐 | 28 |
| 幄 | 0 | 旗 | 6 | 旌 | 2 |
| 旆 | 0 | 纛 | 0 |
第四步:噪音过滤
过滤规则:
1. 地名含关键词者剔除:锦江(地名)、锦城(地名)
2. 建筑名含关键词但非服饰者标注:绣房、绣阁、绣窗、锦堂
3. 曲牌名含关键词者标注但不计入服饰:皂罗袍、放袍莺、捣练子等
4. 动作义非服饰义者标注:带领、提带、牵衣(动作)、拂衣(动作)
5. 比喻义而非实物者标注:雨丝、丝簧、蛛丝等
噪音率估算:
- 锦:65命中 → ~25有效,噪音率约62%(地名锦江/锦城/锦笺等)
- 绣:87命中 → ~30有效,噪音率约66%(绣房/绣阁/绣窗等建筑名)
- 罗:41命中 → ~15有效,噪音率约63%(曲牌/人名等)
- 纱:28命中 → ~5有效,噪音率约82%(纱窗建筑)
- 带:28命中 → ~7有效,噪音率约75%(带领/提带动词)
- 丝:22命中 → ~5有效,噪音率约77%(雨丝/丝簧比喻)
低噪音关键词: 裘(5/5=100%)、裙(7/7=100%)、裳(4/6=67%)、绡(9/11=82%)、佩(3/4=75%)
第五步:分轮验证
对高噪音关键词(锦、绣、罗、纱、带、丝),逐一读取grep结果,人工判断是否为服饰语境,仅保留服饰相关原文。
对低噪音关键词直接采信grep结果。
第六步:未命中关键词确认
以下16个关键词在全文中零命中:屦、绅、弁、冕、珥、布、缎、缯、绶、绂、黼、黻、鹖、帻、帷、旆、纛。
以下关键词仅1-2次命中且多为非服饰语境:褐("释褐"为科举用语)、巾("泪沾巾"为诗文套语)、裾("锦裾"为1处有效)、绢("红绢"为1处有效)、帛("金帛"为1处有效)、绫("绫罗"为1处有效)、纨("纨扇"为1处有效)。
输出文件
| 文件名 | 大小 | 内容 |
|---|---|---|
| 娇红记_原文提取.md | ~15KB | 按关键词分类的服饰原文,标注行号 |
| 娇红记_总结.md | ~12KB | 服饰类别总览、意象分析、统计表 |
| 娇红记_日志.md | ~5KB | 本文件,记录处理流程与过滤规则 |
质量检查
- [x] 引用原文不转述
- [x] grep验证每条原文可溯源
- [x] 不加载整本TXT(仅grep+sed提取行)
- [x] 每篇≤20KB
- [x] 不凑字不灌水
- [x] 零命中关键词明确标注
- [x] 噪音过滤规则一致