娇红记 服饰提取日志

基本信息

项目 内容
书名 娇红记
输入文件 /home/z/my-project/upload/剧曲/剧曲/娇红记.txt
输出目录 /home/z/my-project/upload/剧曲output/娇红记/
文件总行数 1354
提取时间 2026-03-05

处理流程

第一步:wc -l 查总行数

$ wc -l 娇红记.txt
1354 娇红记.txt

文件共1354行,体量适中。

第二步:多轮grep -n提取服饰关键词行号

使用词库全部48个关键词,以rg -n(ripgrep)批量检索:

rg -n '衣|裳|冠|带|袍|裘|褐|巾|履|屦|绅|袂|裾|襟|裙|幅|弁|冕|簪|珥|佩|环|绮|罗|纱|绢|帛|锦|绣|练|絮|布|麻|丝|绸|缎|缯|绫|纨|绡|绶|绂|黼|黻|鹖|帻|帷|帐|幄|旗|旌|旆|纛' 娇红记.txt

初步命中252行。

第三步:逐词统计命中数

关键词 命中行数 关键词 命中行数 关键词 命中行数
36 6 9
28 7 5
1 1 3
0 0 2
1 3 7
6 0 0
3 0 4
3 2 41
28 1 1
65 87 5
5 0 4
22 5 0
0 1 1
11 0 0
0 0 0
0 0 28
0 6 2
0 0

第四步:噪音过滤

过滤规则:
1. 地名含关键词者剔除:锦江(地名)、锦城(地名)
2. 建筑名含关键词但非服饰者标注:绣房、绣阁、绣窗、锦堂
3. 曲牌名含关键词者标注但不计入服饰:皂罗袍、放袍莺、捣练子等
4. 动作义非服饰义者标注:带领、提带、牵衣(动作)、拂衣(动作)
5. 比喻义而非实物者标注:雨丝、丝簧、蛛丝等

噪音率估算:
- 锦:65命中 → ~25有效,噪音率约62%(地名锦江/锦城/锦笺等)
- 绣:87命中 → ~30有效,噪音率约66%(绣房/绣阁/绣窗等建筑名)
- 罗:41命中 → ~15有效,噪音率约63%(曲牌/人名等)
- 纱:28命中 → ~5有效,噪音率约82%(纱窗建筑)
- 带:28命中 → ~7有效,噪音率约75%(带领/提带动词)
- 丝:22命中 → ~5有效,噪音率约77%(雨丝/丝簧比喻)

低噪音关键词: 裘(5/5=100%)、裙(7/7=100%)、裳(4/6=67%)、绡(9/11=82%)、佩(3/4=75%)

第五步:分轮验证

对高噪音关键词(锦、绣、罗、纱、带、丝),逐一读取grep结果,人工判断是否为服饰语境,仅保留服饰相关原文。

对低噪音关键词直接采信grep结果。

第六步:未命中关键词确认

以下16个关键词在全文中零命中:屦、绅、弁、冕、珥、布、缎、缯、绶、绂、黼、黻、鹖、帻、帷、旆、纛。

以下关键词仅1-2次命中且多为非服饰语境:褐("释褐"为科举用语)、巾("泪沾巾"为诗文套语)、裾("锦裾"为1处有效)、绢("红绢"为1处有效)、帛("金帛"为1处有效)、绫("绫罗"为1处有效)、纨("纨扇"为1处有效)。


输出文件

文件名 大小 内容
娇红记_原文提取.md ~15KB 按关键词分类的服饰原文,标注行号
娇红记_总结.md ~12KB 服饰类别总览、意象分析、统计表
娇红记_日志.md ~5KB 本文件,记录处理流程与过滤规则

质量检查

  • [x] 引用原文不转述
  • [x] grep验证每条原文可溯源
  • [x] 不加载整本TXT(仅grep+sed提取行)
  • [x] 每篇≤20KB
  • [x] 不凑字不灌水
  • [x] 零命中关键词明确标注
  • [x] 噪音过滤规则一致