木皮散人鼓词 — 服饰提取日志

基本信息

项目 内容
输入文件 /home/z/my-project/upload/剧曲/剧曲/木皮散人鼓词.txt
输出目录 /home/z/my-project/upload/剧曲output/木皮散人鼓词/
总行数 437
处理时间 2026-03-05

处理流程

第1步:行数统计

wc -l 木皮散人鼓词.txt → 437行

第2步:关键词初筛

使用ripgrep对42个服饰关键词逐一匹配,命中11行:
- 第44、80、89、158、164、265、272、281、321、360、370、376、399行

第3步:上下文提取

对命中行执行 sed -n 'start,endp' 提取前后3-5行上下文,逐行审查语义。

第4步:噪音过滤

行号 关键词 噪音类型 处理
44 帐(帐簿) 账本,非帐篷 ❌ 过滤
80 衣、冠 有效服饰内容 ✅ 保留
89 袍(衮龙袍)、衫(大布衫) 有效服饰内容 ✅ 保留
158 绣(绣房) 闺阁空间,间接服饰 ✅ 保留
164 旗(太白旗) 有效旗旌内容 ✅ 保留
265 帐(中军帐)、旗(汉家旗) 有效帷帐+旗旌 ✅ 保留
272 履(卖履分香) 有效服饰内容 ✅ 保留
281 披挂 有效服饰内容 ✅ 保留
321 麻(乱如麻) 比喻,非织物 ❌ 过滤
360 袍(黄袍) 有效服饰内容 ✅ 保留
370 麻(爪儿麻) 肢体麻木 ❌ 过滤
376 麻(乱如麻) 比喻,非织物 ❌ 过滤
399 罗(网罗) 捕网,非织物 ❌ 过滤

第5步:输出文件

文件 大小 说明
总结.md <20KB 服饰内容总结分析
原文提取.md <20KB 原文逐条提取
日志.md <20KB 本日志

关键词命中统计

关键词 命中行数 有效行数 说明
1 1 衣和冠
1 1 衣和冠
2 2 衮龙袍、黄袍
1 1 大布衫
1 1 绣房
2 2 太白旗、汉家旗
2 1 中军帐(有效);帐簿(噪音)
1 1 卖履分香
披挂 1 1 甲胄穿着
3 0 均为比喻或肢体麻木
1 0 网罗,非织物

有效服饰行:7行(第80、89、158、164、265、272、281、360行),信息密度较高,且每处服饰描写均服务于讽刺叙事。