木皮散人鼓词 — 服饰提取日志
基本信息
| 项目 |
内容 |
| 输入文件 |
/home/z/my-project/upload/剧曲/剧曲/木皮散人鼓词.txt |
| 输出目录 |
/home/z/my-project/upload/剧曲output/木皮散人鼓词/ |
| 总行数 |
437 |
| 处理时间 |
2026-03-05 |
处理流程
第1步:行数统计
wc -l 木皮散人鼓词.txt → 437行
第2步:关键词初筛
使用ripgrep对42个服饰关键词逐一匹配,命中11行:
- 第44、80、89、158、164、265、272、281、321、360、370、376、399行
第3步:上下文提取
对命中行执行 sed -n 'start,endp' 提取前后3-5行上下文,逐行审查语义。
第4步:噪音过滤
| 行号 |
关键词 |
噪音类型 |
处理 |
| 44 |
帐(帐簿) |
账本,非帐篷 |
❌ 过滤 |
| 80 |
衣、冠 |
有效服饰内容 |
✅ 保留 |
| 89 |
袍(衮龙袍)、衫(大布衫) |
有效服饰内容 |
✅ 保留 |
| 158 |
绣(绣房) |
闺阁空间,间接服饰 |
✅ 保留 |
| 164 |
旗(太白旗) |
有效旗旌内容 |
✅ 保留 |
| 265 |
帐(中军帐)、旗(汉家旗) |
有效帷帐+旗旌 |
✅ 保留 |
| 272 |
履(卖履分香) |
有效服饰内容 |
✅ 保留 |
| 281 |
披挂 |
有效服饰内容 |
✅ 保留 |
| 321 |
麻(乱如麻) |
比喻,非织物 |
❌ 过滤 |
| 360 |
袍(黄袍) |
有效服饰内容 |
✅ 保留 |
| 370 |
麻(爪儿麻) |
肢体麻木 |
❌ 过滤 |
| 376 |
麻(乱如麻) |
比喻,非织物 |
❌ 过滤 |
| 399 |
罗(网罗) |
捕网,非织物 |
❌ 过滤 |
第5步:输出文件
| 文件 |
大小 |
说明 |
| 总结.md |
<20KB |
服饰内容总结分析 |
| 原文提取.md |
<20KB |
原文逐条提取 |
| 日志.md |
<20KB |
本日志 |
关键词命中统计
| 关键词 |
命中行数 |
有效行数 |
说明 |
| 衣 |
1 |
1 |
衣和冠 |
| 冠 |
1 |
1 |
衣和冠 |
| 袍 |
2 |
2 |
衮龙袍、黄袍 |
| 衫 |
1 |
1 |
大布衫 |
| 绣 |
1 |
1 |
绣房 |
| 旗 |
2 |
2 |
太白旗、汉家旗 |
| 帐 |
2 |
1 |
中军帐(有效);帐簿(噪音) |
| 履 |
1 |
1 |
卖履分香 |
| 披挂 |
1 |
1 |
甲胄穿着 |
| 麻 |
3 |
0 |
均为比喻或肢体麻木 |
| 罗 |
1 |
0 |
网罗,非织物 |
有效服饰行:7行(第80、89、158、164、265、272、281、360行),信息密度较高,且每处服饰描写均服务于讽刺叙事。