香艳丛书 — 服饰内容提取日志
基本信息
- 书名:香艳丛书
- 输入文件:/tmp/daizhige_data/集藏/文总集/香艳丛书.md
- 输出目录:/home/z/my-project/upload/文总集output/香艳丛书
- 处理时间:2026-05-08 23:45:37
- 文件总行数:46277
搜索过程
10轮关键词搜索
| 轮次 | 关键词 | 匹配行数 |
| 1 | 衣裳、锦衣、朝服、冕服、衮服、深衣 | - |
| 2 | 冠带、巾帻、冕冠、步摇、花钿、簪钗 | - |
| 3 | 钗环、裙带、罗裙、纱裙、绣裳、玉佩 | - |
| 4 | 绶带、腰带、革带、金带、玉带、蔽膝 | - |
| 5 | 履、屦、屣、鞋、袜 | - |
| 6 | 簪、钗、钏、环、珥 | - |
| 7 | 衣冠、衣服、衣裾、长袍、锦袍、儒服 | - |
| 8 | 纱、绢、缟、纩、缯 | - |
| 9 | 脂粉、画眉、点唇、香囊、佩玉、组绶 | - |
| 10 | 大带、博带、舞衣、道服、法服、燕服 | - |
统计汇总
- 初始匹配总行数:2976(去重后)
- 含复合关键词的行数:596
- 经噪声过滤后有效行数:1258
- 去重分组后有效段落:55
噪声过滤规则
- 单字关键词(袍、裘、裙等)需在同行出现2个以上方保留
- 仅含复合关键词的行直接保留
- 相邻5行内的多个匹配合并为一个段落,取最佳代表行
- 每段截取关键词前后各60-140字,超出部分省略
- 输出文件限制在20KB以内
输出文件
| 文件 | 说明 |
| 原文提取.md | 有效服饰段落原文(含行号、关键词标注) |
| 总结.md | 服饰内容分类总结与分析 |
| 日志.md | 本文件,处理过程记录 |