全宋诗 服饰提取处理日志
基本信息
- 书名: 全宋诗
- 文件: /home/z/my-project/upload/诗集/诗集/全宋诗.txt
- 文件大小: 44,677,333 bytes (约42.6MB)
- 总行数: 1,167,159行
- 输出目录: /home/z/my-project/upload/诗集output/全宋诗/
处理流程
第1步: 文件大小确认
$ wc -c -l 全宋诗.txt
1167159 44677333 全宋诗.txt
文件约42.6MB,116万行,严禁整本载入LLM。
第2步: 5轮关键词检索
| 轮次 | 类别 | 关键词 | 匹配行数 |
|---|---|---|---|
| 1 | 核心词 | 衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领 | 25,738 |
| 2 | 材质词 | 锦绮绢帛缎绫罗纱缟葛褐绵茧绸缃 | 15,439 |
| 3 | 色彩纹饰复合 | 紫袍绯袍朱衣青衫等 | 1,786 |
| 4 | 制度词 | 赐紫赐绯章服冠服朝服祭服丧服常服加冠衮服衮衣品色舆服 | 203 |
| 5 | 配饰词 | 簪钗钿珰珥鱼袋幞头云肩霞帔蔽膝芾韠佩鱼 | 3,626 |
全量匹配约8175条(去重后估计)。
第3步: Python流式精准提取
由于文件超大(116万行),采用流式处理策略:
- 逐行读取文件,不整本载入内存
- 使用编译后的正则表达式匹配13个服饰类别
- 每类最多提取30条代表性原文
- 全量统计各类总数
提取结果:
| 类别 | 全量条数 | 提取条数 |
|---|---|---|
| 服制 | 203 | 30 |
| 袍服 | 267 | 30 |
| 衫裙 | 500 | 30 |
| 上衣 | 2,670 | 30 |
| 冠帽 | 1,090 | 30 |
| 巾帻 | 607 | 30 |
| 履舄 | 611 | 30 |
| 裘皮 | 588 | 30 |
| 佩饰 | 780 | 30 |
| 头饰 | 17 | 17 |
| 纹饰 | 558 | 30 |
| 织绣 | 86 | 30 |
| 钗钿 | 198 | 30 |
| 合计 | 8,175 | 347 |
第4步: 对抗式审查
- "芾"字审查: 原匹配1248条,99%为"米芾"等人名,全部排除。实际蔽膝4条+韠7条。
- "华衮"审查: 排除"年华衮衮"(约500条),保留49条服饰义。
- "黼"字审查: 排除"王黼"等人名,保留"黼黻"40条。
- "弁"字审查: "弁山"为地名,非冠弁,需逐条判断。
- "蜀锦"审查: 部分为"蜀锦城"(成都地名)。
第5步: 输出文件
| 文件 | 大小 | 说明 |
|---|---|---|
| 全宋诗_总结.md | ~7.4KB | 分类总结分析 |
| 全宋诗_原文提取.md | ~11.3KB | 精选原文(每类代表性条目) |
| 全宋诗_日志.md | ~3KB | 处理日志(本文件) |
关键命令记录
# 文件大小
wc -c -l 全宋诗.txt
# 5轮grep统计
rg -n '衣裳|裘|冠|冕|...' 全宋诗.txt | wc -l
# (每轮具体关键词见第2步)
# Python流式处理(核心)
python3 /tmp/process_qss.py
python3 /tmp/gen_qss_md.py
处理耗时
- 检索: 约5分钟(grep在大文件上较慢)
- 流式提取: 约3分钟
- 审查+输出: 约2分钟
- 合计: 约10分钟