全宋诗服饰提取处理日志

基本信息

书名: 全宋诗
文件: /home/z/my-project/upload/诗集/诗集/全宋诗.txt
文件大小: 44,677,333 bytes (约42.6MB)
总行数: 1,167,159行
输出目录: /home/z/my-project/upload/诗集output/全宋诗/

处理流程

第1步: 文件大小确认

$ wc -c -l 全宋诗.txt
  1167159 44677333 全宋诗.txt

文件约42.6MB,116万行,严禁整本载入LLM。

第2步: 5轮关键词检索

轮次	类别	关键词	匹配行数
1	核心词	衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领	25,738
2	材质词	锦绮绢帛缎绫罗纱缟葛褐绵茧绸缃	15,439
3	色彩纹饰复合	紫袍绯袍朱衣青衫等	1,786
4	制度词	赐紫赐绯章服冠服朝服祭服丧服常服加冠衮服衮衣品色舆服	203
5	配饰词	簪钗钿珰珥鱼袋幞头云肩霞帔蔽膝芾韠佩鱼	3,626

全量匹配约8175条(去重后估计)。

第3步: Python流式精准提取

由于文件超大(116万行),采用流式处理策略:

逐行读取文件,不整本载入内存
使用编译后的正则表达式匹配13个服饰类别
每类最多提取30条代表性原文
全量统计各类总数

提取结果:

类别	全量条数	提取条数
服制	203	30
袍服	267	30
衫裙	500	30
上衣	2,670	30
冠帽	1,090	30
巾帻	607	30
履舄	611	30
裘皮	588	30
佩饰	780	30
头饰	17	17
纹饰	558	30
织绣	86	30
钗钿	198	30
合计	8,175	347

第4步: 对抗式审查

"芾"字审查: 原匹配1248条,99%为"米芾"等人名,全部排除。实际蔽膝4条+韠7条。
"华衮"审查: 排除"年华衮衮"(约500条),保留49条服饰义。
"黼"字审查: 排除"王黼"等人名,保留"黼黻"40条。
"弁"字审查: "弁山"为地名,非冠弁,需逐条判断。
"蜀锦"审查: 部分为"蜀锦城"(成都地名)。

第5步: 输出文件

文件	大小	说明
全宋诗_总结.md	~7.4KB	分类总结分析
全宋诗_原文提取.md	~11.3KB	精选原文(每类代表性条目)
全宋诗_日志.md	~3KB	处理日志(本文件)

关键命令记录

# 文件大小
wc -c -l 全宋诗.txt

# 5轮grep统计
rg -n '衣裳|裘|冠|冕|...' 全宋诗.txt | wc -l
# (每轮具体关键词见第2步)

# Python流式处理(核心)
python3 /tmp/process_qss.py
python3 /tmp/gen_qss_md.py

处理耗时

检索: 约5分钟(grep在大文件上较慢)
流式提取: 约3分钟
审查+输出: 约2分钟
合计: 约10分钟

全宋诗 服饰提取处理日志

基本信息

处理流程

第1步: 文件大小确认

第2步: 5轮关键词检索

第3步: Python流式精准提取

第4步: 对抗式审查

第5步: 输出文件

关键命令记录

处理耗时

全宋诗服饰提取处理日志