全宋诗 服饰提取处理日志

基本信息

处理流程

第1步: 文件大小确认

$ wc -c -l 全宋诗.txt
  1167159 44677333 全宋诗.txt

文件约42.6MB,116万行,严禁整本载入LLM。

第2步: 5轮关键词检索

轮次类别关键词匹配行数
1核心词衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领25,738
2材质词锦绮绢帛缎绫罗纱缟葛褐绵茧绸缃15,439
3色彩纹饰复合紫袍绯袍朱衣青衫等1,786
4制度词赐紫赐绯章服冠服朝服祭服丧服常服加冠衮服衮衣品色舆服203
5配饰词簪钗钿珰珥鱼袋幞头云肩霞帔蔽膝芾韠佩鱼3,626

全量匹配约8175条(去重后估计)。

第3步: Python流式精准提取

由于文件超大(116万行),采用流式处理策略:

提取结果:

类别全量条数提取条数
服制20330
袍服26730
衫裙50030
上衣2,67030
冠帽1,09030
巾帻60730
履舄61130
裘皮58830
佩饰78030
头饰1717
纹饰55830
织绣8630
钗钿19830
合计8,175347

第4步: 对抗式审查

  1. "芾"字审查: 原匹配1248条,99%为"米芾"等人名,全部排除。实际蔽膝4条+韠7条。
  2. "华衮"审查: 排除"年华衮衮"(约500条),保留49条服饰义。
  3. "黼"字审查: 排除"王黼"等人名,保留"黼黻"40条。
  4. "弁"字审查: "弁山"为地名,非冠弁,需逐条判断。
  5. "蜀锦"审查: 部分为"蜀锦城"(成都地名)。

第5步: 输出文件

文件大小说明
全宋诗_总结.md~7.4KB分类总结分析
全宋诗_原文提取.md~11.3KB精选原文(每类代表性条目)
全宋诗_日志.md~3KB处理日志(本文件)

关键命令记录

# 文件大小
wc -c -l 全宋诗.txt

# 5轮grep统计
rg -n '衣裳|裘|冠|冕|...' 全宋诗.txt | wc -l
# (每轮具体关键词见第2步)

# Python流式处理(核心)
python3 /tmp/process_qss.py
python3 /tmp/gen_qss_md.py

处理耗时