全唐诗补编服饰提取处理日志

基本信息

书名: 全唐诗补编
文件: /home/z/my-project/upload/诗集/诗集/全唐诗补编.txt
文件大小: 2,003,991 bytes (约1.9MB)
总行数: 21,006行
输出目录: /home/z/my-project/upload/诗集output/全唐诗补编/

处理流程

第1步: 文件大小确认

$ wc -c -l 全唐诗补编.txt
  21006 2003991 全唐诗补编.txt

文件约1.9MB,21,006行,不可整本载入LLM。

第2步: 5轮关键词检索

轮次	类别	关键词	匹配行数
1	核心词	衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领	551
2	材质词	锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧	829
3	色彩纹饰	紫绯朱赭青绿白玄黄丹素绣纹章黼黻华	3445
4	制度词	服赐赐紫赐绯品色舆服章服冠服朝服祭服丧服常服加冠衮	36
5	配饰词	簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼	155

第3轮色彩词匹配过多(3445行),改为复合词检索(紫袍+绯袍+朱衣等),收窄至37行。

第3步: 合并去重

合并5轮结果,去除第3轮过泛匹配后,共得1311个唯一行号。

第4步: 两阶段精准过滤

阶段1 - 高置信度匹配: 使用约60个复合服饰词(衣裳、锦袍、幞头等)直接匹配,得458行。

阶段2 - 中置信度匹配: 对单字词(衣、冠、巾等)要求同行出现2个以上服饰关键词,得238行。

合计去重后585行。

第5步: Python精准分类筛选

使用更严格的匹配规则,按13个服饰类别分别提取:

类别	筛选后条数
上衣	106
袍服	11
衫裙	10
裘皮	27
冠帽	38
巾帻	7
履舄	30
佩饰	123
头饰腰饰	1
纹饰	1
服制	18
织绣材质	6
衣件	20
合计	398

第6步: 对抗式审查

针对高误判关键词进行3轮审查:

"冠"字审查(125→38): 排除"冠军""冠绝""冠世""冠英儒""芳名冠一时"等非服饰用法,保留"挂冠""黄冠""金冠""芙蓉冠"等服饰义。
"襟"字审查(39→9): 排除"披襟""冲襟""胸襟""襟怀""襟抱""襟带"等比喻义,保留"沾襟""泪沾襟""短襟"等服饰义。
"履"字审查(52→8): 排除"履冰""履霜""履行""步履""杖履""履道""履真"等非鞋履义,保留"蹑履""脱履""珠履"等鞋履义。
材质词审查: 排除"锦城""锦江""罗网""罗浮"等地名和比喻用法。
"簪"字处理: "抽簪""投簪"虽为辞官典故,但涉及簪的佩戴文化,予以保留。

第7步: 输出文件

文件	大小	说明
全唐诗补编_总结.md	~7.8KB	分类总结分析
全唐诗补编_原文提取.md	~18KB	精选原文(每类代表性条目)
全唐诗补编_日志.md	~3KB	处理日志(本文件)

关键命令记录

# 文件大小
wc -c -l 全唐诗补编.txt

# 5轮grep
rg -n '衣裳|裘|冠|冕|弁|帻|巾|帽|佩玉|带|绶|笏|舄|履|靴|袍|衫|裙|褶|袂|襟|领' 全唐诗补编.txt | wc -l
rg -n '锦|绮|绢|帛|缎|绫|罗|纱|缟|葛|褐|绵|茧' 全唐诗补编.txt | wc -l
rg -n '紫袍|绯袍|朱衣|青衫|绿衫|白衣|玄衣|黄袍|丹裳|素衣|绣衣|黼|黻|华衮|紫绶' 全唐诗补编.txt | wc -l
rg -n '赐紫|赐绯|章服|冠服|朝服|祭服|丧服|常服|加冠|衮服|品色|舆服' 全唐诗补编.txt | wc -l
rg -n '簪|钗|钿|珰|珥|鱼袋|幞头|云肩|霞帔|蔽膝|芾|韠|佩鱼' 全唐诗补编.txt | wc -l

# Python精准分类筛选(核心处理步骤)
python3 /tmp/tscb_精准筛选.py

处理耗时

检索+过滤: 约3分钟
分类+审查: 约2分钟
输出文件生成: 约1分钟
合计: 约6分钟

全唐诗补编 服饰提取处理日志