全唐诗补编 服饰提取处理日志

基本信息

处理流程

第1步: 文件大小确认

$ wc -c -l 全唐诗补编.txt
  21006 2003991 全唐诗补编.txt

文件约1.9MB,21,006行,不可整本载入LLM。

第2步: 5轮关键词检索

轮次类别关键词匹配行数
1核心词衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领551
2材质词锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧829
3色彩纹饰紫绯朱赭青绿白玄黄丹素绣纹章黼黻华3445
4制度词服赐赐紫赐绯品色舆服章服冠服朝服祭服丧服常服加冠衮36
5配饰词簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼155

第3轮色彩词匹配过多(3445行),改为复合词检索(紫袍+绯袍+朱衣等),收窄至37行。

第3步: 合并去重

合并5轮结果,去除第3轮过泛匹配后,共得1311个唯一行号。

第4步: 两阶段精准过滤

阶段1 - 高置信度匹配: 使用约60个复合服饰词(衣裳、锦袍、幞头等)直接匹配,得458行。

阶段2 - 中置信度匹配: 对单字词(衣、冠、巾等)要求同行出现2个以上服饰关键词,得238行。

合计去重后585行。

第5步: Python精准分类筛选

使用更严格的匹配规则,按13个服饰类别分别提取:

类别筛选后条数
上衣106
袍服11
衫裙10
裘皮27
冠帽38
巾帻7
履舄30
佩饰123
头饰腰饰1
纹饰1
服制18
织绣材质6
衣件20
合计398

第6步: 对抗式审查

针对高误判关键词进行3轮审查:

  1. "冠"字审查(125→38): 排除"冠军""冠绝""冠世""冠英儒""芳名冠一时"等非服饰用法,保留"挂冠""黄冠""金冠""芙蓉冠"等服饰义。
  2. "襟"字审查(39→9): 排除"披襟""冲襟""胸襟""襟怀""襟抱""襟带"等比喻义,保留"沾襟""泪沾襟""短襟"等服饰义。
  3. "履"字审查(52→8): 排除"履冰""履霜""履行""步履""杖履""履道""履真"等非鞋履义,保留"蹑履""脱履""珠履"等鞋履义。
  4. 材质词审查: 排除"锦城""锦江""罗网""罗浮"等地名和比喻用法。
  5. "簪"字处理: "抽簪""投簪"虽为辞官典故,但涉及簪的佩戴文化,予以保留。

第7步: 输出文件

文件大小说明
全唐诗补编_总结.md~7.8KB分类总结分析
全唐诗补编_原文提取.md~18KB精选原文(每类代表性条目)
全唐诗补编_日志.md~3KB处理日志(本文件)

关键命令记录

# 文件大小
wc -c -l 全唐诗补编.txt

# 5轮grep
rg -n '衣裳|裘|冠|冕|弁|帻|巾|帽|佩玉|带|绶|笏|舄|履|靴|袍|衫|裙|褶|袂|襟|领' 全唐诗补编.txt | wc -l
rg -n '锦|绮|绢|帛|缎|绫|罗|纱|缟|葛|褐|绵|茧' 全唐诗补编.txt | wc -l
rg -n '紫袍|绯袍|朱衣|青衫|绿衫|白衣|玄衣|黄袍|丹裳|素衣|绣衣|黼|黻|华衮|紫绶' 全唐诗补编.txt | wc -l
rg -n '赐紫|赐绯|章服|冠服|朝服|祭服|丧服|常服|加冠|衮服|品色|舆服' 全唐诗补编.txt | wc -l
rg -n '簪|钗|钿|珰|珥|鱼袋|幞头|云肩|霞帔|蔽膝|芾|韠|佩鱼' 全唐诗补编.txt | wc -l

# Python精准分类筛选(核心处理步骤)
python3 /tmp/tscb_精准筛选.py

处理耗时