全唐诗补编 服饰提取处理日志
基本信息
- 书名: 全唐诗补编
- 文件: /home/z/my-project/upload/诗集/诗集/全唐诗补编.txt
- 文件大小: 2,003,991 bytes (约1.9MB)
- 总行数: 21,006行
- 输出目录: /home/z/my-project/upload/诗集output/全唐诗补编/
处理流程
第1步: 文件大小确认
$ wc -c -l 全唐诗补编.txt
21006 2003991 全唐诗补编.txt
文件约1.9MB,21,006行,不可整本载入LLM。
第2步: 5轮关键词检索
| 轮次 | 类别 | 关键词 | 匹配行数 |
|---|---|---|---|
| 1 | 核心词 | 衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领 | 551 |
| 2 | 材质词 | 锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧 | 829 |
| 3 | 色彩纹饰 | 紫绯朱赭青绿白玄黄丹素绣纹章黼黻华 | 3445 |
| 4 | 制度词 | 服赐赐紫赐绯品色舆服章服冠服朝服祭服丧服常服加冠衮 | 36 |
| 5 | 配饰词 | 簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼 | 155 |
第3轮色彩词匹配过多(3445行),改为复合词检索(紫袍+绯袍+朱衣等),收窄至37行。
第3步: 合并去重
合并5轮结果,去除第3轮过泛匹配后,共得1311个唯一行号。
第4步: 两阶段精准过滤
阶段1 - 高置信度匹配: 使用约60个复合服饰词(衣裳、锦袍、幞头等)直接匹配,得458行。
阶段2 - 中置信度匹配: 对单字词(衣、冠、巾等)要求同行出现2个以上服饰关键词,得238行。
合计去重后585行。
第5步: Python精准分类筛选
使用更严格的匹配规则,按13个服饰类别分别提取:
| 类别 | 筛选后条数 |
|---|---|
| 上衣 | 106 |
| 袍服 | 11 |
| 衫裙 | 10 |
| 裘皮 | 27 |
| 冠帽 | 38 |
| 巾帻 | 7 |
| 履舄 | 30 |
| 佩饰 | 123 |
| 头饰腰饰 | 1 |
| 纹饰 | 1 |
| 服制 | 18 |
| 织绣材质 | 6 |
| 衣件 | 20 |
| 合计 | 398 |
第6步: 对抗式审查
针对高误判关键词进行3轮审查:
- "冠"字审查(125→38): 排除"冠军""冠绝""冠世""冠英儒""芳名冠一时"等非服饰用法,保留"挂冠""黄冠""金冠""芙蓉冠"等服饰义。
- "襟"字审查(39→9): 排除"披襟""冲襟""胸襟""襟怀""襟抱""襟带"等比喻义,保留"沾襟""泪沾襟""短襟"等服饰义。
- "履"字审查(52→8): 排除"履冰""履霜""履行""步履""杖履""履道""履真"等非鞋履义,保留"蹑履""脱履""珠履"等鞋履义。
- 材质词审查: 排除"锦城""锦江""罗网""罗浮"等地名和比喻用法。
- "簪"字处理: "抽簪""投簪"虽为辞官典故,但涉及簪的佩戴文化,予以保留。
第7步: 输出文件
| 文件 | 大小 | 说明 |
|---|---|---|
| 全唐诗补编_总结.md | ~7.8KB | 分类总结分析 |
| 全唐诗补编_原文提取.md | ~18KB | 精选原文(每类代表性条目) |
| 全唐诗补编_日志.md | ~3KB | 处理日志(本文件) |
关键命令记录
# 文件大小
wc -c -l 全唐诗补编.txt
# 5轮grep
rg -n '衣裳|裘|冠|冕|弁|帻|巾|帽|佩玉|带|绶|笏|舄|履|靴|袍|衫|裙|褶|袂|襟|领' 全唐诗补编.txt | wc -l
rg -n '锦|绮|绢|帛|缎|绫|罗|纱|缟|葛|褐|绵|茧' 全唐诗补编.txt | wc -l
rg -n '紫袍|绯袍|朱衣|青衫|绿衫|白衣|玄衣|黄袍|丹裳|素衣|绣衣|黼|黻|华衮|紫绶' 全唐诗补编.txt | wc -l
rg -n '赐紫|赐绯|章服|冠服|朝服|祭服|丧服|常服|加冠|衮服|品色|舆服' 全唐诗补编.txt | wc -l
rg -n '簪|钗|钿|珰|珥|鱼袋|幞头|云肩|霞帔|蔽膝|芾|韠|佩鱼' 全唐诗补编.txt | wc -l
# Python精准分类筛选(核心处理步骤)
python3 /tmp/tscb_精准筛选.py
处理耗时
- 检索+过滤: 约3分钟
- 分类+审查: 约2分钟
- 输出文件生成: 约1分钟
- 合计: 约6分钟