宋诗钞 服饰内容提取日志
基本信息
- 书名:宋诗钞
- 文件路径:/home/z/my-project/upload/诗集/诗集/宋诗钞.txt
- 输出路径:/home/z/my-project/upload/诗集output/宋诗钞/
- 处理时间:2026-03-05
第一步:wc统计
79503 行 39922 词 5917558 字节
第二步:5轮grep
第1轮:核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领)
- 命中行数:6,336行
- 输出文件:grep_round1.txt
第2轮:材质词(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧)
- 命中行数:2,840行
- 输出文件:grep_round2.txt
第3轮:色彩纹饰词(紫绯朱赭青绿白玄黄丹素绣纹章黼黻华)
- 命中行数:10,551行
- 输出文件:grep_round3.txt
- 注:本轮命中过多,颜色词在诗歌中泛用,需后续严格过滤
第4轮:制度词(服赐服赐紫赐绯品色舆服章服冠服朝服祭服丧服常服加冠衮)
- 命中行数:365行
- 输出文件:grep_round4.txt
第5轮:配饰词(簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼)
- 命中行数:582行
- 输出文件:grep_round5.txt
5轮合并去重
第三步:靶向grep精筛
- 第1次靶向grep(复合服饰词组):901行
- 第2次靶向grep(材质+色彩+服饰组合):358行
- 合并去重:1,109行
第四步:Python正则二次过滤
- 输入:1,109行候选
- 使用50+个正则模式匹配真正的服饰内容
- 输出:1,052行服饰相关内容
第五步:分类整理
| 类别 | 条数 |
|---|
| 衣裳 | 550 |
| 材质 | 165 |
| 袍衫裙 | 148 |
| 色彩纹饰 | 98 |
| 首饰配饰 | 62 |
| 裘褐 | 52 |
| 履舄靴 | 51 |
| 带绶佩笏 | 40 |
| 冠帽 | 36 |
| 其他服饰 | 29 |
| 服制 | 24 |
| 合计 | 1,052(有交叉) |
第六步:审查
- 误检情况:部分"衣"字用法为"衣钵""锦肠"等非服饰用法,已尽量排除但仍可能有少量残留
- 漏检可能:单独出现的颜色词未纳入(如仅"紫"字而无服饰搭配)
- 总体质量:较高,1,052条均为服饰相关或密切相关内容
输出文件
- 宋诗钞_总结.md —— 服饰内容总结分析
- 宋诗钞_日志.md —— 本文件,处理日志
- 宋诗钞_原文提取.md —— 服饰原文分类提取