四六法海 服饰提取日志
基本信息
- 书名:四六法海
- 文件:/home/z/my-project/upload/诗集/诗集/四六法海.txt
- 输出目录:/home/z/my-project/upload/诗集output/四六法海/
- 文件规模:1846行,951740字节
处理流程
步骤1:wc统计
- 行数:1846
- 字节数:951740
- 为大型骈文总集,内容丰富
步骤2:5轮grep关键词扫描
| 轮次 | 关键词类型 | 命中行数 |
|---|---|---|
| 第1轮 | 核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领) | 387 |
| 第2轮 | 材质词(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧) | 314 |
| 第3轮 | 色彩纹饰(紫绯朱赭青绿白玄黄丹素绣纹章黼黻华) | 686 |
| 第4轮 | 制度词(服赐服赐紫赐绯品色舆服章服冠服朝服祭服丧服常服加冠衮) | 289 |
| 第5轮 | 配饰词(簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼) | 106 |
说明:第3轮色彩词命中极多(686行),但大量为非服饰用法(如"白日""黄龙""青山"等),需大量去噪。
步骤3:精准sed提取
使用组合精准词组进行二次提取:
- 首轮精准提取(服饰词组):107行
- 扩展精准提取:121行
- 深度精准提取:43行
- Python脚本综合提取:176行
步骤4:人工筛选
从176行中筛除以下噪声:
- 纯色词非服饰用法(如"白云""青山""黄龙"作地名/自然描写)
- "衣"作动词(如"衣之食之")
- "冠"作"冠绝/冠军"义
- "带"作"地带/带兵"义
- "服"作"服从/服用"义
- 通用修辞(如"锦心绣口""衣冠楚楚"作泛称)
筛选后有效服饰内容约50-60行。
步骤5:分类整理
将有效内容分为7大类:
- 礼仪服饰制度(九锡文、章服、祭服)
- 赐服与恩赏(赐衣、赐紫、赐腰带)
- 隐逸服饰(鹿裘大帛、脱朝服、布衣)
- 日常与民俗服饰(异服、胡服、荆钗布裙)
- 官服标识与配饰(貂蝉、绶佩、金章银章)
- 军事服饰(介胄、贝胄、缊袍)
- 女性服饰(花钗、裾袂)
步骤6:输出文件
- 四六法海_总结.md(本文件)
- 四六法海_日志.md(本文件)
- 四六法海_原文提取.md
数据质量评估
- 噪声率:约65%(大量色彩词、通用词为非服饰用法)
- 有效率:约35%
- 最有价值文献:九锡文(行135、137)、梁武帝诏(行212)、杨亿谢赐衣表(行511)