唐百家诗选 服饰内容提取日志
基本信息
- 处理时间:2026-03-04
- 文件路径:/home/z/my-project/upload/诗集/诗集/唐百家诗选.txt
- 文件规模:2,778行,286,980字节
处理流程
Step 1: wc统计
2778 286980 唐百家诗选.txt
Step 2: 5轮grep检索
| 轮次 | 关键词类型 | 匹配行数 |
|---|---|---|
| 第1轮 | 核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领) | 385 |
| 第2轮 | 材质词(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧) | 154 |
| 第3轮 | 色彩纹饰词(紫绯朱赭青绿白玄黄丹素绣纹章黼黻华) | 594 |
| 第4轮 | 制度词(服赐赐服赐紫赐绯品色舆服章服冠服朝服祭服丧服常服加冠衮) | 1 |
| 第5轮 | 配饰词(簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼) | 39 |
- 5轮合并去重:827行
- 第3轮(色彩词)匹配最多,但多为非服饰语境的色彩描写
Step 3: 精确复合词筛选
使用约100个复合服饰词汇进行二次筛选,得到58行精确匹配。
Step 4: 人工审查
- 审查58行精确匹配结果
- 剔除1条误匹配(非服饰语境)
- 确认57条服饰相关内容
- 部分条目存在跨类情况
Step 5: 分类整理
按5大类进行分类:
- 衣物类:44条(含跨类)
- 冠帽类:16条(含跨类)
- 佩饰类:6条(含跨类)
- 带绶类:3条(含跨类)
- 制度类:7条(含跨类)
筛选标准说明
- "布衣":仅保留指代人身份的用法(如"布衣不得干明主"),排除纯地理/人名用法
- "衣冠":保留指代士大夫阶层或朝服的用法
- "衣裳":保留描写具体穿着或服饰场景的用法
- "冠冕":保留指代官帽或朝仪的用法
- "赐衣":全部保留,为重要服饰制度记载
- 色彩词单独出现不做收录,需与服饰名词组合方收录
问题与备注
- 文本为无标点繁体古文,部分文字可能存在OCR错误
- "白接䴦"原文作"白接防",疑为OCR识别问题,应为"白接䴦"(一种帽子)
- "火浣单衣"为特殊织物(石棉布),具有服饰史研究价值
- 部分行过长,原文提取时截取服饰相关上下文