唐百家诗选 服饰内容提取日志

基本信息

处理流程

Step 1: wc统计

2778 286980 唐百家诗选.txt

Step 2: 5轮grep检索

轮次关键词类型匹配行数
第1轮核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领)385
第2轮材质词(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧)154
第3轮色彩纹饰词(紫绯朱赭青绿白玄黄丹素绣纹章黼黻华)594
第4轮制度词(服赐赐服赐紫赐绯品色舆服章服冠服朝服祭服丧服常服加冠衮)1
第5轮配饰词(簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼)39

Step 3: 精确复合词筛选

使用约100个复合服饰词汇进行二次筛选,得到58行精确匹配。

Step 4: 人工审查

Step 5: 分类整理

按5大类进行分类:

筛选标准说明

  1. "布衣":仅保留指代人身份的用法(如"布衣不得干明主"),排除纯地理/人名用法
  2. "衣冠":保留指代士大夫阶层或朝服的用法
  3. "衣裳":保留描写具体穿着或服饰场景的用法
  4. "冠冕":保留指代官帽或朝仪的用法
  5. "赐衣":全部保留,为重要服饰制度记载
  6. 色彩词单独出现不做收录,需与服饰名词组合方收录

问题与备注

  1. 文本为无标点繁体古文,部分文字可能存在OCR错误
  2. "白接䴦"原文作"白接防",疑为OCR识别问题,应为"白接䴦"(一种帽子)
  3. "火浣单衣"为特殊织物(石棉布),具有服饰史研究价值
  4. 部分行过长,原文提取时截取服饰相关上下文