四六法海 服饰提取日志

基本信息

处理流程

步骤1:wc统计

步骤2:5轮grep关键词扫描

轮次关键词类型命中行数
第1轮核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领)387
第2轮材质词(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧)314
第3轮色彩纹饰(紫绯朱赭青绿白玄黄丹素绣纹章黼黻华)686
第4轮制度词(服赐服赐紫赐绯品色舆服章服冠服朝服祭服丧服常服加冠衮)289
第5轮配饰词(簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼)106

说明:第3轮色彩词命中极多(686行),但大量为非服饰用法(如"白日""黄龙""青山"等),需大量去噪。

步骤3:精准sed提取

使用组合精准词组进行二次提取:

步骤4:人工筛选

从176行中筛除以下噪声:

筛选后有效服饰内容约50-60行。

步骤5:分类整理

将有效内容分为7大类:

  1. 礼仪服饰制度(九锡文、章服、祭服)
  2. 赐服与恩赏(赐衣、赐紫、赐腰带)
  3. 隐逸服饰(鹿裘大帛、脱朝服、布衣)
  4. 日常与民俗服饰(异服、胡服、荆钗布裙)
  5. 官服标识与配饰(貂蝉、绶佩、金章银章)
  6. 军事服饰(介胄、贝胄、缊袍)
  7. 女性服饰(花钗、裾袂)

步骤6:输出文件

数据质量评估