才调集 服饰内容提取日志

基本信息

处理流程

Step 1: wc统计

3605行 229375字节

中等规模文件,可全量处理。

Step 2: 五轮grep -c统计

轮次关键词类别匹配行数
1核心词392
2材质202
3色彩纹饰532
4制度0
5配饰64

Step 3: 详细grep + sed提取

第1轮:核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领)

匹配392行,数量极大。采用2字词组精筛策略:

第2轮:材质(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧)

匹配202行,筛选后服饰相关约10条:

第3轮:色彩纹饰

匹配532行,筛选后服饰相关约15条:

第4轮:制度

匹配0行("服赐""赐服""赐紫""品色"等精确词组无匹配)

但通过第1轮扩展检索发现:

第5轮:配饰

匹配64行,筛选后服饰相关约15条:

Step 4: 筛选结果

经5轮检索+扩展精筛+人工审查,共筛选出服饰相关条目约80条,分为6大类:

  1. 官服制度类 6条
  2. 女性服饰类 约30条
  3. 男性服饰类 约15条
  4. 佩饰/腰带类 约12条
  5. 军旅/征役服饰 约5条
  6. 宗教服饰 2条

Step 5: 审查备注