唐人万首绝句选 服饰提取日志

基本信息

五轮Grep统计

轮次关键词类别命中行数说明
R1核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领)192行数量大,含大量非服饰语境
R2材质词(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧)81行锦、罗、丝等分布广泛
R3色彩纹饰(紫绯朱赭青绿白玄黄丹素绣纹章黼黻华)301行命中最多,绝大多数为非服饰用法
R4制度词(服赐品色舆服章服冠服朝服祭服丧服常服加冠衮)15行命中少但精准度高
R5配饰词(簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼)16行部分为有效条目

筛选过程

二次过滤

对5轮结果进行高精度二次过滤(combined grep),使用具体服饰词组:

三次补充过滤

使用更细化的服饰相关词:

有效服饰条目统计(约70条)

去除的典型误判项

  1. "衣带缓"中"衣带"为有效条目,但"带"在"一带春""带角收"中非服饰 → 排除
  2. "玉阶""玉门关""玉楼"等含"玉"但为建筑/地名 → 排除
  3. "玉笛""玉箫""玉琴"等含"玉"但为乐器 → 排除
  4. "紫""青""白"等色彩词大量为景物描写 → 逐条审查
  5. "赐酒""赐珍珠"等"赐"字非赐服 → 排除