香艳丛书 — 服饰内容提取日志

基本信息

搜索过程

10轮关键词搜索

轮次关键词匹配行数
1衣裳、锦衣、朝服、冕服、衮服、深衣-
2冠带、巾帻、冕冠、步摇、花钿、簪钗-
3钗环、裙带、罗裙、纱裙、绣裳、玉佩-
4绶带、腰带、革带、金带、玉带、蔽膝-
5履、屦、屣、鞋、袜-
6簪、钗、钏、环、珥-
7衣冠、衣服、衣裾、长袍、锦袍、儒服-
8纱、绢、缟、纩、缯-
9脂粉、画眉、点唇、香囊、佩玉、组绶-
10大带、博带、舞衣、道服、法服、燕服-

统计汇总

噪声过滤规则

  1. 单字关键词(袍、裘、裙等)需在同行出现2个以上方保留
  2. 仅含复合关键词的行直接保留
  3. 相邻5行内的多个匹配合并为一个段落,取最佳代表行
  4. 每段截取关键词前后各60-140字,超出部分省略
  5. 输出文件限制在20KB以内

输出文件

文件说明
原文提取.md有效服饰段落原文(含行号、关键词标注)
总结.md服饰内容分类总结与分析
日志.md本文件,处理过程记录