《名香谱》服饰内容提取日志

基本信息

项目 内容
书名 名香谱
输入文件 /home/z/my-project/upload/器物/器物/名香谱.txt
输出目录 /home/z/my-project/upload/器物output/名香谱/
文件总行数 219行
处理时间 2026-03-04

处理流程记录

第一步:wc -l 查总行数

$ wc -l /home/z/my-project/upload/器物/器物/名香谱.txt
219 /home/z/my-project/upload/器物/器物/名香谱.txt

文件共219行,篇幅短小,为条目式香谱。

第二步:多轮grep -n提取服饰关键词行号

对词库48个关键词逐一grep -n检索:

关键词 命中行号 命中次数
15 1
35 1
125 1
125, 203 2
203 1
其余43个关键词 无命中 0

总命中:5个关键词,6次命中(含同行多关键词重叠)

第三步:sed -n提取上下文

对命中行号提取前后各2行上下文:

第四步:过滤噪音

行号 关键词 原文片段 判定 理由
15 合四炁香 ✅保留 "香衣"指熏香之衣物,服饰义项
35 公主玉香囊 ⚠动词用法 "带"为动词"佩戴",非名词衣带;保留但标注
125 羯布 ❌噪音 音译词用字,非纺织品"罗"
125 罗香 ❌噪音 音译词用字,非纺织品"布"
203 其皮如 ✅保留 描述纤维如丝,纺织品义项
203 可以为 ✅保留 "布"指织物,纺织品义项

过滤结果:有效2条(行15、行203),动词用法1条(行35),噪音2次(行125)

第五步:输出文件

文件名 说明 大小
名香谱_总结.md 服饰内容总结与分析 <20KB
名香谱_原文提取.md 原文及上下文提取 <20KB
名香谱_日志.md 本处理日志 <20KB

统计汇总

指标 数值
服饰关键词总数 48
命中关键词数 5
命中总次数 6
有效命中条目 2
动词用法条目 1
噪音过滤条目 1(含2个关键词)
有效命中率 2/6 = 33.3%
服饰相关内容占比 极低(219行中仅2条有效)

备注

  1. 《名香谱》为香类专谱,主题与服饰无直接关联,有效服饰内容极为稀少。
  2. "羯布罗香"中的"罗""布"属梵语音译用字,经grep验证确认上下文为树名描述,已作为噪音过滤。
  3. "带玉香囊"之"带"经上下文辨析为动词用法,非名词服饰义项,单独标注保留。