《香谱》服饰内容提取日志

基本信息

项目
书名 香谱
作者 宋·洪刍
输入文件 /home/z/my-project/upload/器物/器物/香谱.txt
输出目录 /home/z/my-project/upload/器物output/香谱/
总行数 1124
处理时间 2026-03-05

处理流程记录

步骤1:确认文件与行数

wc -l /home/z/my-project/upload/器物/器物/香谱.txt
# 结果:1124行

步骤2:多轮grep提取服饰关键词行号

对46个服饰关键词逐一执行 rg -n 搜索,共命中15个关键词有匹配,31个关键词无匹配。

命中关键词(15个):衣、裳、冠、带、褐、巾、裙、佩、环、绮、罗、绣、练、麻、帷、帐、绢、布

无命中关键词(28个):履、屦、绅、袂、裾、襟、幅、弁、冕、簪、珥、帛、絮、丝、绸、缎、缯、绫、纨、绡、绶、绂、黼、黻、鹖、帻、幄、旗、旌、旆、纛

步骤3:grep原始命中统计

关键词 命中行数 有效行号
14行 278, 310, 497, 571, 587, 619, 655, 696, 914, 918, 1082, 1102, 1116
1行 886
2行 607, 846
4行 337, 397, 842, 886
1行 413
2行 780, 968
1行 780
2行 579, 736
1行 752
1行 892
16行 172, 178, 365, 409, 591, 633, 635, 645, 682, 736, 904, 938, 946, 956, 978, 994, 1026, 1036, 1048, 1062, 1072, 1108
1行 878
1行 848
2行 409, 1066
1行 886
4行 280, 810, 904, 928
1行 1072
2行 178, 645

步骤4:噪音过滤

以下命中经上下文核对后判定为噪音,予以过滤:

关键词 行号 原文片段 过滤原因
401 "松树皮绿衣" "绿衣"指松树上苔藓地衣,非服饰
1102 "松树上青衣是也" "青衣"指松树上的苔藓,非服饰
337 "带麝" "带"为动词"携带",非腰带
397 "小儿带之" "带"为动词"佩戴",非腰带
842 "黄白而带黑" "带"为动词"夹杂",非腰带
413 "黑褐色" "褐"为颜色形容词,非粗布衣
968 "手巾围盆口" "手巾"为毛巾,非头巾服饰
752 "机环运转四周" "环"为机械环件,非佩饰
172 "多伽罗香" 香名音译,非丝织品
178 "羯布罗香" 香名音译,非丝织品
365 "即罗香也" 香名,非丝织品
409 "叶如罗勒" 罗勒为植物名
591 "捣罗天香" "罗"为筛罗动词
633 "多伽罗香" 香名音译
635 "多摩罗跋香" 香名音译
645 "羯布罗香""罗罗华香" 佛经香名/花名音译
682 "和罗之属" 香名
938,946,956,978,994,1026,1036,1048,1062,1072,1108 "捣罗为末" "罗"为筛罗动词
409 "似麻叶" 植物叶片比喻
1066 "麻黄根" 药材名,非麻布
178 "羯布罗香" 香名音译
645 "羯布罗香" 香名音译

过滤后有效命中:31条(去重后23个独立原文段落)

步骤5:上下文提取

对有效命中行号执行 sed -n 提取上下文(前后各2-5行),确保语义完整。所有原文均经二次核对,确认无断章取义。


输出文件清单

文件名 大小限制 实际内容
香谱_总结.md ≤20KB 分类总结、统计表、小结
香谱_原文提取.md ≤20KB 23条原文按主题编排
香谱_日志.md ≤20KB 本文件,处理全流程记录

质量检查