《墨史》服饰内容提取日志

基本信息

项目 内容
书名 墨史
输入文件 /home/z/my-project/upload/器物/器物/墨史.txt
输出目录 /home/z/my-project/upload/器物output/墨史/
文件总行数 154行
处理时间 2026-03-05

处理流程

第一步:wc -l 查总行数

$ wc -l /home/z/my-project/upload/器物/器物/墨史.txt
154 /home/z/my-project/upload/器物/器物/墨史.txt

文件共154行,篇幅较短。

第二步:多轮grep -n提取服饰关键词行号

使用词库全部44个关键词分三轮检索:

第一轮:衣|裳|冠|带|袍|裘|褐|巾|履|屦|绅|袂|裾|襟|裙|幅 - 命中行:29、30、36、115、132

第二轮:弁|冕|簪|珥|佩|环|绮|罗|纱|绢|帛|锦|绣|练|絮|布 - 命中行:3、23、30、31、36、50、89、113、126

第三轮:麻|丝|绸|缎|缯|绫|纨|绡|绶|绂|黼|黻|鹖|帻|帷|帐|幄|旗|旌|旆|纛 - 命中行:15、70、103、131

合并去重后命中行号:3、15、23、29、30、31、36、50、70、89、103、113、115、126、131、132

第三步:sed -n提取上下文

对上述16个行号提取全文内容,逐行审视关键词上下文。

第四步:过滤噪音

逐条审查,剔除以下5处噪音:

行号 关键词 原文片段 判定 原因
3 搜罗隠僻 噪音 "搜罗"为动词,意为搜集,非丝织品
29 冩逾数十幅 噪音 "幅"为书写页数量词,非布帛幅宽
89 锦屏蒲舜美 噪音 "锦屏"为地名(四川),非锦缎
113 新罗墨 噪音 "新罗"为国名(朝鲜古国),非丝织品
115 陆子履 噪音 "子履"为人名字,非鞋履

有效条目:11个关键词,16处有效引用

第五步:生成输出文件

文件 大小 说明
墨史_总结.md <20KB 服饰内容分类总结
墨史_原文提取.md <20KB 原文逐条提取,附行号与关键词
墨史_日志.md <20KB 处理流程日志

关键词命中明细

关键词 总命中 有效 噪音 有效出处行号
2 2 0 30、36
2 2 0 3、36
1 1 0 15
1 1 0 23
6 5 1 23、30、31、50
2 1 1 30
1 1 0 70
1 1 0 126
1 1 0 131
1 1 0 103
2 1 1 132
1 0 1
合计 21 16 5

未命中关键词(33个):裳、冠、带、袍、裘、褐、巾、屦、绅、袂、裾、襟、裙、弁、冕、簪、珥、佩、绮、纱、绢、绣、练、絮、麻、丝、绸、缎、绡、绶、绂、黼、黻、鹖、帻、帷、幄、旗、旌、旆、纛


备注

《墨史》为制墨专史,服饰内容极少。锦囊盛墨为本书服饰关联最密集的意象,反映宋代文人对名墨收藏的讲究。帛类(纨素、缣帛)多作书写载体出现,与墨之用途直接相关,非穿着之服。