《墨史》服饰内容提取日志
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 墨史 |
| 输入文件 | /home/z/my-project/upload/器物/器物/墨史.txt |
| 输出目录 | /home/z/my-project/upload/器物output/墨史/ |
| 文件总行数 | 154行 |
| 处理时间 | 2026-03-05 |
处理流程
第一步:wc -l 查总行数
$ wc -l /home/z/my-project/upload/器物/器物/墨史.txt
154 /home/z/my-project/upload/器物/器物/墨史.txt
文件共154行,篇幅较短。
第二步:多轮grep -n提取服饰关键词行号
使用词库全部44个关键词分三轮检索:
第一轮:衣|裳|冠|带|袍|裘|褐|巾|履|屦|绅|袂|裾|襟|裙|幅 - 命中行:29、30、36、115、132
第二轮:弁|冕|簪|珥|佩|环|绮|罗|纱|绢|帛|锦|绣|练|絮|布 - 命中行:3、23、30、31、36、50、89、113、126
第三轮:麻|丝|绸|缎|缯|绫|纨|绡|绶|绂|黼|黻|鹖|帻|帷|帐|幄|旗|旌|旆|纛 - 命中行:15、70、103、131
合并去重后命中行号:3、15、23、29、30、31、36、50、70、89、103、113、115、126、131、132
第三步:sed -n提取上下文
对上述16个行号提取全文内容,逐行审视关键词上下文。
第四步:过滤噪音
逐条审查,剔除以下5处噪音:
| 行号 | 关键词 | 原文片段 | 判定 | 原因 |
|---|---|---|---|---|
| 3 | 罗 | 搜罗隠僻 | 噪音 | "搜罗"为动词,意为搜集,非丝织品 |
| 29 | 幅 | 冩逾数十幅 | 噪音 | "幅"为书写页数量词,非布帛幅宽 |
| 89 | 锦 | 锦屏蒲舜美 | 噪音 | "锦屏"为地名(四川),非锦缎 |
| 113 | 罗 | 新罗墨 | 噪音 | "新罗"为国名(朝鲜古国),非丝织品 |
| 115 | 履 | 陆子履 | 噪音 | "子履"为人名字,非鞋履 |
有效条目:11个关键词,16处有效引用
第五步:生成输出文件
| 文件 | 大小 | 说明 |
|---|---|---|
| 墨史_总结.md | <20KB | 服饰内容分类总结 |
| 墨史_原文提取.md | <20KB | 原文逐条提取,附行号与关键词 |
| 墨史_日志.md | <20KB | 处理流程日志 |
关键词命中明细
| 关键词 | 总命中 | 有效 | 噪音 | 有效出处行号 |
|---|---|---|---|---|
| 衣 | 2 | 2 | 0 | 30、36 |
| 布 | 2 | 2 | 0 | 3、36 |
| 纨 | 1 | 1 | 0 | 15 |
| 环 | 1 | 1 | 0 | 23 |
| 锦 | 6 | 5 | 1 | 23、30、31、50 |
| 罗 | 2 | 1 | 1 | 30 |
| 缯 | 1 | 1 | 0 | 70 |
| 帛 | 1 | 1 | 0 | 126 |
| 绫 | 1 | 1 | 0 | 131 |
| 帐 | 1 | 1 | 0 | 103 |
| 履 | 2 | 1 | 1 | 132 |
| 幅 | 1 | 0 | 1 | — |
| 合计 | 21 | 16 | 5 | — |
未命中关键词(33个):裳、冠、带、袍、裘、褐、巾、屦、绅、袂、裾、襟、裙、弁、冕、簪、珥、佩、绮、纱、绢、绣、练、絮、麻、丝、绸、缎、绡、绶、绂、黼、黻、鹖、帻、帷、幄、旗、旌、旆、纛
备注
《墨史》为制墨专史,服饰内容极少。锦囊盛墨为本书服饰关联最密集的意象,反映宋代文人对名墨收藏的讲究。帛类(纨素、缣帛)多作书写载体出现,与墨之用途直接相关,非穿着之服。