《奇器图说》服饰提取日志
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 奇器图说 |
| 输入文件 | /home/z/my-project/upload/器物/器物/奇器图说.txt |
| 输出目录 | /home/z/my-project/upload/器物output/奇器图说/ |
| 总行数 | 2928行 |
| 处理时间 | 2026-03-05 |
处理流程
第一步:wc -l 统计总行数
2928 /home/z/my-project/upload/器物/器物/奇器图说.txt
第二步:grep -n 多轮提取服饰关键词
使用48个服饰关键词逐一grep,结果如下:
| 关键词 | 命中行数 | 命中行号 |
|---|---|---|
| 衣 | 4 | 26, 28, 48, 52 |
| 带 | 1 | 2597 |
| 环 | 9 | 2329, 2353, 2438, 2448, 2585, 2597, 2648, 2716, 2879 |
| 布 | 1 | 2496 |
| 丝 | 14 | 28, 52, 58, 945, 947, 957, 1792, 1798, 2171, 2186, 2213, 2229, 2716, 2864 |
| 绵 | 1 | 945 |
| 其余42个 | 0 | 无命中 |
未命中关键词(42个):冠、裳、袍、裘、褐、巾、履、屦、绅、袂、裾、襟、裙、幅、弁、冕、簪、珥、佩、绮、罗、纱、绢、帛、锦、绣、练、絮、麻、绸、缎、缯、绫、纨、绡、绶、绂、黼、黻、鹖、帻、帷、帐、幄、旗、旌、旆、纛
第三步:sed -n 提取上下文
对全部30处命中行,逐行提取上下文(前后各2行),共审读约150行原文。
第四步:噪音过滤
逐条判定每处命中是否为服饰含义:
| 关键词 | 原始命中 | 服饰相关 | 噪音 | 噪音类型 |
|---|---|---|---|---|
| 衣 | 4 | 4 | 0 | — |
| 带 | 1 | 0 | 1 | 机械驱动(带转木) |
| 环 | 9 | 0 | 9 | 机械部件(铁环/转环) |
| 布 | 1 | 0 | 1 | 风车构件(布框=布帆) |
| 丝 | 14 | 0 | 14 | 螺旋机构(螺丝转)×11;木纹(筋丝)×1;木纹纤维×1;喻帝旨(丝纶)×1 |
| 绵 | 1 | 0 | 1 | 润滑油(绵花油=棉籽油) |
| 合计 | 30 | 4 | 26 | 噪音率86.7% |
噪音特征分析
本书为明代西方力学机械译著,大量使用"螺丝转"(螺旋机构)一词,导致"丝"成为最高频噪音词(14处命中无一为丝织品含义)。"环"为机械连接件术语,9处命中全部为铁环/转环。"带"出现1处为动词"带动"义。"布"1处为风车布帆。"绵"1处为棉籽油。整体噪音率高达86.7%,充分反映了机械工程文本的用词特征。
输出文件清单
| 文件名 | 大小限制 | 内容说明 |
|---|---|---|
| 奇器图说_总结.md | ≤20KB | 服饰内容总结与分析 |
| 奇器图说_原文提取.md | ≤20KB | 服饰相关原文(含噪音过滤附录) |
| 奇器图说_日志.md | ≤20KB | 本处理日志 |
结论
《奇器图说》全书2928行中,经48个服饰关键词检索,原始命中30处,过滤噪音后仅余4处,均以"衣服/衣着"作为民生大类概括提及,无任何服饰形制、制度、工艺的具体描述。本书属于机械工程专书,服饰非其论述对象,提取结果极度稀疏。