古玩指南·服饰内容提取日志

基本信息


处理流程记录

第一步:wc -l 查总行数

$ wc -l /home/z/my-project/upload/器物/器物/古玩指南.txt
227 /home/z/my-project/upload/器物/器物/古玩指南.txt

第二步:grep -n 提取服饰关键词行号

使用关键词词库全量扫描(48个关键词):

$ rg -n '衣|裳|冠|带|袍|裘|褐|巾|履|屦|绅|袂|裾|襟|裙|幅|弁|冕|簪|珥|佩|环|绮|罗|纱|绢|帛|锦|绣|练|絮|布|麻|丝|绸|缎|缯|绫|纨|绡|绶|绂|黼|黻|鹖|帻|帷|帐|幄|旗|旌|旆|纛' 古玩指南.txt

命中行数:14行

逐关键词统计:

关键词 命中行数 命中行号
2 57, 97
1 189
2 85, 189
5 19, 55, 57, 59, 101
2 55, 91
1 109
1 45
1 189
1 225
5 15, 57, 95, 189, 221
2 167, 189

未命中关键词(37个):裳、袍、裘、巾、履、屦、绅、袂、裾、襟、幅、弁、冕、簪、珥、佩、绮、罗、纱、绢、帛、练、絮、绸、缎、缯、绫、纨、绡、绶、绂、黼、黻、鹖、帻、帷、帐、幄、旗、旌、旆、纛

第三步:sed -n 提取上下文

对14个命中行逐一读取上下文(行±2),结合全文通读(227行全量),确认关键词所在完整语义段。

第四步:噪音过滤

对14个命中行逐条判定:

行号 关键词 判定 理由
15 噪音 "麻癞"为瓷疵术语,非织物
19 噪音 "褐斑"为瓷釉色斑,非粗布
45 有效 "锦纹"借织锦纹样喻瓷饰
55 有效 "鳖裙"借裙边喻釉色
55 噪音 "褐绿""粉色褐"为瓷色名
57 有效 "老僧衣"借僧袍喻釉色
57 噪音 "黄褐色"为瓷色名
57 噪音 "芝麻酱"为植物名
59 噪音 "墨褐"为瓷色名
85 噪音 "带黄"中"带"为动词
85 (衫) 附载 "杏子衫"为衣类喻称,但"衫"不在词库
91 有效 "鳖裙"释义行
95 噪音 "芝麻星"为植物名
97 有效 "老僧衣"再现并释义
97 噪音 "芝麻花"为植物名
101 噪音 "黑褐"为瓷色名
109 噪音 "环形"为形状词
167 噪音 "丝毫"为量词
189 噪音 "诸窑之冠"为冠军义
189 噪音 "带粉红"中"带"为动词
189 有效 "绣花"借刺绣技法喻瓷饰手法
189 有效 "青丝"借丝线喻釉纹
189 噪音 "芝麻花"为植物名
189 噪音 "兔丝纹"为草名
221 噪音 "麻癞"为瓷疵术语
225 噪音 "布擦"为擦拭工具

过滤结果: - 有效条目:7条(6条关键词命中 + 1条附载) - 噪音条目:18条

第五步:严控≤1M / 每篇≤20KB


输出文件清单

文件名 大小 说明
古玩指南_总结.md <5KB 服饰内容总结与分析
古玩指南_原文提取.md <8KB 服饰关键词原文逐条提取
古玩指南_日志.md <6KB 本处理日志

关键发现

  1. 《古玩指南》为瓷器鉴赏专书,无服饰专章,服饰内容极少
  2. 唯一模式:以服饰/织物术语为喻,命名瓷器颜色与装饰手法
  3. 有效服饰关键词仅5个(衣、裙、锦、绣、丝),其余43个关键词未命中
  4. 命中行中噪音率高达72%(18/26),主要噪音来源为瓷色名用"褐"、瓷疵用"麻癞"、植物"芝麻"
  5. 此书不可作为服饰史料引用,仅可说明服饰用语对古瓷术语的渗透