《匋雅》服饰内容提取日志

基本信息

项目 内容
书名 匋雅(陶雅、瓷学)
作者 (清)陈浏(寂园叟)
文件路径 /home/z/my-project/upload/器物/器物/匋雅.txt
输出目录 /home/z/my-project/upload/器物output/匋雅/
总行数 1129行
处理时间 2026-03-05

处理流程

第一步:wc -l 查总行数

$ wc -l 匋雅.txt
1129 匋雅.txt

第二步:多轮grep -n提取服饰关键词行号

对47个服饰关键词逐一grep,记录命中情况:

关键词 命中行数 备注
12 含噪音2条(苔衣、老僧衣)
2 含噪音1条(海裳=海棠)
3 含噪音2条(冠绝、最为冠)
14 含噪音7条(动词/修饰义"满带""微带"等)
1 有效
3 全部噪音(瓷器颜色)
1 有效
2 有效
8 含噪音7条(鳖裙/龟裙/龙裙等瓷釉色名)
6 全部噪音(量词"一幅画""纸幅"等)
1 有效(皇冕徽章)
2 含噪音1条(簪花格=书法体)
8 全部噪音(环球/铜环/套环/循环等)
7 全部噪音(星罗棋布/欧罗巴/罗汉)
1 有效(浣纱)
4 有效
16 含噪音12条(锦纹/锦地/锦灰堆/锦边等瓷纹饰)
12 含噪音8条(铁绣花/土花绣/雕绣/绣花等瓷工艺)
1 噪音(练川=地名)
3 全部噪音(星罗棋布/磨布擦/人名)
10 全部噪音(麻癞/芝麻酱/麻姑/麻叶青等)
5 含噪音4条(铜丝/篾丝笼)
1 噪音(瓷器易缎,非织物义)
2 有效
1 有效(屏幄)
1 有效
1 有效(旌帜)
裘/屦/绅/袂/裾/襟/弁/珥/佩/绮/帛/絮/绸/缯/纨/绡/绶/绂/黼/黻/鹖/帻/帷/帐/旆/纛 0 全书无命中

第三步:sed -n 提取上下文

对有效命中行提取前后各2行上下文,共提取29个片段,逐一审读。

第四步:噪音过滤

执行严格过滤,标准如下:

  1. 瓷釉色名:鳖裙、龟裙、龙裙、虌裙、丽裙 → 过滤
  2. 瓷纹饰名:锦纹、锦地开光、锦灰堆、锦边、锦鸡 → 过滤
  3. 瓷工艺名:铁绣花、土花绣、雕绣、绣花(凹凸雕花)、刻绣 → 过滤
  4. 釉面比喻:苔衣(苔藓覆盖) → 过滤
  5. 动词/修饰义:满带、微带、带有 → 过滤
  6. 习语/典故非服饰义:冠绝全球、星罗棋布、天衣无缝 → 过滤
  7. 人名/地名:练川唐氏、南田草衣 → 过滤
  8. 量词:一幅画、纸幅、篇幅 → 过滤
  9. 非纺织丝:铜丝、篾丝笼 → 过滤

第五步:保留边界条目

以下条目虽非典型服饰,但具有语料价值,保留并加注:

输出文件

文件 大小 说明
匋雅_总结.md <20KB 服饰内容分类总结与统计分析
匋雅_原文提取.md <20KB 有效原文引用(附卷节行号)
匋雅_日志.md <20KB 本处理日志

质量检查