《匋雅》服饰内容提取日志
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 匋雅(陶雅、瓷学) |
| 作者 | (清)陈浏(寂园叟) |
| 文件路径 | /home/z/my-project/upload/器物/器物/匋雅.txt |
| 输出目录 | /home/z/my-project/upload/器物output/匋雅/ |
| 总行数 | 1129行 |
| 处理时间 | 2026-03-05 |
处理流程
第一步:wc -l 查总行数
$ wc -l 匋雅.txt
1129 匋雅.txt
第二步:多轮grep -n提取服饰关键词行号
对47个服饰关键词逐一grep,记录命中情况:
| 关键词 | 命中行数 | 备注 |
|---|---|---|
| 衣 | 12 | 含噪音2条(苔衣、老僧衣) |
| 裳 | 2 | 含噪音1条(海裳=海棠) |
| 冠 | 3 | 含噪音2条(冠绝、最为冠) |
| 带 | 14 | 含噪音7条(动词/修饰义"满带""微带"等) |
| 袍 | 1 | 有效 |
| 褐 | 3 | 全部噪音(瓷器颜色) |
| 巾 | 1 | 有效 |
| 履 | 2 | 有效 |
| 裙 | 8 | 含噪音7条(鳖裙/龟裙/龙裙等瓷釉色名) |
| 幅 | 6 | 全部噪音(量词"一幅画""纸幅"等) |
| 冕 | 1 | 有效(皇冕徽章) |
| 簪 | 2 | 含噪音1条(簪花格=书法体) |
| 环 | 8 | 全部噪音(环球/铜环/套环/循环等) |
| 罗 | 7 | 全部噪音(星罗棋布/欧罗巴/罗汉) |
| 纱 | 1 | 有效(浣纱) |
| 绢 | 4 | 有效 |
| 锦 | 16 | 含噪音12条(锦纹/锦地/锦灰堆/锦边等瓷纹饰) |
| 绣 | 12 | 含噪音8条(铁绣花/土花绣/雕绣/绣花等瓷工艺) |
| 练 | 1 | 噪音(练川=地名) |
| 布 | 3 | 全部噪音(星罗棋布/磨布擦/人名) |
| 麻 | 10 | 全部噪音(麻癞/芝麻酱/麻姑/麻叶青等) |
| 丝 | 5 | 含噪音4条(铜丝/篾丝笼) |
| 缎 | 1 | 噪音(瓷器易缎,非织物义) |
| 绫 | 2 | 有效 |
| 幄 | 1 | 有效(屏幄) |
| 旗 | 1 | 有效 |
| 旌 | 1 | 有效(旌帜) |
| 裘/屦/绅/袂/裾/襟/弁/珥/佩/绮/帛/絮/绸/缯/纨/绡/绶/绂/黼/黻/鹖/帻/帷/帐/旆/纛 | 0 | 全书无命中 |
第三步:sed -n 提取上下文
对有效命中行提取前后各2行上下文,共提取29个片段,逐一审读。
第四步:噪音过滤
执行严格过滤,标准如下:
- 瓷釉色名:鳖裙、龟裙、龙裙、虌裙、丽裙 → 过滤
- 瓷纹饰名:锦纹、锦地开光、锦灰堆、锦边、锦鸡 → 过滤
- 瓷工艺名:铁绣花、土花绣、雕绣、绣花(凹凸雕花)、刻绣 → 过滤
- 釉面比喻:苔衣(苔藓覆盖) → 过滤
- 动词/修饰义:满带、微带、带有 → 过滤
- 习语/典故非服饰义:冠绝全球、星罗棋布、天衣无缝 → 过滤
- 人名/地名:练川唐氏、南田草衣 → 过滤
- 量词:一幅画、纸幅、篇幅 → 过滤
- 非纺织丝:铜丝、篾丝笼 → 过滤
第五步:保留边界条目
以下条目虽非典型服饰,但具有语料价值,保留并加注:
- 老僧衣(第1091行):瓷釉色名,以僧衣色喻釉色,保留并标注
- 杏子衫(第808行):以衣色喻釉色,保留
- 浣纱贫女(第220行):西施典故,涉及纱的洗涤,保留
- 窃履盗簪(第427行):典故隐喻,涉及履、簪,保留
输出文件
| 文件 | 大小 | 说明 |
|---|---|---|
| 匋雅_总结.md | <20KB | 服饰内容分类总结与统计分析 |
| 匋雅_原文提取.md | <20KB | 有效原文引用(附卷节行号) |
| 匋雅_日志.md | <20KB | 本处理日志 |
质量检查
- [x] 每篇≤20KB
- [x] 引用原文不转述
- [x] grep验证通过
- [x] 不加载整本TXT(仅sed -n按行号提取)
- [x] 不凑字不灌水
- [x] 噪音过滤严格执行(尤其"裙""锦""绣""褐""麻"五大噪音关键词)
- [x] 输出目录总计≤1M