《清文精选》服饰内容提取 · 工作日志
时间:2026-05-09
任务:提取《清文精选》全部服饰相关内容
操作流程
Step 1: 确认输入文件
```
wc -l → 279行(5本书中最小)
mkdir -p 文总集output/清文精选/
```
Step 2: 多轮grep搜索(10轮50词)
| 轮次 | 关键词 | 匹配行数 |
|---|---|---|
| R1 | 衣(13) 裳(3) 裘(0) 冠(5) 冕(0) | |
| R2 | 袍(0) 褐(0) 裙(0) 衫(2) 襦(0) | |
| R3 | 绶(0) 佩(0) 笏(0) 履(5) 舄(0) | |
| R4 | 帻(0) 弁(0) 铠(1) 甲(5) | |
| R5 | 帛(2) 绢(0) 缟(1) 纱(0) 锦(2) | |
| R6 | 绣(1) 黼(0) 黻(0) 衮(0) 章服(0) | |
| R7 | 带(4) 袂(1) 襟(0) 袖(2) 衽(1) | |
| R8 | 丝(0) 麻(0) 葛(1) 布衣(0) 绵(1) | |
| R9 | 朝服(0) 祭服(0) 丧服(0) 戎服(0) 法服(0) | |
| R10 | 深衣(0) 缁衣(1) 素衣(0) 朱衣(0) 青衣(1) |
总匹配行数:约40行(去重前)
有效服饰段落数:约9段
Step 3: 补充搜索
- 锦衣(1) 黄衫(1) 貂蝉(1) 衣冠(2) 草冠(1) 敝衣(1) 红顶花翎(1) 玄衣(1) 青衫(1) 乌帽(1)
Step 4: 噪音过滤
- "衣"13行中约4行为非服饰用法(衣食、衣冠冢等)
- "冠"5行中约2行为"冠军"等非服饰用法
- "甲"5行中约4行为"甲兵"等泛指
Step 5: 保存三份文件
- 文总集output/清文精选/原文提取.md
- 文总集output/清文精选/总结.md
- 文总集output/清文精选/日志.md(本文件)
关键发现
- 衣冠代葬为全书最感人服饰文献——史可法衣冠冢
- 红顶花翎为清末官服品级核心标志——梁启超《少年中国说》批判
- 全书279行为5本书中最小,但服饰密度最高
- 裘(0)袍(0)裙(0)冕(0)衮(0)——大量服制术语缺失
- 朝服祭服丧服戎服法服全部为0——制度性服饰完全缺失
文件大小
- 原文提取.md:约8KB
- 总结.md:约4KB
- 日志.md:约2KB