《续碑传选集》服饰内容提取 · 工作日志
时间:2026-05-09
任务:提取《续碑传选集》全部服饰相关内容,整理分类总结
操作流程
Step 1: 确认输入文件
```
输入文件 /tmp/daizhige_data/集藏/文总集/续碑传选集.md
wc -l → 1465行,434KB
```
Step 2: 多轮grep搜索(10轮50词)
| 轮次 | 关键词 | 匹配行数 |
|---|---|---|
| R1 | 衣(24) 裳(1) 裘(5) 冠(29) 冕(2) | |
| R2 | 袍(6) 褐(1) 裙(0) 衫(0) 襦(0) | |
| R3 | 绶(3) 佩(5) 笏(1) 履(10) 舄(4) | |
| R4 | 帻(0) 弁(19) 铠(3) 甲(56) 兜鍪(0) | |
| R5 | 帛(1) 绢(0) 缟(0) 纱(3) 锦(9) | |
| R6 | 绣(1) 黼(1) 黻(1) 衮(0) 章服(0) | |
| R7 | 带(20) 袂(1) 襟(3) 袖(4) 衽(1) | |
| R8 | 丝(6) 麻(4) 葛(2) 布衣(2) 绵(4) | |
| R9 | 朝服(1) 祭服(0) 丧服(1) 戎服(0) 法服(0) | |
| R10 | 深衣(0) 缁衣(0) 素衣(0) 朱衣(0) 青衣(1) |
总匹配行数:约206行(去重前)
Step 3: grep -n精确搜索
对以下关键词执行grep -n:
- 赐服制度:裘服(1) 宝石顶(1) 团龙补服(1) 黄马袿(1) 四开禊袍(1) 袍料(1) 孔雀翎(1) 紫缰(2)
- 便服:絺布帐(1) 絮袍(1) 布衩服(1)
- 平民:布衣(2)
- 政治:不薙发(1)
关键发现:
- 续碑传选集为清代碑传,服饰内容集中在军功赐服
- "弁"19行均为"将弁"(军官),非帽饰义
- "甲"56行中绝大部分为"甲兵""甲马"等军事用语
- 清代赐服制度(黄马褂/宝石顶/花翎)为最突出的服饰内容
Step 4: 噪音过滤
噪音类别:
- "弁"19行全部为"将弁""武弁",非帽饰义
- "甲"56行中约95%为"甲兵""甲马""甲午"等军事用语或纪年
- "冠"29行中约90%为"冠军""冠绝"等非服饰用法
- "衣"24行中约75%为"衣食""衣服""衣锦"等非典型服饰用法
- "舄"4行为地名"舄湖"
有效服饰段落估计:约10段
Step 5: 保存三份文件
- 文总集output/续碑传选集/原文提取.md
- 文总集output/续碑传选集/总结.md
- 文总集output/续碑传选集/日志.md(本文件)
文件大小
- 原文提取.md:约6KB
- 总结.md:约6KB
- 日志.md:约3KB