《陔余丛考》服饰内容提取 · 日志
时间:2026-04-19 任务:提取《陔余丛考》全部服饰相关内容,整理分类总结 输入文件:/home/z/my-project/upload/part4/陔余丛考.txt(1.6MB,3299行)
操作流程
Step 0: 检查文件
文件大小:1,651,552字节(约1.6MB)
行数:3,299行
编码:UTF-8(部分字节有截断,用errors='replace'处理)
Step 1: 读取参考文件
- 关键词词库:fushi-keywords.md(核心服饰词94个 + 制度动作词17个 + 组合扩展词8组)
- 总结模板:参考/总结.md(《吕氏春秋》模板)
- 日志模板:参考/日志.md(《晋会要》模板)
- 原文提取模板:参考/原文提取.md(《天工开物》模板)
Step 2: 第1轮核心词grep
```bash rg -n '衣|裳|冠|冕|袍|裘|带|佩|巾|帻|履|舄|笏|绶|...' INPUT_FILE
命中451行,但大量为误命中("衣冠"代指士大夫、"服从"非服饰义等)
```
Step 3: 第2轮制度动作词grep
```bash rg -n '服色|冠服|朝服|公服|常服|赐服|丧服|祭服|舆服' INPUT_FILE
命中约60行,多为史书评论中引用,非专门服饰考辨
```
Step 4: Python精准搜索
用Python按关键词列表逐行扫描,找出: - 专条服饰条目标题(○开头) - 散见服饰内容(其他条目中涉及服饰的段落)
关键发现:本书目录条目(如○马褂、缺襟袍、战裙)与正文内容分布在不同位置,目录在卷首,正文在对应卷次。
Step 5: sed提取关键段落
对以下行号范围提取完整内容: - Line 2255-2270: 脱袜登席、弓足、金凤染指、簪花 - Line 2343-2380: 帽顶、袜膝裤、钉鞋、料丝 - Line 2119-2130: 官府乘轿 - Line 1009-1015: 鹬冠 - Line 1683-1690: 赐绯衣银鱼、敛衽考 - Line 2785-2800: 女扮为男 - Line 2669-2675: 乌方帽红蕉衣黑犀带
Step 6: 分类整理
按8大类整理: 1. 足服类(4条) 2. 首服类(3条) 3. 体服与装扮类(2条专条+3条散见) 4. 出行仪仗类(1条) 5. 器物材料类(1条) 6. 制度考辨类(5条)
Step 7: 保存三份文件
- 陔余丛考_总结.md
- 陔余丛考_日志.md(本文件)
- 陔余丛考_原文提取.md
关键发现
- 本书体例为笔记考据:赵翼以"考源流"为主,服饰条目多追溯事物起源与演变
- 专条服饰11条:脱袜登席、弓足、金凤染指、簪花、帽顶、鹬冠、袜膝裤、钉鞋、料丝、女扮为男、官府乘轿
- 散见服饰9条:绛衲裆衫、布单衣鹿皮冠、赐绯衣银鱼、幞头花带靴银、赐冠带袍笏、乌方帽红蕉衣黑犀带、白冠牦缨、绛袍玉带、法冠
- 部分目录条目内容缺失:马褂缺襟袍战裙、绿头巾在目录中列出但正文未见完整内容,疑为版本问题
- 服饰与礼制紧密相连:脱袜登席→古礼等级、赐冠服→科举制度、敛衽→男女礼节
关键踩坑记录
- 大文件(1.6MB)直接用rg宽正则搜索会超时,需拆分为小词组分别搜索
- UTF-8编码有截断字节,需用errors='replace'处理
- 目录条目与正文分布不同,目录行号不等于正文行号
- "衣冠"出现频率极高(22次),绝大多数为"士大夫"代称,需逐条排除
- "布衣"出现8次,多为"平民"代称,仅1次涉及服饰描写
- "服"字出现极频,"服从""服药""服丧"需严格排除
审核结果
全部通过 ✅ — 原文均从TXT文件grep+sed提取,有明确行号对应。目录条目马褂、绿头巾标注"目录有而正文缺",不做无根据推衍。