《吕氏春秋》服饰内容提取 — 操作日志
日期:2026-03-05
任务:提取《吕氏春秋》全部服饰相关内容,整理分类总结
Step 1: 文件检查
wc -l -c "/home/z/my-project/upload/诸子/诸子/吕氏春秋.txt"
# 结果:813行 555570字节(约555KB)
# 文件编码:UTF-8,极长行(最长达1946字),CRLF换行
Step 2: 按词库执行grep(第1轮:核心服饰词)
# 衣
python3 rg_count '衣' → 71行命中
# 冠
python3 rg_count '冠' → 20行命中
# 其他核心词(裳/袍/裘/履/舄/巾/帻/绶/裙/袄/褐/缙/绅/纨/绮/绫/罗/锦/绣/帛/绢/绸/缎/丝/棉/葛/麻/毡/帽/靴/袜/袂/裾/衽/襦/簪/钗/弁/胄/缨/屦/黼/黻/深衣/法服/冕)
python3 count → 61行命中
# 第1轮合计:约152条原始命中(含同一行多关键词)
Step 3: 按词库执行grep(第2轮:制度动作词)
python3 rg '赐服|赐紫|赐绯|赐蟒|赐鱼|赏衣|僭|逾制|违式|品色|冠礼|笄礼|敛衽|释服|加冠'
# 结果:2行命中
# L321: 僭称王(非服饰义,排除)
# L594: 与"赐"无关
# 有效制度词命中:0条
Step 4: 按词库执行grep(第3轮:组合扩展词)
# 蚕桑纺织
python3 search '蚕|桑|茧|缫|织|纺'
# L177: 蚕事/亲桑
# L208: 蚕事既登/分茧称丝
# L233: 织葩屦
# L428: 织屦履
# L794: 丝茧之功
# 冕服体系
python3 search '大裘而冕|衮冕|鷩冕|毳冕|絺冕|玄冕'
# L343: 完整六冕体系(引周礼司服章)
# L208: 大裘冕(引周礼)
Step 5: python上下文提取
对71行"衣"命中+20行"冠"命中+61行其他核心词命中,使用python逐一提取前后60字上下文,审阅判断是否为服饰语境。
关键发现:
- 月令12篇(孟春至季冬)均有"衣X衣"句式,构成完整五行服色体系
- L343为全书最密集的服饰段落,含司服制度、六冕、弁服
- "布衣"出现约15处,绝大多数为平民代称
Step 6: 对抗式学术审查
6.1 排除项
| 关键词 | 误命中场景 | 处理 |
|---|---|---|
| 罗 | L208/343 罗网(捕鸟网) | 排除——非丝织品 |
| 罗 | L343 大罗氏(官名) | 排除——非丝织品 |
| 罗 | L455 若罗(植物叶形) | 排除——非丝织品 |
| 丝 | L375 兔丝(植物) | 排除——非丝织品 |
| 丝 | L779 丝且之网 | 排除——非丝织品 |
| 冠 | L293 天文术语 | 排除——非首服 |
| 冠 | L293 冠爵(鸟名) | 排除——非首服 |
| 冠 | L546 冠后(动词) | 排除——非首服 |
| 带 | L293 生如带(比喻) | 排除——非腰带 |
| 胄 | L210 突胄(疾病) | 排除——非头盔 |
| 胄 | L552 篡国之胄(后裔) | 排除——非头盔 |
| 麻 | L315/343/367/393 食麻与犬 | 排除——食物义 |
| 麻 | L568 夙靡/作麻(地名) | 排除——地名 |
| 麻 | L801 得时之麻 | 排除——农作物 |
| 葛 | L208/375 葛藟/葛与女萝 | 排除——植物 |
| 葛 | L262 葛天氏 | 排除——人名 |
| 帛 | L183 竹帛(书籍载体) | 排除——非丝帛制度 |
| 帛 | L692 执玉帛者万国 | 保留——朝聘制度 |
6.2 保留但标注
| 关键词 | 场景 | 标注 |
|---|---|---|
| 衣 | "布衣"代指平民 | 保留但标注为代称 |
| 衣 | "衣"作动词"穿" | 保留——描述穿着行为 |
| 佩 | L155/367 所佩之饬/衣服佩玉 | 保留——佩饰 |
| 丝 | L185 染素丝 | 保留——含丝织品信息 |
| 帛 | L177/208/291/459 币帛/甲裳以帛 | 保留——丝帛制度 |
| 麻 | L794 麻枲丝茧 | 保留——纺织原料 |
| 葛 | L229 始絺(细葛) | 保留——服饰面料 |
| 胄 | L729/735 免胄/甲胄 | 保留——头盔 |
Step 7: 整理分类,生成三份文件
吕氏春秋_原文提取.md— 按13个主题分类的原文摘录吕氏春秋_总结.md— 结构化总结+引用行号表+学术审查吕氏春秋_日志.md— 本文件
操作流程轨迹
文件检查(813行/555KB)→ 第1轮grep核心词152条 → 第2轮制度词0条有效
→ 第3轮组合扩展词补充 → python上下文提取71+20+61行
→ 对抗式学术审查排除18项误命中 → 整理40条有效条目分13类
→ 保存3份MD文件
统计数据
| 指标 | 数值 |
|---|---|
| 原始grep命中总条数 | 约152条(含同行多词) |
| 排除误命中 | 约18条 |
| 重复模式合并(月令12月) | 约12条合并为1组 |
| 有效服饰条目 | 40条 |
| 原文提取MD | 305行/11317字节 |
| 总结MD | 226行/8578字节 |
关键发现
- 月令衣色制度为全书最核心服饰史料,构成完整的五行五色体系
- L343司服段为唯一集中论述服饰制度的段落,含六冕+弁服
- 制度动作词(赐服/赐紫/逾制等)几乎零命中,反映先秦子书特征
- 服饰描写多用作政治喻体,非客观记录
- 鞠衣条为先秦罕见王后礼服记录