《吕氏春秋》服饰内容提取 — 操作日志

日期:2026-03-05
任务:提取《吕氏春秋》全部服饰相关内容,整理分类总结


Step 1: 文件检查

wc -l -c "/home/z/my-project/upload/诸子/诸子/吕氏春秋.txt"
# 结果:813行 555570字节(约555KB)
# 文件编码:UTF-8,极长行(最长达1946字),CRLF换行

Step 2: 按词库执行grep(第1轮:核心服饰词)

# 衣
python3 rg_count '衣' → 71行命中

# 冠
python3 rg_count '冠' → 20行命中

# 其他核心词(裳/袍/裘/履/舄/巾/帻/绶/裙/袄/褐/缙/绅/纨/绮/绫/罗/锦/绣/帛/绢/绸/缎/丝/棉/葛/麻/毡/帽/靴/袜/袂/裾/衽/襦/簪/钗/弁/胄/缨/屦/黼/黻/深衣/法服/冕)
python3 count → 61行命中

# 第1轮合计:约152条原始命中(含同一行多关键词)

Step 3: 按词库执行grep(第2轮:制度动作词)

python3 rg '赐服|赐紫|赐绯|赐蟒|赐鱼|赏衣|僭|逾制|违式|品色|冠礼|笄礼|敛衽|释服|加冠'
# 结果:2行命中
# L321: 僭称王(非服饰义,排除)
# L594: 与"赐"无关
# 有效制度词命中:0条

Step 4: 按词库执行grep(第3轮:组合扩展词)

# 蚕桑纺织
python3 search '蚕|桑|茧|缫|织|纺'
# L177: 蚕事/亲桑
# L208: 蚕事既登/分茧称丝
# L233: 织葩屦
# L428: 织屦履
# L794: 丝茧之功

# 冕服体系
python3 search '大裘而冕|衮冕|鷩冕|毳冕|絺冕|玄冕'
# L343: 完整六冕体系(引周礼司服章)
# L208: 大裘冕(引周礼)

Step 5: python上下文提取

对71行"衣"命中+20行"冠"命中+61行其他核心词命中,使用python逐一提取前后60字上下文,审阅判断是否为服饰语境。

关键发现:
- 月令12篇(孟春至季冬)均有"衣X衣"句式,构成完整五行服色体系
- L343为全书最密集的服饰段落,含司服制度、六冕、弁服
- "布衣"出现约15处,绝大多数为平民代称

Step 6: 对抗式学术审查

6.1 排除项

关键词 误命中场景 处理
L208/343 罗网(捕鸟网) 排除——非丝织品
L343 大罗氏(官名) 排除——非丝织品
L455 若罗(植物叶形) 排除——非丝织品
L375 兔丝(植物) 排除——非丝织品
L779 丝且之网 排除——非丝织品
L293 天文术语 排除——非首服
L293 冠爵(鸟名) 排除——非首服
L546 冠后(动词) 排除——非首服
L293 生如带(比喻) 排除——非腰带
L210 突胄(疾病) 排除——非头盔
L552 篡国之胄(后裔) 排除——非头盔
L315/343/367/393 食麻与犬 排除——食物义
L568 夙靡/作麻(地名) 排除——地名
L801 得时之麻 排除——农作物
L208/375 葛藟/葛与女萝 排除——植物
L262 葛天氏 排除——人名
L183 竹帛(书籍载体) 排除——非丝帛制度
L692 执玉帛者万国 保留——朝聘制度

6.2 保留但标注

关键词 场景 标注
"布衣"代指平民 保留但标注为代称
"衣"作动词"穿" 保留——描述穿着行为
L155/367 所佩之饬/衣服佩玉 保留——佩饰
L185 染素丝 保留——含丝织品信息
L177/208/291/459 币帛/甲裳以帛 保留——丝帛制度
L794 麻枲丝茧 保留——纺织原料
L229 始絺(细葛) 保留——服饰面料
L729/735 免胄/甲胄 保留——头盔

Step 7: 整理分类,生成三份文件


操作流程轨迹

文件检查(813行/555KB)→ 第1轮grep核心词152条 → 第2轮制度词0条有效
→ 第3轮组合扩展词补充 → python上下文提取71+20+61行
→ 对抗式学术审查排除18项误命中 → 整理40条有效条目分13类
→ 保存3份MD文件

统计数据

指标 数值
原始grep命中总条数 约152条(含同行多词)
排除误命中 约18条
重复模式合并(月令12月) 约12条合并为1组
有效服饰条目 40条
原文提取MD 305行/11317字节
总结MD 226行/8578字节

关键发现