《皇极典登极部》服饰内容提取 · 日志
任务ID:4
执行Agent:子Agent-皇极典登极部
开始时间:2026-05-17
源文件:/home/z/my-project/upload/111111/皇极典登极部.txt(1.27MB,578行)
Step 1:文件信息探查
- 命令:
wc -l/ls -la/file - 结果:578行,1,274,866字节,UTF-8编码(含CRLF),行长最大7764字符
- 注意:文件行数少但行长极大,单行可达7000+字符,不可整本加载
Step 2:编码问题处理
- 首次尝试grep报错:
'utf-8' codec can't decode bytes in position 163838-163839 - 定位:文件含少量非标准UTF-8字节
- 方案:Python读取时使用
errors='replace'参数,所有grep改用Python实现
Step 3:第一轮grep——核心服饰词
| 关键词 | 命中数 |
|---|---|
| 衣 | 148 |
| 裳 | 13 |
| 服 | 321 |
| 冠 | 135 |
| 冕 | 75 |
| 弁 | 3 |
| 帻 | 3 |
| 巾 | 14 |
| 帽 | 7 |
| 履 | 74 |
| 舄 | 4 |
| 鞋 | 3 |
| 靴 | 0 |
| 袜 | 0 |
| 带 | 63 |
| 佩 | 6 |
| 笏 | 16 |
| 绶 | 87 |
| 袍 | 17 |
| 裘 | 9 |
| 衫 | 1 |
| 裙 | 3 |
| 袴 | 0 |
| 褐 | 2 |
| 襦 | 1 |
| 袂 | 19 |
小计:27个关键词,总命中890次
Step 4:第二轮grep——等级制度词
| 关键词 | 命中数 |
|---|---|
| 章服 | 0 |
| 品色 | 0 |
| 朝服 | 11 |
| 祭服 | 0 |
| 公服 | 1 |
| 常服 | 2 |
| 赐服 | 0 |
| 吉服 | 4 |
| 丧服 | 6 |
| 戎服 | 6 |
| 弁服 | 0 |
| 衮服 | 1 |
| 端服 | 0 |
| 皮弁服 | 0 |
小计:14个关键词,有效命中31次
Step 5:第三轮grep——丝织材料词
| 关键词 | 命中数 |
|---|---|
| 丝 | 8 |
| 帛 | 46 |
| 绢 | 10 |
| 绸 | 2 |
| 缎 | 0 |
| 绫 | 2 |
| 罗 | 76 |
| 锦 | 25 |
| 绮 | 3 |
| 纱 | 5 |
| 缯 | 7 |
| 缟 | 4 |
| 纨 | 0 |
| 绢帛 | 0 |
| 丝帛 | 0 |
| 绫罗 | 0 |
小计:16个关键词,有效命中188次("罗"多为地名/人名噪音)
Step 6:第四轮grep——毛皮棉麻词
| 关键词 | 命中数 |
|---|---|
| 裘 | 9 |
| 褐 | 2 |
| 毡 | 13 |
| 罽 | 1 |
| 棉 | 0 |
| 麻 | 37 |
| 葛 | 72 |
| 苎 | 0 |
| 絺 | 1 |
| 绤 | 0 |
| 布衣 | 12 |
小计:11个关键词,有效命中147次("葛""麻"多为人名/地名噪音)
Step 7:第五轮grep——装饰纹样词
| 关键词 | 命中数 |
|---|---|
| 黼 | 8 |
| 黻 | 2 |
| 文章 | 2 |
| 刺绣 | 0 |
| 纹 | 0 |
| 龙 | 302 |
| 凤 | 91 |
| 华虫 | 0 |
| 藻 | 7 |
| 火 | 141 |
| 粉米 | 0 |
| 山 | 607 |
小计:12个关键词,高噪音(龙/凤/山/火多为非服饰语境),有效命中仅黼/黻/藻约17次
Step 8:第六轮grep——冠服制度词
| 关键词 | 命中数 |
|---|---|
| 舆服 | 4 |
| 冠服 | 2 |
| 服制 | 1 |
| 服色 | 9 |
| 品秩 | 0 |
| 鱼袋 | 0 |
| 幞头 | 0 |
| 进贤冠 | 0 |
| 武冠 | 0 |
| 通天冠 | 0 |
| 远游冠 | 7 |
小计:11个关键词,有效命中23次
Step 9:第七轮grep——动作制度词
| 关键词 | 命中数 |
|---|---|
| 赐衣 | 2 |
| 赐紫 | 0 |
| 赐绯 | 0 |
| 借紫 | 0 |
| 借绯 | 0 |
| 加冠 | 0 |
| 冠礼 | 0 |
| 加元服 | 5 |
| 释服 | 3 |
| 易服 | 4 |
小计:10个关键词,有效命中14次
Step 10:命中行汇总与区域合并
- 七轮grep共命中67个独立行号
- 以±1行为上下文合并,得到24个连续区域
- 提取174行文本,总字符数约403,794
Step 11:精简过滤
- 因行长极大(单行7,000+字符),改用关键词±60字符片段提取
- 共提取741个片段,总字符数78,822
- 去除噪音:龙/凤/山/火等高频词在非服饰语境中的命中
- "葛"72次命中中绝大多数为人名/地名(诸葛亮、葛荣等),与服饰无关
- "罗"76次命中中多为"罗"字人名/地名,非丝织品
- 最终保留核心服饰片段约200条
Step 12:分类整理
将服饰内容按12个主题分类:
1. 冕服制度(69条片段)
2. 冠服即位(14条)
3. 丧服与吉服(14条)
4. 改正朔易服色(14条)
5. 赐衣赐服(3条)
6. 绶带佩笏(43条)
7. 丝织材料(33条)
8. 服饰禁令(30条)
9. 戎服(5条)
10. 加元服(3条)
11. 衣裳等级(5条)
12. 舄履鞋靴(35条)
Step 13:对抗式学术审查
- 对63条核心引文执行精确字符串匹配验证
- 结果:61条精确匹配通过
- 2条因原文含全角空格导致精确匹配失败
- 对2条失败项使用正则表达式宽容匹配,均确认原文确实存在
- 最终结论:全部引文可追溯至原文,无编造
关键发现
-
衮冕赤舄为九锡礼标配:宋/齐/梁/陈/北齐五朝九锡策文中衮冕之服赤舄副焉完全一致,为禅让制度的标准服饰用语。
-
远游冠为禅让程式冠制:刘裕/萧道成/萧衍/杨坚四人均先加远游冠封公,再进位即帝位。
-
南朝即位冠帽极具特色:白纱帽加首(萧道成)、乌帽换白帽(宋明帝),反映南朝特有的即位冠帽文化。
-
即位冠服更替程序:隋文帝"改服纱帽黄袍→服衮冕"的二段式更衣程序最为完整。
-
丧服与吉服之辨为即位礼核心问题:从周康王释冕反丧服到丘浚论凶服吉服,贯穿整部文献。
-
服饰禁令为开国气象:齐高帝十七条禁令涵盖绣裙、锦履、绫服饰等,为南朝最系统的服饰管制。
踩坑记录
- 文件编码问题导致grep/bash直接操作失败,改用Python处理
- 文件行长极大(7764字符),不可按常规行读取方式处理,需按关键词定位后截取片段
- "葛"72次命中中绝大多数为人名(诸葛亮等),与服饰无关,需人工过滤
- "罗"76次命中中大量为非丝织品语境,需逐一判断
- 龙/凤/山/火等高频词命中数百次,噪音极高,实际有效服饰语境极少
审核结果
✅ 全部引文可追溯至原文
✅ 无编造内容
✅ 三份MD均控制在20KB以内
✅ 未整本加载TXT文件