《史记正义》服饰内容提取日志
一、操作流程
步骤1:文件基本信息
- 输入文件:/home/z/my-project/upload/zhengshi/正史/史记正义.txt
- 文件编码:UTF-8(含异常字节,需errors='replace'处理)
- 总行数:3754行
- 行长度分布:
- <50字符:3141行
- 50-200字符:307行
- 200-1000字符:153行
- 1000-5000字符:124行
- \>5000字符:29行(最长19131字符,L1501乐书)
- 输出目录:/home/z/my-project/upload/正史重制output/史记正义/
步骤2:关键词匹配统计
使用Python逐字匹配(非bash grep,因文件编码异常及超长行导致grep失败)。
匹配结果(有匹配的关键词):
| 关键词 | 匹配数 | 关键词 | 匹配数 | 关键词 | 匹配数 |
|---|---|---|---|---|---|
| 衣 | 318 | 冠 | 147 | 佩 | 30 |
| 帛 | 70 | 罗 | 62 | 裘 | 27 |
| 缯 | 35 | 紫 | 38 | 锦 | 8 |
| 裳 | 8 | 褐 | 10 | 绮 | 10 |
| 袍 | 5 | 冕 | 8 | 簪 | 8 |
| 绶 | 9 | 缟 | 12 | 冠带 | 9 |
| 车服 | 8 | 赭 | 9 | 黑 | 20 |
| 服色 | 19 | 绢 | 3 | 绸 | 3 |
| 巾 | 3 | 弁 | 4 | 中衣 | 3 |
| 朝服 | 3 | 丧服 | 3 | 衫 | 2 |
| 裙 | 2 | 襦 | 1 | 武冠 | 1 |
| 冕服 | 1 | 祭服 | 1 | 公服 | 1 |
| 章服 | 1 | 服制 | 1 | 笏 | 1 |
| 舆服 | 1 | 纨 | 1 | 袄 | 0 |
零匹配关键词:帻、帽、幞头、进贤冠、通天冠、远游冠、深衣、半袖、裤、衮服、常服、法服、燕服、绯、绿、鱼袋、鞶囊、香囊、钗、步摇、卤簿、仪仗、缎、纱、赐服、赐紫、赐绯、借紫、借绯、品色、冠制
步骤3:上下文提取
对有匹配的47个关键词,使用Python提取前后60字符上下文,标注行号。因超长行(L1501乐书达19131字符),采用字符偏移定位而非行号sed提取。
步骤4:产出3份MD
- 总结.md:分类综述+学术审查
- 日志.md:操作流程+关键发现+审核结果
- 原文提取.md:带行号原文片段
二、关键发现
发现1:服色为最集中主题
"服色"19处,全部围绕"改正朔易服色",贯穿殷周至汉武帝太初改制,反映五德终始说对服制的深刻影响。
发现2:僭越案例
- 浑良夫"紫衣狐裘不释剑而食"被太子数罪杀之——紫衣为君服,僭越三罪之一。
- 梁孝王"车服拟于天子"——诸侯僭天子舆服。
- 汉兴后"室庐舆服僭于上无限度"——社会性僭越。
发现3:华夷服饰对比
- 冠带之邦 vs 匈奴"魋结""无冠带之饰"
- 汉缯絮 vs 匈奴旃裘:"得汉缯絮以驰草棘中衣袴皆裂敝,以示不如旃裘之完善"
- 胡服骑射:"废除裘裳也"
发现4:唐代服饰制度缺失
史记正义为唐人注疏,但幞头、进贤冠、品色服等唐代服制关键词均零匹配,说明张守节注疏以释古为旨,不涉当代制度。
发现5:刑徒服饰
- 赭衣为刑徒标识:"赭衣自髠钳""赭衣凿其地"
- 象刑传统:"画衣冠异章服以为僇"
三、审核结果
完整性审核
- [x] 全部75个关键词均已检索
- [x] 有匹配的47个关键词均已提取上下文
- [x] 零匹配的28个关键词已记录
- [x] 3份MD文件均已生成
质量审核
- [x] 通用词(衣、冠、佩等)已标注含非服饰义用法
- [x] 地名/人名干扰(缯国、甘罗等)已说明
- [x] 文献定性为注疏体,非独立制度文献
- [x] 每份MD文件≤20KB
技术备注
- bash grep因UTF-8编码异常及超长行反复失败,改用Python处理
- 文件L1501(乐书)单行19131字符,为全书最长行
- 使用字符偏移+行号双重定位确保准确