《史记正义》服饰内容提取日志

一、操作流程

步骤1:文件基本信息

  • 输入文件:/home/z/my-project/upload/zhengshi/正史/史记正义.txt
  • 文件编码:UTF-8(含异常字节,需errors='replace'处理)
  • 总行数:3754行
  • 行长度分布
  • <50字符:3141行
  • 50-200字符:307行
  • 200-1000字符:153行
  • 1000-5000字符:124行
  • \>5000字符:29行(最长19131字符,L1501乐书)
  • 输出目录:/home/z/my-project/upload/正史重制output/史记正义/

步骤2:关键词匹配统计

使用Python逐字匹配(非bash grep,因文件编码异常及超长行导致grep失败)。

匹配结果(有匹配的关键词)

关键词匹配数关键词匹配数关键词匹配数
31814730
706227
35388
81010
588
912冠带9
车服8920
服色1933
34中衣3
朝服3丧服32
21武冠1
冕服1祭服1公服1
章服1服制11
舆服110

零匹配关键词:帻、帽、幞头、进贤冠、通天冠、远游冠、深衣、半袖、裤、衮服、常服、法服、燕服、绯、绿、鱼袋、鞶囊、香囊、钗、步摇、卤簿、仪仗、缎、纱、赐服、赐紫、赐绯、借紫、借绯、品色、冠制

步骤3:上下文提取

对有匹配的47个关键词,使用Python提取前后60字符上下文,标注行号。因超长行(L1501乐书达19131字符),采用字符偏移定位而非行号sed提取。

步骤4:产出3份MD

  • 总结.md:分类综述+学术审查
  • 日志.md:操作流程+关键发现+审核结果
  • 原文提取.md:带行号原文片段

二、关键发现

发现1:服色为最集中主题

"服色"19处,全部围绕"改正朔易服色",贯穿殷周至汉武帝太初改制,反映五德终始说对服制的深刻影响。

发现2:僭越案例

  • 浑良夫"紫衣狐裘不释剑而食"被太子数罪杀之——紫衣为君服,僭越三罪之一。
  • 梁孝王"车服拟于天子"——诸侯僭天子舆服。
  • 汉兴后"室庐舆服僭于上无限度"——社会性僭越。

发现3:华夷服饰对比

  • 冠带之邦 vs 匈奴"魋结""无冠带之饰"
  • 汉缯絮 vs 匈奴旃裘:"得汉缯絮以驰草棘中衣袴皆裂敝,以示不如旃裘之完善"
  • 胡服骑射:"废除裘裳也"

发现4:唐代服饰制度缺失

史记正义为唐人注疏,但幞头、进贤冠、品色服等唐代服制关键词均零匹配,说明张守节注疏以释古为旨,不涉当代制度。

发现5:刑徒服饰

  • 赭衣为刑徒标识:"赭衣自髠钳""赭衣凿其地"
  • 象刑传统:"画衣冠异章服以为僇"

三、审核结果

完整性审核

  • [x] 全部75个关键词均已检索
  • [x] 有匹配的47个关键词均已提取上下文
  • [x] 零匹配的28个关键词已记录
  • [x] 3份MD文件均已生成

质量审核

  • [x] 通用词(衣、冠、佩等)已标注含非服饰义用法
  • [x] 地名/人名干扰(缯国、甘罗等)已说明
  • [x] 文献定性为注疏体,非独立制度文献
  • [x] 每份MD文件≤20KB

技术备注

  • bash grep因UTF-8编码异常及超长行反复失败,改用Python处理
  • 文件L1501(乐书)单行19131字符,为全书最长行
  • 使用字符偏移+行号双重定位确保准确