《史记四库》服饰内容提取日志

一、操作流程

步骤1:文件基本信息确认

  • 命令:wc -l 史记四库.txt
  • 结果:7544行
  • 编码:UTF-8(含少量损坏字节,以errors='replace'处理)
  • 文件大小:3,368,112 bytes

步骤2:关键词频次统计

  • 对词库中68个关键词逐一grep统计
  • 有匹配的关键词47个,无匹配的关键词21个
  • 无匹配关键词:帻、幞头、进贤冠、通天冠、远游冠、深衣、裤、半袖、衮服、常服、法服(单字)、燕服、绫、纱、鱼袋、鞶囊、香囊、步摇、仪仗、赐服、赐紫、赐绯、借紫、借绯、冠制、品色

步骤3:行号提取

  • 使用Python逐行扫描,对每个有匹配的关键词记录行号和行内容
  • 中低频关键词(≤55次匹配)直接全量提取
  • 高频关键词(冠106、衣169、青130、黄239、白215、朱95、带61、帛55)使用服饰语境共现词过滤

步骤4:高特异性短语搜索

  • 对93个复合服饰短语进行精准搜索
  • 共命中139个唯一行,涵盖衣冠、布衣、服色、冠带、舆服、车服等核心概念
  • 统计:布衣41处、衣冠22处、服色14处、冠带11处、乘舆10处、黄屋9处等

步骤5:关键段落上下文提取

  • 对17个核心服饰段落提取前后各2行上下文
  • 涵盖冠制、服色、舆服、礼制、衣裘等主题

步骤6:深化搜索

  • 对47个高特异性服饰术语进行第二轮搜索
  • 发现:紫绶3处、儒服3处、华盖3处、皮弁4处、素服4处、羊裘2处、狐裘2处、白冠1处等

二、关键发现

发现1:冠制记载

  • 竹皮冠/刘氏冠(L1246):高祖以竹皮为冠,后汉舆服志详载其制,高七寸广三寸,促漆纚为之。索隐认为原文"侧竹皮裹以纵"应为"竹皮裹以纚"之讹。
  • 秦王冠礼(L1097):始皇九年"王冠带劒",行冠礼标志成年执政。
  • 子路冠雄鸡(L4853):先秦勇士以雄鸡饰冠的习俗。

发现2:服色制度之争

  • 贾谊提议(L5488):建议改正朔易服色,色尚黄数用五。
  • 张苍反对(L5853):绌贾生等言正朔服色,沿用秦颛顼历。
  • 武帝施行(L7142):汉兴五世后最终改正朔易服色。

发现3:车服等级制度

  • 黄屋左纛(L1259):天子专用车服标志。
  • 车服拟于天子(L4538):梁孝王僭越。
  • 车服者位之章(L7321):谥法明确车服为等级标志。

发现4:乘舆仪卫

  • 寝兕持虎鲛韅弥龙(L2767):天子乘舆装饰,注引后汉舆服志。
  • 五牛旗(L5441):晋制舆服,注家引证。
  • 法驾属车(L1280、L1322等):天子出行仪卫。

发现5:民间服饰

  • 布衣(41处):最典型的平民称谓。
  • 羊裘(L5971):娄敬衣羊裘见上。
  • 缟素:丧服用缟衣。

发现6:佩印绶制

  • 紫绶(L2490):金章紫绶,高等级官员。
  • 青绶(L6451、L6934):中级官员。
  • 佩印者六(L5006):苏秦佩六国相印。

三、审核结果

数据完整性

  • ✅ 全部68个关键词已检索完毕
  • ✅ 有匹配的47个关键词已提取行号和上下文
  • ✅ 高频词已做服饰语境过滤
  • ✅ 核心段落已提取完整上下文

质量控制

  • ⚠️ 颜色词(青/黄/白/朱等)因使用场景广泛,服饰语境过滤可能存在遗漏或误收
  • ⚠️ 四库本含大量三家注(集解、索隐、正义),部分服饰信息来自注文而非史记正文
  • ⚠️ "罗"44处中多数为人名/地名,服饰语境匹配较少
  • ✅ 已明确标注注引来源(如后汉书舆服志、晋书刑法志等)

时代一致性审查

  • ✅ 无唐宋以降制度术语(幞头、进贤冠、鱼袋、赐紫等),符合西汉时代特征
  • ✅ 服色讨论围绕五德终始说,与汉代思想背景一致
  • ✅ 冠制记载(竹皮冠、冠雄鸡)符合先秦至汉初特征

输出文件审核

  • 总结MD:分类综述+学术审查 ✅
  • 日志MD:操作流程+关键发现+审核结果 ✅
  • 原文提取MD:带行号原文片段 ✅
  • 每份文件≤20KB ✅