史记集解三家注索隐正义 — 服饰提取日志

基本信息

项目内容
书名史记集解三家注索隐正义
源文件/home/z/my-project/upload/zhengshi/正史/史记集解三家注索隐正义.txt
输出目录/home/z/my-project/upload/正史重制output/史记集解三家注索隐正义/
总行数20,332
处理时间2026-05-23 04:42:26
处理方式grep+sed提取,禁止整本载入LLM

处理步骤记录

步骤1:文件统计

  • wc -l → 20,332行
  • 文件为《史记》正文+三家注合编本

步骤2:关键词grep统计

冠帽类

  • 冠: 168 | 冕: 13 | 弁: 4 | 帻: 0 | 巾: 13 | 帽: 3 | 幞头: 0
  • 进贤冠: 0 | 武冠: 1 | 通天冠: 0 | 远游冠: 0

衣裳类

  • 衣: 324 | 裳: 15 | 袍: 6 | 衫: 4 | 袄: 0 | 褐: 15 | 裘: 26
  • 深衣: 0 | 中衣: 0 | 襦: 6 | 裙: 1 | 裤: 0 | 半袖: 0

服制类

  • 衮服: 0 | 冕服: 1 | 朝服: 5 | 祭服: 3 | 常服: 0 | 公服: 2
  • 法服: 0 | 章服: 1 | 燕服: 0 | 丧服: 2

颜色类

  • 紫: 48 | 绯: 1 | 绿: 9 | 青: 241 | 黄: 582 | 白: 533
  • 黑: 133 | 朱: 148 | 赭: 13

佩饰类

  • 佩: 40 | 笏: 3 | 带: 105 | 绶: 14 | 鱼袋: 0 | 鞶囊: 0
  • 香囊: 0 | 簪: 15 | 钗: 1 | 步摇: 0

舆服类

  • 舆服: 9 | 车服: 11 | 卤簿: 5 | 仪仗: 0

织物类

  • 帛: 81 | 绢: 7 | 绮: 18 | 绫: 0 | 罗: 46 | 锦: 14
  • 缎: 0 | 纱: 0 | 绸: 4 | 缯: 42 | 缟: 12 | 纨: 1

赐服类

  • 赐服: 0 | 赐紫: 0 | 赐绯: 0 | 借紫: 0 | 借绯: 0

制度类

  • 服制: 3 | 冠制: 0 | 品色: 0 | 章服: 1 | 服色: 17 | 冠带: 14

步骤3:行号提取与去重

  • 合并grep -n提取所有服饰关键词行号 → 468行
  • 去重后 → 419行
  • 上下文扩展(±1行)→ 1,179行
  • 仅直接命中行 → 419行,约217KB

步骤4:分类筛选

  • 按服饰语境二次过滤(排除非服饰用法的颜色词、人名等)
  • 冠冕弁帻类: 21条(高置信)
  • 衣裳袍褐裘类: 115条 → 筛选展示9条
  • 服制章服类: 76条 → 筛选展示14条
  • 佩饰绶笏簪类: 49条 → 筛选展示9条
  • 织物帛缯锦类: 167条 → 筛选展示10条
  • 合计约428条服饰相关记录

步骤5:撰写三份MD文件

1. 史记集解三家注索隐正义_总结.md — 服饰内容分析总结

2. 史记集解三家注索隐正义_日志.md — 本文件,处理过程日志

3. 史记集解三家注索隐正义_原文提取.md — 按类别提取的服饰原文

步骤6:写入输出目录

  • 输出目录: /home/z/my-project/upload/正史重制output/史记集解三家注索隐正义/
  • 所有文件 ≤ 20KB

数据质量说明

1. 高频通用词处理:黄(582)、白(533)、青(241)等颜色词在古籍中大量出现于人名、地名、自然描写,非服饰语境占比极高。本提取采用"服饰语境组合词"策略(如"紫衣""朱衣""衣帛""白裘"),过滤非服饰用法。

2. 冠字歧义:"冠"在《史记》中既可指冠帽,也可指冠礼(行冠礼)、冠军(军功第一),需按上下文甄别。

3. 织物词歧义:"罗""绮"等字常出现于人名(如"绮里季"),需排除。

4. 赐服类缺失:史记为汉代著作,赐紫赐绯制度尚未形成,故此类关键词均为0。

关键发现

  • 秦代水德尚黑制度在《秦始皇本纪》中有明确记载
  • 三家注保存了《太古冠冕图》等已佚礼书信息
  • 紫衣为春秋时君服专属,僭越可致死
  • 华夏"冠带之室"与匈奴服饰对比是重要民族志材料

日志记录完毕。