史记索隐——服饰提取日志

书名:史记索隐
处理时间:2026-05-23 04:45
输入文件:/home/z/my-project/upload/zhengshi/正史/史记索隐.txt
输出目录:/home/z/my-project/upload/正史重制output/史记索隐/

一、文件基本信息

项目
文件路径/home/z/my-project/upload/zhengshi/正史/史记索隐.txt
文件编码UTF-8
总行数910
文件特征Unicode text, UTF-8 text, with very long lines (4797)

二、关键词词库与命中统计

2.1 冠冕头饰类

关键词命中行数说明
27含冠制、冠名、冠军等多种含义
3冕名、冕服
2青巾裹头
1青帽

2.2 衣裳袍服类

关键词命中行数说明
36含衣服、衣制、衣色等多义
4衣裳
2绨袍
2小袖衫
4褐衣、短褐
1裘服
1襦服
1中帬

2.3 制度服制类

关键词命中行数说明
丧服1丧服散麻
舆服5舆服志、舆服制度
车服1车服冕
卤簿2天子卤簿
服制2吉凶服制
冠带3冠带制度

2.4 色彩类

关键词命中行数说明
10紫绶、紫色
1绯色
31含青衣(县名)、青色等多义
53含黄钟(律名)、黄帝、黄色等多义
59含白色、地名、人名等多义
14含黑色、黑帝等多义
32含朱方(地名)、朱色等多义
3赭色

2.5 佩饰类

关键词命中行数说明
14佩服、佩印、佩六印等
1挺笏于绅带
20含带剑、地带、大带等多义
4紫绶、青绶
3宛珠之簪
1羽钗

2.6 织物类

关键词命中行数说明
8执帛、布帛、帛长丈五
3黄绢裹梁卵
7绮里季、绮衣
8含罗网、罗县等多义
5锦绣千纯
2绸缪
9厚缯、缯国

三、提取流程

步骤1:文件统计

`bash

wc -l 史记索隐.txt # 结果:910行

`

步骤2:关键词计数

对服饰关键词词库中所有关键词逐一grep -c统计,筛选出命中数>0的关键词共38个。

步骤3:行号提取

使用Python re模块对所有关键词进行多模式匹配,提取命中行号及匹配关键词。

步骤4:上下文提取

基于【】标记分割条目,提取含关键词的子条目及其上下文。对单字符关键词(色彩类)施加严格上下文过滤,要求条目中至少包含2个服饰相关指示词。

步骤5:分类与去重

按冠冕头饰、衣裳袍服、制度舆服、佩饰带绶、织物帛品五大类分类,按条目前80字符去重。

步骤6:撰写产出文件

  • 史记索隐_总结.md:服饰内容综述
  • 史记索隐_日志.md:提取过程记录
  • 史记索隐_原文提取.md:分类原文摘录

四、提取质量说明

4.1 噪声处理

  • 色彩类关键词(黄/白/黑/青/朱等)在本书中大量出现于非服饰语境(如黄钟为律名、黄帝为人名、白起为人名、青衣为县名等),已通过上下文过滤大幅降噪
  • "冠"字在"冠军侯"等封号中出现频繁,已识别为非服饰用例但保留部分条目以备参考
  • "带"字出现于人名(叔带、公玉带)、地名(带水)等,已尽量区分

4.2 遗漏风险

  • 部分服饰内容可能因关键词未覆盖而遗漏
  • 单字符关键词的上下文过滤可能过于严格,导致少量服饰条目被排除
  • 本书行距极长(最长4797字符),子条目分割可能存在偏差

4.3 最终统计

  • 原始匹配行数:149行
  • 经上下文过滤后有效条目:181条
  • 去重后最终条目:181条

五、产出文件清单

文件名大小说明
史记索隐_总结.md~6KB服饰内容综述与核心条目解读
史记索隐_日志.md~5KB提取过程与质量说明
史记索隐_原文提取.md~19KB分类原文摘录