史记索隐——服饰提取日志

书名：史记索隐
处理时间：2026-05-23 04:45
输入文件：/home/z/my-project/upload/zhengshi/正史/史记索隐.txt
输出目录：/home/z/my-project/upload/正史重制output/史记索隐/

一、文件基本信息

项目	值
文件路径	/home/z/my-project/upload/zhengshi/正史/史记索隐.txt
文件编码	UTF-8
总行数	910
文件特征	Unicode text, UTF-8 text, with very long lines (4797)

二、关键词词库与命中统计

2.1 冠冕头饰类

关键词	命中行数	说明
冠	27	含冠制、冠名、冠军等多种含义
冕	3	冕名、冕服
巾	2	青巾裹头
帽	1	青帽

2.2 衣裳袍服类

关键词	命中行数	说明
衣	36	含衣服、衣制、衣色等多义
裳	4	衣裳
袍	2	绨袍
衫	2	小袖衫
褐	4	褐衣、短褐
裘	1	裘服
襦	1	襦服
裙	1	中帬

2.3 制度服制类

关键词	命中行数	说明
丧服	1	丧服散麻
舆服	5	舆服志、舆服制度
车服	1	车服冕
卤簿	2	天子卤簿
服制	2	吉凶服制
冠带	3	冠带制度

2.4 色彩类

关键词	命中行数	说明
紫	10	紫绶、紫色
绯	1	绯色
青	31	含青衣（县名）、青色等多义
黄	53	含黄钟（律名）、黄帝、黄色等多义
白	59	含白色、地名、人名等多义
黑	14	含黑色、黑帝等多义
朱	32	含朱方（地名）、朱色等多义
赭	3	赭色

2.5 佩饰类

关键词	命中行数	说明
佩	14	佩服、佩印、佩六印等
笏	1	挺笏于绅带
带	20	含带剑、地带、大带等多义
绶	4	紫绶、青绶
簪	3	宛珠之簪
钗	1	羽钗

2.6 织物类

关键词	命中行数	说明
帛	8	执帛、布帛、帛长丈五
绢	3	黄绢裹梁卵
绮	7	绮里季、绮衣
罗	8	含罗网、罗县等多义
锦	5	锦绣千纯
绸	2	绸缪
缯	9	厚缯、缯国

三、提取流程

步骤1：文件统计

`bash

wc -l 史记索隐.txt # 结果：910行

`

步骤2：关键词计数

对服饰关键词词库中所有关键词逐一grep -c统计，筛选出命中数>0的关键词共38个。

步骤3：行号提取

使用Python re模块对所有关键词进行多模式匹配，提取命中行号及匹配关键词。

步骤4：上下文提取

基于【】标记分割条目，提取含关键词的子条目及其上下文。对单字符关键词（色彩类）施加严格上下文过滤，要求条目中至少包含2个服饰相关指示词。

步骤5：分类与去重

按冠冕头饰、衣裳袍服、制度舆服、佩饰带绶、织物帛品五大类分类，按条目前80字符去重。

步骤6：撰写产出文件

史记索隐_总结.md：服饰内容综述
史记索隐_日志.md：提取过程记录
史记索隐_原文提取.md：分类原文摘录

四、提取质量说明

4.1 噪声处理

色彩类关键词（黄/白/黑/青/朱等）在本书中大量出现于非服饰语境（如黄钟为律名、黄帝为人名、白起为人名、青衣为县名等），已通过上下文过滤大幅降噪
"冠"字在"冠军侯"等封号中出现频繁，已识别为非服饰用例但保留部分条目以备参考
"带"字出现于人名（叔带、公玉带）、地名（带水）等，已尽量区分

4.2 遗漏风险

部分服饰内容可能因关键词未覆盖而遗漏
单字符关键词的上下文过滤可能过于严格，导致少量服饰条目被排除
本书行距极长（最长4797字符），子条目分割可能存在偏差

4.3 最终统计

原始匹配行数：149行
经上下文过滤后有效条目：181条
去重后最终条目：181条

五、产出文件清单

文件名	大小	说明
史记索隐_总结.md	~6KB	服饰内容综述与核心条目解读
史记索隐_日志.md	~5KB	提取过程与质量说明
史记索隐_原文提取.md	~19KB	分类原文摘录