史记索隐——服饰提取日志
书名:史记索隐
处理时间:2026-05-23 04:45
输入文件:/home/z/my-project/upload/zhengshi/正史/史记索隐.txt
输出目录:/home/z/my-project/upload/正史重制output/史记索隐/
一、文件基本信息
| 项目 | 值 |
| 文件路径 | /home/z/my-project/upload/zhengshi/正史/史记索隐.txt |
| 文件编码 | UTF-8 |
| 总行数 | 910 |
| 文件特征 | Unicode text, UTF-8 text, with very long lines (4797) |
二、关键词词库与命中统计
2.1 冠冕头饰类
| 关键词 | 命中行数 | 说明 |
| 冠 | 27 | 含冠制、冠名、冠军等多种含义 |
| 冕 | 3 | 冕名、冕服 |
| 巾 | 2 | 青巾裹头 |
| 帽 | 1 | 青帽 |
2.2 衣裳袍服类
| 关键词 | 命中行数 | 说明 |
| 衣 | 36 | 含衣服、衣制、衣色等多义 |
| 裳 | 4 | 衣裳 |
| 袍 | 2 | 绨袍 |
| 衫 | 2 | 小袖衫 |
| 褐 | 4 | 褐衣、短褐 |
| 裘 | 1 | 裘服 |
| 襦 | 1 | 襦服 |
| 裙 | 1 | 中帬 |
2.3 制度服制类
| 关键词 | 命中行数 | 说明 |
| 丧服 | 1 | 丧服散麻 |
| 舆服 | 5 | 舆服志、舆服制度 |
| 车服 | 1 | 车服冕 |
| 卤簿 | 2 | 天子卤簿 |
| 服制 | 2 | 吉凶服制 |
| 冠带 | 3 | 冠带制度 |
2.4 色彩类
| 关键词 | 命中行数 | 说明 |
| 紫 | 10 | 紫绶、紫色 |
| 绯 | 1 | 绯色 |
| 青 | 31 | 含青衣(县名)、青色等多义 |
| 黄 | 53 | 含黄钟(律名)、黄帝、黄色等多义 |
| 白 | 59 | 含白色、地名、人名等多义 |
| 黑 | 14 | 含黑色、黑帝等多义 |
| 朱 | 32 | 含朱方(地名)、朱色等多义 |
| 赭 | 3 | 赭色 |
2.5 佩饰类
| 关键词 | 命中行数 | 说明 |
| 佩 | 14 | 佩服、佩印、佩六印等 |
| 笏 | 1 | 挺笏于绅带 |
| 带 | 20 | 含带剑、地带、大带等多义 |
| 绶 | 4 | 紫绶、青绶 |
| 簪 | 3 | 宛珠之簪 |
| 钗 | 1 | 羽钗 |
2.6 织物类
| 关键词 | 命中行数 | 说明 |
| 帛 | 8 | 执帛、布帛、帛长丈五 |
| 绢 | 3 | 黄绢裹梁卵 |
| 绮 | 7 | 绮里季、绮衣 |
| 罗 | 8 | 含罗网、罗县等多义 |
| 锦 | 5 | 锦绣千纯 |
| 绸 | 2 | 绸缪 |
| 缯 | 9 | 厚缯、缯国 |
三、提取流程
步骤1:文件统计
`bash
wc -l 史记索隐.txt # 结果:910行
`
步骤2:关键词计数
对服饰关键词词库中所有关键词逐一grep -c统计,筛选出命中数>0的关键词共38个。
步骤3:行号提取
使用Python re模块对所有关键词进行多模式匹配,提取命中行号及匹配关键词。
步骤4:上下文提取
基于【】标记分割条目,提取含关键词的子条目及其上下文。对单字符关键词(色彩类)施加严格上下文过滤,要求条目中至少包含2个服饰相关指示词。
步骤5:分类与去重
按冠冕头饰、衣裳袍服、制度舆服、佩饰带绶、织物帛品五大类分类,按条目前80字符去重。
步骤6:撰写产出文件
- 史记索隐_总结.md:服饰内容综述
- 史记索隐_日志.md:提取过程记录
- 史记索隐_原文提取.md:分类原文摘录
四、提取质量说明
4.1 噪声处理
- 色彩类关键词(黄/白/黑/青/朱等)在本书中大量出现于非服饰语境(如黄钟为律名、黄帝为人名、白起为人名、青衣为县名等),已通过上下文过滤大幅降噪
- "冠"字在"冠军侯"等封号中出现频繁,已识别为非服饰用例但保留部分条目以备参考
- "带"字出现于人名(叔带、公玉带)、地名(带水)等,已尽量区分
4.2 遗漏风险
- 部分服饰内容可能因关键词未覆盖而遗漏
- 单字符关键词的上下文过滤可能过于严格,导致少量服饰条目被排除
- 本书行距极长(最长4797字符),子条目分割可能存在偏差
4.3 最终统计
- 原始匹配行数:149行
- 经上下文过滤后有效条目:181条
- 去重后最终条目:181条
五、产出文件清单
| 文件名 | 大小 | 说明 |
| 史记索隐_总结.md | ~6KB | 服饰内容综述与核心条目解读 |
| 史记索隐_日志.md | ~5KB | 提取过程与质量说明 |
| 史记索隐_原文提取.md | ~19KB | 分类原文摘录 |