史记集解·服饰提取日志
处理信息
- 输入文件:/home/z/my-project/upload/zhengshi/正史/史记集解.txt
- 输出目录:/home/z/my-project/upload/正史重制output/史记集解/
- 文件大小:1.9MB
- 文件编码:UTF-8
- 总行数:2675
- 处理日期:2026-03-04
步骤记录
步骤1:文件检查
- 命令:
wc -l 史记集解.txt - 结果:2675行
- 文件大小:1.9MB,含极长行(最长8165字符)
- 编码确认:UTF-8
步骤2:关键词统计
使用grep -c统计全部服饰关键词出现次数,有效关键词(出现次数>0)如下:
| 关键词 | 次数 | 关键词 | 次数 | 关键词 | 次数 |
|---|---|---|---|---|---|
| 冠 | 74 | 冕 | 5 | 弁 | 3 |
| 巾 | 11 | 帽 | 1 | 武冠 | 1 |
| 衣 | 113 | 裳 | 4 | 袍 | 3 |
| 衫 | 1 | 褐 | 11 | 裘 | 17 |
| 中衣 | 3 | 襦 | 3 | 裙 | 1 |
| 朝服 | 5 | 祭服 | 2 | 公服 | 2 |
| 章服 | 1 | 丧服 | 1 | 紫 | 11 |
| 绿 | 1 | 青 | 45 | 黄 | 116 |
| 白 | 111 | 黑 | 22 | 朱 | 45 |
| 赭 | 6 | 佩 | 20 | 笏 | 2 |
| 带 | 38 | 绶 | 9 | 簪 | 7 |
| 舆服 | 3 | 车服 | 7 | 卤簿 | 1 |
| 帛 | 41 | 绢 | 2 | 绮 | 7 |
| 罗 | 18 | 锦 | 6 | 绸 | 1 |
| 缯 | 21 | 缟 | 7 | 服色 | 13 |
| 冠带 | 10 | 服制 | 1 |
未出现关键词(0次):幞头、进贤冠、通天冠、远游冠、裤、半袖、衮服、冕服、常服、法服、燕服、鱼袋、鞶囊、香囊、步摇、仪仗、绫、缎、纨、品色、冠制、赐服、赐紫、赐绯、借紫、借绯、钗
注:黄(116)、白(111)、衣(113)、青(45)、朱(45)等高频词含大量非服饰用法,需语境过滤。
步骤3:行号提取
使用grep -n提取各关键词所在行号。因文件行极长(部分行超8000字符),采用Python脚本进行上下文截取。
步骤4:上下文提取与过滤
- 采用Python脚本提取关键词前后各35字符上下文
- 高频词(衣、冠、带、佩、巾)施加语境过滤规则:
- "衣":仅保留含服/冠/裳/袍/赐/祭/朝/丧/帛/罗/锦/缯/绣/饰/紫/绯/青/朱/车/深衣/中衣/服色/冠带等服饰关联词的上下文
- "冠":排除"冠军"等非服饰用法
- "带":仅保留含服/冠/衣/绶/笏/金/银/玉/革/紫/制/礼等关联词的上下文
- "佩":仅保留含服/冠/衣/带/绶/玉/金/银/朝/祭/制/礼等关联词的上下文
- "巾":仅保留含冠/帽/帻/弁/头/服/衣/朝/祭/制/礼等关联词的上下文
步骤5:提取结果
- 原始提取条目:950条(含重复及非服饰语境)
- 过滤后最终条目:85条(受20KB篇幅限制精选收录)
- 涉及关键词:48个
- 分类:冠首服饰、衣裳袍服、礼服制度、佩饰带绶、车服仪仗、织物帛锦、服色赐服七大类
步骤6:MD文件生成
| 文件名 | 大小 | 说明 |
|---|---|---|
| 史记集解_原文提取.md | ≤20KB | 服饰原文提取,按类别分章 |
| 史记集解_总结.md | ≤20KB | 服饰内容分析总结 |
| 史记集解_日志.md | ≤20KB | 本处理日志 |
注意事项
1. 《史记集解》行极长,每行常包含一整卷或大段内容,grep行号与实际篇章位置需对照原文确认。
2. 高频词(黄、白、衣等)大部分为非服饰用法,已做语境过滤,但仍可能有少量误收或遗漏。
3. 色彩词(青、朱、黑等)单独统计次数高,但纯色彩描述(如"青龙""朱鸟")非服饰内容,已尽量排除。
4. 25个关键词在本书中未出现(0次),包括幞头、进贤冠、通天冠等唐以后服饰用语,与本书汉晋时代背景一致。
处理完成 | 输出目录:/home/z/my-project/upload/正史重制output/史记集解/