《汉书》服饰信息提取日志
基本信息
- 输入文件:/home/z/my-project/upload/zhengshi/正史/汉书.txt
- 文件大小:2.6MB
- 总行数:4329行
- 编码:UTF-8(含极长行,最大503字符/行)
- 输出目录:/home/z/my-project/upload/正史重制output/汉书/
处理步骤
步骤1:wc -l 统计
- 总行数:4329
- 文件特征:Unicode text, UTF-8, with very long lines
步骤2:grep -c 关键词统计
使用Python逐行匹配(因文件含极长行,bash grep超时),统计77个服饰关键词命中数:
| 关键词 | 命中 | 关键词 | 命中 | 关键词 | 命中 |
|---|---|---|---|---|---|
| 冠 | 99 | 衣 | 147 | 裳 | 9 |
| 冕 | 10 | 袍 | 1 | 褐 | 7 |
| 弁 | 10 | 裘 | 13 | 襦 | 5 |
| 帻 | 3 | 裤 | 5 | 裙 | 1 |
| 巾 | 2 | 袄 | 8 | 半袖 | 0 |
| 进贤冠 | 2 | 舆服 | 6 | 车服 | 17 |
| 通天冠 | 0 | 朝服 | 3 | 祭服 | 3 |
| 武冠 | 0 | 常服 | 4 | 公服 | 1 |
| 远游冠 | 0 | 法服 | 2 | 章服 | 4 |
| 幞头 | 0 | 丧服 | 2 | 衮服 | 0 |
| 帽 | 0 | 冕服 | 0 | 燕服 | 0 |
| 绶 | 55 | 佩 | 31 | 带 | 46 |
| 紫 | 34 | 绯 | 0 | 绿 | 11 |
| 青 | 126 | 黄 | 305 | 白 | 219 |
| 黑 | 61 | 朱 | 10 | 赭 | 13 |
| 帛 | 100 | 绢 | 1 | 绮 | 12 |
| 罗 | 42 | 锦 | 17 | 缯 | 20 |
| 缟 | 6 | 纨 | 4 | 纱 | 1 |
| 绸 | 2 | 绫 | 0 | 缎 | 0 |
| 簪 | 5 | 钗 | 0 | 步摇 | 1 |
| 笏 | 0 | 鱼袋 | 0 | 鞶囊 | 0 |
| 香囊 | 0 | 卤簿 | 0 | 仪仗 | 0 |
| 服制 | 4 | 服色 | 18 | 冠带 | 8 |
| 品色 | 0 | 赐紫 | 0 | 赐绯 | 0 |
| 借紫 | 0 | 借绯 | 0 | 冠制 | 0 |
零命中关键词(22个):帽、幞头、通天冠、武冠、远游冠、半袖、衮服、冕服、燕服、绯、笏、鱼袋、鞶囊、香囊、钗、卤簿、仪仗、绢(1处非服饰义)、绫、缎、品色、赐紫/赐绯/借紫/借绯、冠制
步骤3:grep -n 行号提取
使用Python提取高价值关键词的行号与上下文片段(±20字符),共处理48个关键词,输出约200条匹配记录。
关键发现:
- 文件bash grep处理困难(UTF-8极长行导致超时/编码错误)
- 改用Python逐行读取+字符串匹配,效率高且无编码问题
步骤4:sed上下文提取
对50个关键行号提取±2行上下文,确认以下核心段落:
| 行号 | 篇章 | 服饰内容 |
|---|---|---|
| L240 | 高帝纪 | 贾人毋得衣锦绣绮穀絺纻罽令 |
| L993 | 宣帝纪 | 赐呼韩邪单于冠带衣裳锦绣缯絮 |
| L1203 | 成帝纪 | 异车服以章有德,青绿民所常服 |
| L1317 | 平帝纪 | 安汉公奏车服制度 |
| L1392-1429 | 百官公卿表 | 印绶等级制度(金印紫绶等) |
| L1889 | 律历志 | 黄帝始垂衣裳有轩冕之服 |
| L2082 | 刑法志 | 有虞氏画衣冠异章服以为戮 |
| L2270 | 郊祀志 | 公孙臣论汉当土德服色上黄 |
| L2293 | 郊祀志 | 泰一祝宰衣紫及绣 |
| L2302 | 郊祀志 | 皮弁缙绅射牛行事 |
| L2629 | 五行志 | 昌邑王仄注冠服妖,白衣袒帻 |
| L3262 | 地理志 | 齐地冠带衣履天下 |
| L4070 | 蒯伍江息夫传 | 江充衣纱禅衣冠步摇冠 |
| L4073 | 万石君传 | 朝服见子孙,燕必冠 |
| L4080 | 贾谊传 | 改正朔易服色制度 |
| L4092 | 贾山传 | 布衣韦带、赭衣半道 |
| L4125 | 公孙弘传 | 画衣冠异章服而民不犯 |
| L4180 | 隽不疑传 | 冠进贤冠褒衣博带佩环玦 |
| L4156 | 东方朔传 | 董君绿帻傅韝 |
| L4200 | 韩延寿传 | 衣黄纨方领,皮弁执俎豆 |
| L4264 | 货殖传 | 车服棺椁各有差品 |
| L4272 | 佞幸传 | 郎冠鵕鸃贝带傅脂粉 |
| L4276 | 匈奴传 | 衣皮革被旃裘,服绣袷绮衣锦袍 |
| L4280 | 匈奴传 | 赐冠带衣裳玉具剑佩刀 |
| L4293 | 西域传 | 赐绮绣杂缯琦珍 |
| L4309 | 王莽传 | 被服如儒生,散舆马衣裘 |
| L4313 | 王莽传 | 车服黻冕各有差品 |
| L4317 | 王莽传 | 黄衣帻、冠麟韦之弁 |
| L4321 | 叙传 | 绮襦纨绔之间 |
步骤5:问题与注意事项
1. "袄"8处:多为"袄言"(妖言异写),非服饰义,仅可作语言史料
2. "黄"305处/"白"219处/"青"126处:大量非服饰语境(地名、人名、天象),需人工筛选
3. 零命中词分析:赐紫/赐绯/借紫/借绯/品色等为唐宋制度,汉代无此制;笏、鱼袋亦然
4. 文件编码:含极长行,bash grep超时,必须用Python处理
5. split临时文件:处理过程中产生汉书_part_aa~ai共9个分片,需清理
步骤6:产出文件
| 文件名 | 说明 |
|---|---|
| 汉书_总结.md | 服饰制度总结分析 |
| 汉书_日志.md | 本文件,处理过程日志 |
| 汉书_原文提取.md | 原文关键段落提取 |