《汉书》服饰信息提取日志

基本信息

输入文件：/home/z/my-project/upload/zhengshi/正史/汉书.txt
文件大小：2.6MB
总行数：4329行
编码：UTF-8（含极长行，最大503字符/行）
输出目录：/home/z/my-project/upload/正史重制output/汉书/

处理步骤

步骤1：wc -l 统计

总行数：4329
文件特征：Unicode text, UTF-8, with very long lines

步骤2：grep -c 关键词统计

使用Python逐行匹配（因文件含极长行，bash grep超时），统计77个服饰关键词命中数：

关键词	命中	关键词	命中	关键词	命中
冠	99	衣	147	裳	9
冕	10	袍	1	褐	7
弁	10	裘	13	襦	5
帻	3	裤	5	裙	1
巾	2	袄	8	半袖	0
进贤冠	2	舆服	6	车服	17
通天冠	0	朝服	3	祭服	3
武冠	0	常服	4	公服	1
远游冠	0	法服	2	章服	4
幞头	0	丧服	2	衮服	0
帽	0	冕服	0	燕服	0
绶	55	佩	31	带	46
紫	34	绯	0	绿	11
青	126	黄	305	白	219
黑	61	朱	10	赭	13
帛	100	绢	1	绮	12
罗	42	锦	17	缯	20
缟	6	纨	4	纱	1
绸	2	绫	0	缎	0
簪	5	钗	0	步摇	1
笏	0	鱼袋	0	鞶囊	0
香囊	0	卤簿	0	仪仗	0
服制	4	服色	18	冠带	8
品色	0	赐紫	0	赐绯	0
借紫	0	借绯	0	冠制	0

零命中关键词（22个）：帽、幞头、通天冠、武冠、远游冠、半袖、衮服、冕服、燕服、绯、笏、鱼袋、鞶囊、香囊、钗、卤簿、仪仗、绢(1处非服饰义)、绫、缎、品色、赐紫/赐绯/借紫/借绯、冠制

步骤3：grep -n 行号提取

使用Python提取高价值关键词的行号与上下文片段（±20字符），共处理48个关键词，输出约200条匹配记录。

关键发现：

文件bash grep处理困难（UTF-8极长行导致超时/编码错误）
改用Python逐行读取+字符串匹配，效率高且无编码问题

步骤4：sed上下文提取

对50个关键行号提取±2行上下文，确认以下核心段落：

行号	篇章	服饰内容
L240	高帝纪	贾人毋得衣锦绣绮穀絺纻罽令
L993	宣帝纪	赐呼韩邪单于冠带衣裳锦绣缯絮
L1203	成帝纪	异车服以章有德，青绿民所常服
L1317	平帝纪	安汉公奏车服制度
L1392-1429	百官公卿表	印绶等级制度（金印紫绶等）
L1889	律历志	黄帝始垂衣裳有轩冕之服
L2082	刑法志	有虞氏画衣冠异章服以为戮
L2270	郊祀志	公孙臣论汉当土德服色上黄
L2293	郊祀志	泰一祝宰衣紫及绣
L2302	郊祀志	皮弁缙绅射牛行事
L2629	五行志	昌邑王仄注冠服妖，白衣袒帻
L3262	地理志	齐地冠带衣履天下
L4070	蒯伍江息夫传	江充衣纱禅衣冠步摇冠
L4073	万石君传	朝服见子孙，燕必冠
L4080	贾谊传	改正朔易服色制度
L4092	贾山传	布衣韦带、赭衣半道
L4125	公孙弘传	画衣冠异章服而民不犯
L4180	隽不疑传	冠进贤冠褒衣博带佩环玦
L4156	东方朔传	董君绿帻傅韝
L4200	韩延寿传	衣黄纨方领，皮弁执俎豆
L4264	货殖传	车服棺椁各有差品
L4272	佞幸传	郎冠鵕鸃贝带傅脂粉
L4276	匈奴传	衣皮革被旃裘，服绣袷绮衣锦袍
L4280	匈奴传	赐冠带衣裳玉具剑佩刀
L4293	西域传	赐绮绣杂缯琦珍
L4309	王莽传	被服如儒生，散舆马衣裘
L4313	王莽传	车服黻冕各有差品
L4317	王莽传	黄衣帻、冠麟韦之弁
L4321	叙传	绮襦纨绔之间

步骤5：问题与注意事项

1. "袄"8处：多为"袄言"（妖言异写），非服饰义，仅可作语言史料

2. "黄"305处/"白"219处/"青"126处：大量非服饰语境（地名、人名、天象），需人工筛选

3. 零命中词分析：赐紫/赐绯/借紫/借绯/品色等为唐宋制度，汉代无此制；笏、鱼袋亦然

4. 文件编码：含极长行，bash grep超时，必须用Python处理

5. split临时文件：处理过程中产生汉书_part_aa~ai共9个分片，需清理

步骤6：产出文件

文件名	说明
汉书_总结.md	服饰制度总结分析
汉书_日志.md	本文件，处理过程日志
汉书_原文提取.md	原文关键段落提取