《汉书》服饰信息提取日志

基本信息

  • 输入文件:/home/z/my-project/upload/zhengshi/正史/汉书.txt
  • 文件大小:2.6MB
  • 总行数:4329行
  • 编码:UTF-8(含极长行,最大503字符/行)
  • 输出目录:/home/z/my-project/upload/正史重制output/汉书/

处理步骤

步骤1:wc -l 统计

  • 总行数:4329
  • 文件特征:Unicode text, UTF-8, with very long lines

步骤2:grep -c 关键词统计

使用Python逐行匹配(因文件含极长行,bash grep超时),统计77个服饰关键词命中数:

关键词命中关键词命中关键词命中
991479
1017
10135
351
28半袖0
进贤冠2舆服6车服17
通天冠0朝服3祭服3
武冠0常服4公服1
远游冠0法服2章服4
幞头0丧服2衮服0
0冕服0燕服0
553146
340绿11
126305219
611013
100112
421720
641
200
50步摇1
0鱼袋0鞶囊0
香囊0卤簿0仪仗0
服制4服色18冠带8
品色0赐紫0赐绯0
借紫0借绯0冠制0

零命中关键词(22个):帽、幞头、通天冠、武冠、远游冠、半袖、衮服、冕服、燕服、绯、笏、鱼袋、鞶囊、香囊、钗、卤簿、仪仗、绢(1处非服饰义)、绫、缎、品色、赐紫/赐绯/借紫/借绯、冠制

步骤3:grep -n 行号提取

使用Python提取高价值关键词的行号与上下文片段(±20字符),共处理48个关键词,输出约200条匹配记录。

关键发现:

  • 文件bash grep处理困难(UTF-8极长行导致超时/编码错误)
  • 改用Python逐行读取+字符串匹配,效率高且无编码问题

步骤4:sed上下文提取

对50个关键行号提取±2行上下文,确认以下核心段落:

行号篇章服饰内容
L240高帝纪贾人毋得衣锦绣绮穀絺纻罽令
L993宣帝纪赐呼韩邪单于冠带衣裳锦绣缯絮
L1203成帝纪异车服以章有德,青绿民所常服
L1317平帝纪安汉公奏车服制度
L1392-1429百官公卿表印绶等级制度(金印紫绶等)
L1889律历志黄帝始垂衣裳有轩冕之服
L2082刑法志有虞氏画衣冠异章服以为戮
L2270郊祀志公孙臣论汉当土德服色上黄
L2293郊祀志泰一祝宰衣紫及绣
L2302郊祀志皮弁缙绅射牛行事
L2629五行志昌邑王仄注冠服妖,白衣袒帻
L3262地理志齐地冠带衣履天下
L4070蒯伍江息夫传江充衣纱禅衣冠步摇冠
L4073万石君传朝服见子孙,燕必冠
L4080贾谊传改正朔易服色制度
L4092贾山传布衣韦带、赭衣半道
L4125公孙弘传画衣冠异章服而民不犯
L4180隽不疑传冠进贤冠褒衣博带佩环玦
L4156东方朔传董君绿帻傅韝
L4200韩延寿传衣黄纨方领,皮弁执俎豆
L4264货殖传车服棺椁各有差品
L4272佞幸传郎冠鵕鸃贝带傅脂粉
L4276匈奴传衣皮革被旃裘,服绣袷绮衣锦袍
L4280匈奴传赐冠带衣裳玉具剑佩刀
L4293西域传赐绮绣杂缯琦珍
L4309王莽传被服如儒生,散舆马衣裘
L4313王莽传车服黻冕各有差品
L4317王莽传黄衣帻、冠麟韦之弁
L4321叙传绮襦纨绔之间

步骤5:问题与注意事项

1. "袄"8处:多为"袄言"(妖言异写),非服饰义,仅可作语言史料

2. "黄"305处/"白"219处/"青"126处:大量非服饰语境(地名、人名、天象),需人工筛选

3. 零命中词分析:赐紫/赐绯/借紫/借绯/品色等为唐宋制度,汉代无此制;笏、鱼袋亦然

4. 文件编码:含极长行,bash grep超时,必须用Python处理

5. split临时文件:处理过程中产生汉书_part_aa~ai共9个分片,需清理

步骤6:产出文件

文件名说明
汉书_总结.md服饰制度总结分析
汉书_日志.md本文件,处理过程日志
汉书_原文提取.md原文关键段落提取