新唐书 服饰提取日志
基本信息
- 书名:新唐书
- 输入路径:
/home/z/my-project/upload/zhengshi/正史/新唐书.txt - 输出路径:
/home/z/my-project/upload/正史重制output/新唐书/ - 总行数:18437行
- 核心章节:志第十四·车服(行1131-1237,共107行)
处理步骤
步骤1:mkdir -p
`
mkdir -p "/home/z/my-project/upload/正史重制output/新唐书/"
`
结果:成功创建输出目录
步骤2:wc -l
`
wc -l 新唐书.txt → 18437
`
步骤3:grep -c 关键词统计
共检索75个服饰关键词,结果如下(按类别):
冠帽类:冠309、冕123、弁51、帻44、巾82、帽24、幞头3、进贤冠6、武冠2、通天冠8、远游冠9
衣裳类:衣617、裳79、袍111、衫24、袄19、褐41、裘35、深衣1、中衣0、襦31、裙37、裤10、半袖1
服制类:衮服2、冕服8、朝服29、祭服8、常服21、公服18、法服2、章服4、燕服2、丧服28
品色类:紫269、绯54、绿46、青417、黄894、白1111、黑224、朱0(硃替代)、赭17
佩饰类:佩113、笏32、带239、绶80、鱼袋7、鞶囊11、香囊1、簪33、钗16、步摇1
仪制类:舆服10、车服15、卤簿34、仪仗14
织物类:帛318、绢127、绮21、绫61、罗498、锦140、缎0、纱54、绸5、缯63、缟10、纨12
赐假类:赐服4、赐紫11、赐绯16、借紫0、借绯0
制度类:服制0、冠制1、品色0、服色4、冠带16
步骤4:grep -n 定位关键段落
1. 定位志第十四·车服:行1131-1237
2. 定位志篇结构:共50志,行653-18437
3. 定位赐紫/赐绯行:行1220、1230、10400、11091、11098、11635、12277、13539、1445、14560、14811、15066、15181、15276、15495、15842、15851、16164、16280、16844、16991、17041、17517、17640、17738、17845、17891、17905、17920、17933、18040
4. 定位礼乐志服饰礼仪:行674-993散见
5. 定位外国列传服饰:行17738(渤海)、17766(百济)、17787(日本)、17808(东女)
步骤5:sed 上下文提取
sed -n '1131,1237p'提取完整车服志sed -n '829,870p'提取冠礼服饰sed -n '836,868p'提取皇太子冠服- 对列传中零散段落逐条sed提取上下文
关键发现
1. 车服志为核心:行1131-1237是服饰制度的系统性记载,涵盖车舆、冕服、冠制、品色、鱼袋、妇人服饰、禁奢令等
2. "硃"替代"朱":本书中"朱"字0命中,实际用"硃"字(为避讳或版本异体),统计时需注意
3. 幞头仅3处:但车服志中有专段记载幞头起源与翼善冠替代
4. "借紫/借绯"0命中:本书用"假紫/假绯"表述
5. 白/黄/青高频:部分为一般用语(如"青衣"地名、"黄"作姓等),需人工甄别
6. 罗498行:大量为姓氏"罗"而非织物"罗"
7. 艺文志丧服:行4777-4863记载大量丧服相关著作目录
产出文件
| 文件名 | 路径 | 说明 |
|---|---|---|
| 新唐书_原文提取.md | /home/z/my-project/upload/正史重制output/新唐书/ | 按主题分类的服饰原文 |
| 新唐书_总结.md | /home/z/my-project/upload/正史重制output/新唐书/ | 服饰制度分析总结 |
| 新唐书_日志.md | /home/z/my-project/upload/正史重制output/新唐书/ | 本处理日志 |
注意事项
1. 未整本载入LLM,全程使用grep+sed提取
2. 高频词(白/黄/青/罗等)含大量非服饰用例,原文提取时已人工甄选
3. 车服志为唯一系统性服饰专章,其他均为零散记载
4. 部分异体字(硃/绔/韈等)保留原文用字
5. 行号引用以原始txt文件为准