御定子史精华 — 服饰内容提取日志
基本信息
- 书名:御定子史精华
- 文件:/home/z/my-project/upload/part4_extracted/御定子史精华.txt
- 文件大小:7,203,490字节(约6.9MB)
- 原文件行数:3073行
- 原文件特征:UTF-8编码,极长行(最长12499字符),CRLF行终止符
- 输出目录:/home/z/my-project/upload/p4output/御定子史精华/
处理流程
第1步:文件检查
wc -l→ 3073行file→ UTF-8 text, very long lines (12499), CRLFls -la→ 7.2MB- 发现编码问题:原文件含部分无效UTF-8字节,导致ripgrep输出解码失败
第2步:编码修复
iconv -f UTF-8 -t UTF-8 -c生成 /tmp/ydsz_fixed.txt(去除无效字节)- 修复后行数不变:3073行
第3步:长行拆分
- 原文件行极长(最长12499字符),单行包含数十个词条
- 用Python脚本按"】"分隔符拆行,生成 /tmp/ydsz_split.txt
- 拆分后行数:44366行,便于逐条grep
第4步:10轮关键词检索
| 轮次 | 关键词 | 命中行数(约) | 说明 |
|---|---|---|---|
| 1 | 衣 | 大量(>100) | 单字关键词,抽样前20行 |
| 2 | 裳 | 中等(>30) | 含"衣裳""裙裳""帷裳"等 |
| 3 | 冠 | 大量(>50) | 含"冠冕""进贤冠""鹿皮冠""幞头"等 |
| 4 | 佩 | 中等(>30) | 含"玉佩""环佩""佩刀""佩鱼"等 |
| 5 | 袍 | 中等(>25) | 含"锦袍""紫袍""緼袍""绛纱袍"等 |
| 6 | 裘 | 中等(>20) | 含"狐白裘""紫貂裘""鹤氅裘""裘褐"等 |
| 7 | 履 | 中等(>20) | 含"革舄""絇履""珠履""朱履"等 |
| 8 | 衮 | 少量(>15) | 含"衮冕""衮龙法服""补衮"等 |
| 9 | 裙 | 中等(>20) | 含"练裙""布裙""晕裙""长裙"等 |
| 10 | 冕/舄/绶/簪/珥/帻/帔/褐 | 大量 | 补充检索,覆盖面广 |
第5步:复合词精检
追加检索以下复合词以提高精确度:
- 弋绨、緼黂、绵纩、缟衣、狐白、鹤氅、紫貂、绛纱、绯衣、锦袍、衣锦、衣绣、緼袍、布裙、练裙
- 冕服、法服、服章、舆服、车服、仪卫
- 貂蝉冠、笼巾、步摇、簪戴、花冠、霞帔、抹额、云肩、中单、蔽膝、方心曲领、玉藻
- 进贤冠、鹿皮冠、幞头、金蝉珥貂
- 合计命中约100行精检结果
第6步:内容审查与去重
- 同一故事在不同史书中重出者(如"念西征将"在宋史王全斌传两见),保留最具代表性版本
- 排除非服饰语义的命中(如"鹖冠子"为书名、"衮"为人名等)
- 最终筛选约130条有效服饰内容
第7步:分类与撰写
按10个类别整理:
1. 冕服礼制 2. 帝王尚俭 3. 后妃服饰 4. 官服品级
5. 科举士人 6. 民间隐士 7. 异族外国 8. 舞乐服饰
9. 佩饰冠帽 10. 裘褐季节
数据汇总
| 指标 | 数值 |
|---|---|
| 原文件行数 | 3073 |
| 拆分行数 | 44366 |
| 服饰相关命中行 | 约3450行(含大量非服饰语义) |
| 精筛有效条目 | 约130条 |
| 服饰部专卷 | 卷145-146(冠巾佩/衣裳履舄) |
| 涉及史源 | 后汉书、汉书、史记、晋书、宋书、旧唐书、唐书、宋史、魏书、隋书等 |
注意事项
- 本书为类书体裁,同一典故常在多处重出,提取时注意去重
- 书中"丨丨"为原文标目省略号,表示该字词即条目名
- 部分条目注文与正文连写,提取时需区分
- 异族服饰描述可能带有中原视角,需注意语境