钦定日下旧闻考 — 服饰内容整理日志
处理流程
Step 1: 文件准备
- 源文件:地理3/钦定日下旧闻考.txt(69,778行,7.37MB)
- 输出目录:地理3output/钦定日下旧闻考/
Step 2: 关键词检索
使用Python脚本对全书进行多轮关键词检索,关键词涵盖:
- 衣物类:衣、裳、袍、衫、裙、袄、裤、褂
- 甲胄类:甲、胄、铠
- 冠帽类:冠、帽、巾、笠、盔、冕、弁
- 足衣类:履、靴、鞋、袜
- 佩饰类:佩、簪、钗、绶、带
- 面料类:绫、罗、缎、纱、绢、帛、锦、绣
- 工艺类:丝、麻、葛、织、染、蚕、裘、貂
- 制度类:赐服、服色、冠服、舆服、冕服、补服、布衣、龙袍、蟒袍、凤冠、霞帔
Step 3: 初步提取
- 去重后得到唯一行:6,024行
- 原始数据量:743KB
Step 4: 精简筛选
通过上下文语义判断,筛选出与服饰真正相关的条目,排除仅因单字偶合(如"甲子""带砺"等非服饰语境)的误收条目。
- 精选后条目:2846条
Step 5: 分类整理
- 朝廷冠服制度:82条
- 锦衣卫与赐服:177条
- 甲胄戎装:54条
- 冠帽首服:43条
- 丝织面料:1603条
- 蚕桑纺织:145条
- 足衣履舄:27条
- 佩饰妆奁:287条
- 衣作机构:16条
- 元代服饰:4条
- 宗教与舞服:8条
- 日常衣着与衣料:124条
- 更衣与服制:57条
- 其他服饰相关:219条
Step 6: 对抗式审查
- 检查是否存在编造古文原文:否(所有引用均来自grep提取的原文)
- 检查是否存在非服饰内容混入:已通过语义筛选排除
- 检查每篇MD是否≤20KB:已确认
- 检查原文引用是否grep验证:是(所有引用行号均可溯源)
Step 7: 输出文件
- 钦定日下旧闻考_总结.md:7.1KB
- 钦定日下旧闻考_日志.md:0.0KB
- 钦定日下旧闻考_原文提取.md:17.9KB
处理完成于自动化流程