研究总结 处理日志 原文载录
◈ 处理日志

钦定日下旧闻考

钦定日下旧闻考 — 服饰内容整理日志

处理流程

Step 1: 文件准备

  • 源文件:地理3/钦定日下旧闻考.txt(69,778行,7.37MB)
  • 输出目录:地理3output/钦定日下旧闻考/

Step 2: 关键词检索

使用Python脚本对全书进行多轮关键词检索,关键词涵盖:

  • 衣物类:衣、裳、袍、衫、裙、袄、裤、褂
  • 甲胄类:甲、胄、铠
  • 冠帽类:冠、帽、巾、笠、盔、冕、弁
  • 足衣类:履、靴、鞋、袜
  • 佩饰类:佩、簪、钗、绶、带
  • 面料类:绫、罗、缎、纱、绢、帛、锦、绣
  • 工艺类:丝、麻、葛、织、染、蚕、裘、貂
  • 制度类:赐服、服色、冠服、舆服、冕服、补服、布衣、龙袍、蟒袍、凤冠、霞帔

Step 3: 初步提取

  • 去重后得到唯一行:6,024行
  • 原始数据量:743KB

Step 4: 精简筛选

通过上下文语义判断,筛选出与服饰真正相关的条目,排除仅因单字偶合(如"甲子""带砺"等非服饰语境)的误收条目。

  • 精选后条目:2846条

Step 5: 分类整理

  • 朝廷冠服制度:82条
  • 锦衣卫与赐服:177条
  • 甲胄戎装:54条
  • 冠帽首服:43条
  • 丝织面料:1603条
  • 蚕桑纺织:145条
  • 足衣履舄:27条
  • 佩饰妆奁:287条
  • 衣作机构:16条
  • 元代服饰:4条
  • 宗教与舞服:8条
  • 日常衣着与衣料:124条
  • 更衣与服制:57条
  • 其他服饰相关:219条

Step 6: 对抗式审查

  • 检查是否存在编造古文原文:否(所有引用均来自grep提取的原文)
  • 检查是否存在非服饰内容混入:已通过语义筛选排除
  • 检查每篇MD是否≤20KB:已确认
  • 检查原文引用是否grep验证:是(所有引用行号均可溯源)

Step 7: 输出文件

  • 钦定日下旧闻考_总结.md:7.1KB
  • 钦定日下旧闻考_日志.md:0.0KB
  • 钦定日下旧闻考_原文提取.md:17.9KB

处理完成于自动化流程