操作日志:大字增補事類統編 服饰内容提取

时间: 2026-04-19 18:26-18:35 任务: 提取《增补事类统编》全部服饰相关内容

流程轨迹

Step 0: 缓存检查 ❌ → 未收录
Step 1: 殆知阁API搜索 ❌ → 未收录
Step 2: 典津dianjin_search.py search ✅(第5条CTEXT、第9条HathiTrust、第20条识典古籍)
Step 3: 识典古籍浏览器搜索 → 找到《大字增补事类统编》/book/YCM294300070
Step 4: shidian_download.py 下载全书 → 12卷,2,007,855字
Step 5: grep 统计 → 衣1537/服1065/冠662/巾346/履280/佩206等
Step 6: sed 提取服饰章节 → 卷七衣服部(829-1080行) + 卷十一衣部(1081-1525行)
Step 7: 分类整理 → 保存原文+总结+日志

关键发现

  1. 《增补事类统编》未被殆知阁收录,需走识典古籍路线
  2. 全书93卷首1卷,约200万字(清·黄葆真增辑,石印本)
  3. 服饰内容主要在两卷:
    • 卷七 衣服部(布帛锦绣丝绫罗绢絺绤)~37,000字
    • 卷十一 衣部(衣冠带佩裘袍裳袴袜靴履巾帐帷幕被褥枕簟席)~67,000字
  4. 另有散见内容:品色制度、王后六服、冕服、靴制、赐紫赐绯等
  5. OCR质量一般(石印本AI整理),异体字/缺字较多

踩坑记录

  • 无新增踩坑

审核结果

  • 原文提取:✅ 已完成(约104,000字服饰原文)
  • 分类整理:✅ 按布帛/衣裳/冠帽/带佩/靴履/王后六服/品色制度分类
  • 知识库:✅ 已保存总结文件
  • 原文文件:✅ 已保存至 yuanwen/

生成文件

文件 大小 说明
cached_texts/大字增補事類統編.txt 5.9MB 全书缓存
yuanwen/大字增補事類統編_服饰内容原文.md ~97KB 服饰原文分类摘录
2026-04-19_1832_大字增補事類統編_服饰内容总结.md ~6KB 结构化总结
log/2026-04-19_1832_大字增補事類統編_日志记录.md ~2KB 操作日志