《太平广记》服饰提取 - 操作日志
时间:2026-04-19 18:26-18:42
任务:提取《太平广记》全部服饰相关原文,整理分类总结
操作步骤
Step 1:获取文本
- 尝试殆知阁API搜索 → 太平广记200万字,API无全文
- 尝试dzgdown.sh下载 → chromium dump-dom超时(2M字符太大)
- 用户提供txt文件 → 下载5.9MB到cached_texts/
Step 2:关键词频率扫描
衣 1462 | 冠 395 | 服 821 | 袍 59 | 裙 78 | 衫 126
带 270 | 履 212 | 靴 39 | 绮 78 | 锦 167 | 罗 487
绢 105 | 帛 199 | 佩 98 | 簪 55 | 钗 51 | 青衣 149
白衣 72 | 布衣 44 | 羽衣 18 | 霞帔 6 | 紫袍 10
Step 3:grep + sed初筛
- 命令:grep -n -B1 -A3 "衣|裳|冠|袍|..."
- 结果:10746行,3MB → 太大需二次筛选
Step 4:Python智能筛选
- 按空行/卷号分段 → 7197段
- 服饰关键词评分(核心词×2 + 动作词×1)→ 2063段992K
- 二次评分筛选(≥3分)→ 1354段872K
Step 5:分类整理
分为8大类:神仙道化、宫廷贵族、官服品色、异域奇珍、民间风俗、女子妆容、材质工艺、服饰命运
Step 6:保存三份文件
- 知识库总结:2026-04-19_1826_太平广记_服饰内容总结.md
- 操作日志:log/2026-04-19_1826_太平广记_日志记录.md
- 原文提取:yuanwen/太平广记_服饰内容原文.md
关键发现
- 太平广记服饰内容以神仙道教类最丰富(天衣、羽衣、霞帔)
- 杨贵妃系列(长恨传、许老翁等)服饰描写最细腻
- "天衣本非针线为也"为经典服饰典故
- 龙绡衣"一袭无二三两"为最轻服饰记录
- 尸解留衣为道教重要意象
耗时
- 下载:~1分钟
- 关键词扫描:~10秒
- grep初筛:~5秒
- Python筛选+分类:~10秒
- 总计:约2分钟