《四库全书辑永乐大典本书目》服饰内容提取 — 操作日志
操作时间:2026-05-04 操作者:AI SubAgent 输入文件:四库全书辑永乐大典本书目.txt(1619行,61,097字节)
操作流程
Step 1: 读取参考模板
读取三个模板文件,理解排版格式: - 华阳国志_总结.md(服饰内容总结) - 华阳国志_日志.md(操作日志) - 华阳国志_原文提取.md(原文提取)
Step 2: 统计文件基本信息
wc -l: 1619 行
wc -c: 61,097 字节(约60KB)
文件特征:本书为书目目录,记录从《永乐大典》中辑出的516种书籍(著录388种+存目128种),分经、史、子、集四部。全书含两个几乎完全相同的版本(行1-807与行814-1619),仅个别异体字差异。
Step 3: 多轮grep提取服饰关键词
第一轮:基本服饰类
| 关键词 | 命中行数 | 噪音率 |
|---|---|---|
| 衣 | 2 | 100%(书名"衣食") |
| 裳 | 4 | 100%(书名+人名) |
| 袍 | 0 | — |
| 衫 | 0 | — |
| 裙 | 0 | — |
| 袄 | 0 | — |
| 裤 | 0 | — |
| 袜 | 0 | — |
| 鞋 | 0 | — |
| 履 | 0 | — |
| 靴 | 0 | — |
第二轮:冠帽首饰类
| 关键词 | 命中行数 | 噪音率 |
|---|---|---|
| 冠 | 2 | 100%(人名"杨冠卿") |
| 帽 | 0 | — |
| 巾 | 0 | — |
| 笄 | 0 | — |
| 簪 | 0 | — |
| 钗 | 0 | — |
| 环 | 2 | 100%(地名"环溪") |
| 佩 | 0 | — |
| 带 | 0 | — |
| 绶 | 0 | — |
| 笏 | 0 | — |
第三轮:织物面料类
| 关键词 | 命中行数 | 噪音率 |
|---|---|---|
| 裘 | 0 | — |
| 葛 | 6 | 100%(人名"诸葛亮""葛胜仲""葛元承") |
| 麻 | 0 | — |
| 丝 | 0 | — |
| 绢 | 0 | — |
| 锦 | 8 | 100%(书名修辞"锦绣""锦语""锦裳") |
| 绮 | 0 | — |
| 绫 | 0 | — |
| 罗 | 2 | 100%(人名"罗黄裳") |
| 缎 | 0 | — |
| 纱 | 0 | — |
| 绸 | 0 | — |
| 布 | 2 | 100%(官职"布政使") |
| 棉 | 0 | — |
| 绒 | 0 | — |
| 褐 | 0 | — |
| 毡 | 0 | — |
第四轮:工艺制度类
| 关键词 | 命中行数 | 噪音率 |
|---|---|---|
| 染 | 0 | — |
| 绣 | 4 | 100%(书名"锦绣论""启札锦绣") |
| 织 | 0 | — |
| 蚕 | 0 | — |
| 茧 | 0 | — |
| 帛 | 0 | — |
| 素 | 0 | — |
| 缟 | 0 | — |
| 絺 | 0 | — |
| 纁 | 0 | — |
| 黻 | 2 | 100%(叙文提及"三礼图释人注") |
| 黼 | 0 | — |
| 章服 | 0 | — |
| 服色 | 0 | — |
第五轮:特殊服饰类
全部25个关键词命中均为0。
Step 4: sed提取上下文
由于5轮grep结果全部为噪音,无需使用sed提取上下文。直接对噪音条目进行了逐行审查确认。
Step 5: 精简筛选
去除的噪音类型:
- 书名修辞噪音:启札云锦裳、启札锦语、锦绣论、启札锦绣——"锦绣"喻文采华美,非服饰内容
- 人名噪音:诸葛亮、葛胜仲、葛元承、杨冠卿、罗黄裳
- 地名噪音:环溪(书名"环溪诗话")
- 官职名噪音:布政使
- 书名用字噪音:农桑衣食撮要中"衣食"为并列词组,非专门服饰讨论
间接关联识别:
虽无直接服饰内容,但所著录的12种书籍原书可能涉及服饰: - 礼制类8种(周官新义、周官总义、周官集传、仪礼集释、仪礼识误、仪礼释宫、月令解、周礼井田谱) - 农桑纺织类3种(农桑辑要、农桑衣食撮要、农书) - 汉官仪制类1种(汉官旧仪) - 民族地理类2种(蛮书、邺中记) - 叙文提及2种(三礼图释人注、谥法)
Step 6: 对抗式审查结果
对所有grep命中行逐一审查: - 总命中行数:30行(含重复版本中的相同内容) - 有效服饰内容:0行 - 噪音:30行(100%) - 间接关联书目:12种,均经确认存在于本书目原文中
关键发现
- 本书目为纯粹目录,无任何直接服饰内容——5轮关键词检索命中30行,全部为噪音
- 噪音率100%——在所有已处理的古籍中,本书目的服饰内容密度最低(为零)
- 书名修辞是主要噪音来源——"锦绣""锦裳"等在尺牍类书名中极为常见,喻文采而非服饰
- 人名噪音突出——"葛""冠""裳"等字在宋代人名中频繁出现
- 间接关联书目12种占516种的2.3%,为服饰研究提供了线索索引
- 文本重复——全书含两个几乎相同的版本,实际独立内容仅约800行
保存文件
| 文件 | 大小 |
|---|---|
| 四库全书辑永乐大典本书目_总结.md | ~6KB |
| 四库全书辑永乐大典本书目_日志.md | 本文件 |
| 四库全书辑永乐大典本书目_原文提取.md | ~5KB |
备注
- 本书目与叙事类古籍(如华阳国志、话本小说等)性质完全不同,不包含任何原文内容
- 对于服饰研究而言,本书目的价值仅为索引参考——提示哪些永乐大典辑佚书可能含服饰内容
- 间接关联的12种书籍(蛮书、邺中记、汉官旧仪等)可在四库全书原文中进一步检索服饰内容
- 全书文本重复(两个版本),实际独立行数约807行