返回典籍目录

《四库全书辑永乐大典本书目》服饰内容提取 — 操作日志

操作时间:2026-05-04 操作者:AI SubAgent 输入文件:四库全书辑永乐大典本书目.txt(1619行,61,097字节)


操作流程

Step 1: 读取参考模板

读取三个模板文件,理解排版格式: - 华阳国志_总结.md(服饰内容总结) - 华阳国志_日志.md(操作日志) - 华阳国志_原文提取.md(原文提取)

Step 2: 统计文件基本信息

wc -l: 1619 行
wc -c: 61,097 字节(约60KB)

文件特征:本书为书目目录,记录从《永乐大典》中辑出的516种书籍(著录388种+存目128种),分经、史、子、集四部。全书含两个几乎完全相同的版本(行1-807与行814-1619),仅个别异体字差异。

Step 3: 多轮grep提取服饰关键词

第一轮:基本服饰类

关键词 命中行数 噪音率
2 100%(书名"衣食")
4 100%(书名+人名)
0
0
0
0
0
0
0
0
0

第二轮:冠帽首饰类

关键词 命中行数 噪音率
2 100%(人名"杨冠卿")
0
0
0
0
0
2 100%(地名"环溪")
0
0
0
0

第三轮:织物面料类

关键词 命中行数 噪音率
0
6 100%(人名"诸葛亮""葛胜仲""葛元承")
0
0
0
8 100%(书名修辞"锦绣""锦语""锦裳")
0
0
2 100%(人名"罗黄裳")
0
0
0
2 100%(官职"布政使")
0
0
0
0

第四轮:工艺制度类

关键词 命中行数 噪音率
0
4 100%(书名"锦绣论""启札锦绣")
0
0
0
0
0
0
0
0
2 100%(叙文提及"三礼图释人注")
0
章服 0
服色 0

第五轮:特殊服饰类

全部25个关键词命中均为0。

Step 4: sed提取上下文

由于5轮grep结果全部为噪音,无需使用sed提取上下文。直接对噪音条目进行了逐行审查确认。

Step 5: 精简筛选

去除的噪音类型:

  1. 书名修辞噪音:启札云锦裳、启札锦语、锦绣论、启札锦绣——"锦绣"喻文采华美,非服饰内容
  2. 人名噪音:诸葛亮、葛胜仲、葛元承、杨冠卿、罗黄裳
  3. 地名噪音:环溪(书名"环溪诗话")
  4. 官职名噪音:布政使
  5. 书名用字噪音:农桑衣食撮要中"衣食"为并列词组,非专门服饰讨论

间接关联识别:

虽无直接服饰内容,但所著录的12种书籍原书可能涉及服饰: - 礼制类8种(周官新义、周官总义、周官集传、仪礼集释、仪礼识误、仪礼释宫、月令解、周礼井田谱) - 农桑纺织类3种(农桑辑要、农桑衣食撮要、农书) - 汉官仪制类1种(汉官旧仪) - 民族地理类2种(蛮书、邺中记) - 叙文提及2种(三礼图释人注、谥法)

Step 6: 对抗式审查结果

对所有grep命中行逐一审查: - 总命中行数:30行(含重复版本中的相同内容) - 有效服饰内容:0行 - 噪音:30行(100%) - 间接关联书目:12种,均经确认存在于本书目原文中


关键发现

  1. 本书目为纯粹目录,无任何直接服饰内容——5轮关键词检索命中30行,全部为噪音
  2. 噪音率100%——在所有已处理的古籍中,本书目的服饰内容密度最低(为零)
  3. 书名修辞是主要噪音来源——"锦绣""锦裳"等在尺牍类书名中极为常见,喻文采而非服饰
  4. 人名噪音突出——"葛""冠""裳"等字在宋代人名中频繁出现
  5. 间接关联书目12种占516种的2.3%,为服饰研究提供了线索索引
  6. 文本重复——全书含两个几乎相同的版本,实际独立内容仅约800行

保存文件

文件 大小
四库全书辑永乐大典本书目_总结.md ~6KB
四库全书辑永乐大典本书目_日志.md 本文件
四库全书辑永乐大典本书目_原文提取.md ~5KB

备注