《元和姓纂》服饰内容提取——操作日志

基本信息

项目 内容
输入文件 /home/z/my-project/upload/part1_extracted/元和姓纂.txt
文件大小 365,419字节(约357KB)
输出目录 /home/z/my-project/upload/p1output/元和姓纂/
操作时间 2026-03-04
操作方式 严禁全文载入LLM,先grep提取再处理

操作流程记录

步骤1:文件大小检查

$ wc -c /home/z/my-project/upload/part1_extracted/元和姓纂.txt
365419

文件365KB,未超500KB阈值,但仍遵循禁止全文载入原则,全程使用grep+sed提取。

步骤2:创建输出目录

$ mkdir -p /home/z/my-project/upload/p1output/元和姓纂/

步骤3:第一轮grep——核心词(16词)

关键词 命中行数 真实服饰含义 备注
4行 3处(尚衣奉御×2, 衣冠×1) 余为人名
4行 0处 全为人名(黄裳、裳吉)
约15行 3处(衣冠×1, 步摇冠×1, 鹖冠×1) 余为姓氏/地名/军号
4行 0处 全为人名
0行
0行
0行
0行
0行
4行 3处(裘氏起源×2, 邑裘×1) 含姓氏源流
约8行 0处 全为人名/姓氏/地名
2行 0处 全为人名
3行 0处 全为人名/姓氏
0行
0行

步骤4:第二轮grep——制度词(10词)

关键词 命中行数 备注
服色 0
舆服 0
冠服 0
章服 0
朝服 0
祭服 0
丧服 0
吉服 0
常服 0
公服 0

全部零命中。

步骤5:第三轮grep——材质词(15词)

关键词 命中行数 真实材质含义 备注
0
1 0 人名"强帛"
0
0
3 0 姓氏"绮里"
1 0 姓氏"绫氏"(案语指出为"缓"之误)
大量 0 姓氏"罗氏"为主
0
0
缂丝 0
大量 0 姓氏"葛氏"为主
2 0 姓氏目
4 0 人名/姓氏
2 0 姓氏"褐余"

步骤6:第四轮grep——品色词(10词)

关键词 命中行数 备注
紫袍 0
绯袍 0
绿袍 0
赐紫 0
赐绯 0
鱼袋 0
0
幞头 0
金带 0
玉带 1 人名"公玉带",非服饰品

几乎全部零命中。

步骤7:第五轮grep——配饰词(12词)

关键词 命中行数 真实配饰含义 备注
0
4 0 姓氏/人名
大量 0 绝大多数为人名
0
3 0 姓氏/人名
0
0
0
0
1 0 姓氏"翠氏"
0
大量 0 人名/玉玺为主

步骤8:上下文提取

对确认有服饰含义的命中行,使用 sed -n '起始行,结束行p' 提取前后各5行上下文。提取行号范围:

步骤9:分类整理与学术审查

将提取内容按服饰类别分类:
1. 服饰官职(尚衣奉御)
2. 衣冠合称(衣冠华胄)
3. 冠帽与姓氏起源(步摇冠、鹖冠、冠氏)
4. 裘皮与姓氏起源(裘氏、邑裘)
5. 姓氏中的服饰字(间接关联)

对抗式审查:对每条引文执行原文grep回验,确认全部真实存在。

步骤10:生成三篇MD

  1. 元和姓纂_原文提取.md — 带行号的原始服饰匹配片段
  2. 元和姓纂_总结.md — 服饰结构化综述+对抗式学术审查
  3. 元和姓纂_日志.md — 本文件,完整操作日志

关键数据汇总

指标 数值
检索关键词总数 63
有命中的关键词数 19
零命中关键词数 44
grep总命中行数(含重复) 约60+
有真实服饰含义的命中数 8条
产出MD文件数 3