《册府元龟》服饰内容提取日志

一、文件信息

二、处理流程

第一步:文件大小检测

wc -c: 26623749(超过500KB,禁止全文读取)
wc -l: 73526

结论:严禁全文载入,必须使用grep逐关键词提取。

第二步:第一轮核心词扫描(15词)

关键词 命中行数 备注
3043 假阳性极高,含"衣"非服饰用法甚多
190 较可靠
2252 假阳性高,含"冠军""冠盖"等
354 较可靠
311 含"巾帻"等,部分可靠
78 较可靠
242 可靠
50 可靠
46 可靠
219 含"求裘""狐裘"等,较可靠
1145 假阳性高,含"地带""带领"等
228 部分可靠
879 假阳性高,含"履行""履历"等
45 可靠
28 可靠

第三步:第二轮制度词扫描(10词)

关键词 命中行数 可靠度
服色 62 极高
舆服 53 极高
冠服 30 极高
章服 45 极高
朝服 147 极高
祭服 24 极高
丧服 122 极高
吉服 6 极高
常服 37 极高
公服 20 极高

第四步:第三轮材质词扫描(15词)

关键词 命中行数 可靠度
309 低(多非服饰)
1849 低(多指货币/赏赐物)
721
532 中偏高
192 中偏高
176 中偏高
1544 低(多为人名地名)
1 极高
42
缂丝 0 无命中
979 低(多为姓氏)
257
2265 低(多非服饰)
210

第五步:第四轮品色词扫描(10词)

关键词 命中行数 可靠度
紫袍 52 极高
绯袍 15 极高
绿袍 3 极高
赐紫 184 极高
赐绯 65 极高
鱼袋 170 极高
73
幞头 2 极高
金带 104 高(少数非服饰)
玉带 57

第六步:第五轮配饰词扫描(12词)

关键词 命中行数 可靠度
0 无命中
599 低(多指军旗)
5032 极低(多指章节)
0 无命中
406
0 无命中
85 中偏高
10
44
88
394 低(多指宝物非配饰)
1599 低(多指玉器非配饰)

第七步:复词精扫描(追加42词)

对单字假阳性过高的问题,追加复词扫描:
- 冕服: 19 | 衮冕: 63 | 冠冕: 67 | 衮衣: 6 | 法服: 34
- 黼黻: 15 | 锦袍: 59 | 赐衣: 87 | 衣裳: 59 | 绛纱袍: 5
- 翼善冠: 1 | 远游冠: 7 | 进贤冠: 10 | 五时衣: 2 | 赤舄: 11
- 貂裘: 15 | 弋绨: 14 | 绯衫: 3 | 绿衫: 1 | 牙笏: 7
- 木笏: 2 | 黄帔: 1 | 板授: 21 | 织成: 多 | 锦绣: 多

第八步:上下文提取

对可靠复词命中行,提取前后2-5行上下文:
- Tier1(服色/舆服/冠服/章服/冕服):±5行上下文
- Tier2(朝服/祭服/常服/公服/紫袍等):±3行
- Tier3(赐衣/锦袍/衮衣等):±2行

共提取576个区间,约1.03MB原文。

三、对抗式学术审查

审查1:单字假阳性排除

单字 命中数 服饰相关估计 假阳性率
3043 ~300 ~90%
5032 ~50 ~99%
2265 ~50 ~98%
1544 ~30 ~98%
1599 ~100 ~94%
1849 ~100 ~95%

处理方案:所有单字关键词不直接计入提取,仅以复词为准。

审查2:复词语境校验

审查3:内容完整性验证

审查4:与正史舆服志对比

四、最终统计

指标 数值
可靠复词关键词数 45
可靠复词总命中数 1715
提取原文记录数 约350条(去重后)
涉及朝代 夏商周秦汉魏晋南北朝隋唐五代
核心内容分布行号 5-4660(帝王部)、4170-4280(节俭/赐服)、4625-4700(冠服制度)