《北堂书钞》服饰内容提取日志
一、操作流程记录
步骤1:文件大小检查
- 文件:
/home/z/my-project/upload/part1_extracted/北堂书钞.txt - 大小:3,060,993字节(约3MB)
- 判定:超过500KB,禁止全文载入,采用grep+sed策略
步骤2:逐轮关键词检索
第一轮(核心词)—— 2025-03-05
衣:201 裳:35 冠:152 冕:28 巾:55
帽:10 袍:11 衫:7 裙:9 裘:30
带:72 佩:58 履:62 舄:9 靴:3
15个核心词全部命中,累计命中行约742行
第二轮(制度词)
服色:1 舆服:37 冠服:0 章服:3 朝服:33
祭服:6 丧服:13 吉服:3 常服:3 公服:2
9/10命中,"冠服"未命中(北堂书钞用"法服"而非"冠服")
第三轮(材质词)
丝:36 帛:61 绢:23 锦:43 绮:32
绫:8 罗:57 缎:0 绸:3 缂丝:0
葛:87 麻:27 布:132 褐:9
12/14命中,"缎""缂丝"未命中(时代限制)
第四轮(品色词)
紫袍:0 绯袍:0 绿袍:0 赐紫:1 赐绯:0
鱼袋:0 笏:6 幞头:0 金带:1 玉带:3
4/10命中,唐代制度词大面积未命中
第五轮(配饰词)
旂:0 旗:46 章:213 珮:0 环:47
玦:7 簪:14 钗:8 钿:5 翠:46
珠:82 玉:274
10/12命中,"旂""珮"未命中(用"旗""佩"替代)
步骤3:上下文提取
- 合并全部命中行号:509行(去重后)
- 构建±2行上下文区间:193个区间
- 提取总行数:2066行
- 提取文件大小:2,674,098字节
步骤4:专卷定位
通过检索卷目标题,定位服饰专卷:
- 卷127 衣冠部上(行2878-2925)
- 卷128 衣冠部中(行2926-2977)
- 卷129 衣冠部下(行2978-3034)
- 卷130 仪饰部上(行3035-3099)
- 卷131 仪饰部下(行3100-3121)
- 卷132 服饰部一(行3122-3191)
- 卷133 服饰部二(行3192-3234)
- 卷134 服饰部三(行3235-3282)
- 卷135 服饰部四(行3283-3439)
- 卷136 服饰部五(行3440-3510+)
步骤5:逐卷精读
对10个专卷逐卷读取分析,提取服饰分类信息:
- 衣冠部上:冠9类、冕、弁、帻、缨、簪、貂、巾、帽
- 衣冠部中:法服、朱衣、中衣、单衣、革带、绂、佩、玦、笏、舄
- 衣冠部下:衣、裳、袍、裘、襦、褐、衫、袴褶、襜褕、纶巾、络带
- 仪饰部:卤簿制度、玺印
- 服饰部1-5:帷帐屏风、床榻席枕、扇麈盖被、首饰妆饰、镜钗钏履
步骤6:对抗式学术审查
审查点1:关键词"章"命中213行——是否均为服饰?
- 审查结论:"章"字在北堂书钞中多数用于"文章""章句",仅"章服"(3行)属服饰
- 处理:在提取原文中区分"章服"与"文章"用法
审查点2:关键词"玉"命中274行——是否均为服饰?
- 审查结论:"玉"字大量用于"玉佩""玉带""玉簪"(属服饰)及"玉器""玉壶"等(非服饰)
- 处理:在原文提取中标注是否属服饰语境
审查点3:关键词"布"命中132行——是否均为服饰?
- 审查结论:"布"字兼有"布衣""布裳""布裙"(服饰)与"宣布""布政"(非服饰)
- 处理:在原文提取中标注布衣相关条目
审查点4:"舆服"37行——是否都在服饰专卷?
- 审查结论:大部分在设官部(官制中涉及舆服等级),少量在衣冠部
- 处理:设官部的舆服内容同样具有服饰制度价值,予以保留
审查点5:服饰部一至五是否都属"服饰"?
- 审查结论:卷132-136内容广泛,包括帷帐、床榻、器物等,并非严格意义的"服饰"
- 处理:按严格定义,仅卷127-129(衣冠部)、卷130(仪饰部卤簿)和卷135-136中的首饰/鞋履部分属核心服饰;其余归为"居室服用"
二、未命中关键词原因分析
| 关键词 | 未命中原因 |
|---|---|
| 冠服 | 北堂书钞用"法服"概念,不用"冠服" |
| 缎 | 缎织物唐宋以后才流行 |
| 缂丝 | 缂丝工艺宋代始盛 |
| 紫袍 | 唐代品色服制度,书钞无 |
| 绯袍 | 同上 |
| 绿袍 | 同上 |
| 赐绯 | 同上 |
| 鱼袋 | 唐代章服制度 |
| 幞头 | 唐代首服,书钞用"巾""帻" |
| 旂 | 书钞用"旗"字 |
| 珮 | 书钞用"佩"字 |
三、技术执行日志
[OK] wc -c 北堂书钞.txt → 3060993 (超过500KB)
[OK] R1 grep 15词 → 全部命中,累计742行
[OK] R2 grep 10词 → 9词命中,累计101行
[OK] R3 grep 14词 → 12词命中,累计518行
[OK] R4 grep 10词 → 4词命中,累计11行
[OK] R5 grep 12词 → 10词命中,累计255行
[OK] 合并去重 → 509行
[OK] 构建上下文区间 → 193个区间,2066行
[OK] sed提取上下文 → 2,674,098字节
[OK] 定位10个服饰专卷 → 逐卷精读完成
[OK] 对抗式审查 → 5个审查点通过
[OK] 产出三篇MD → 完成