《经学通论》服饰提取日志
时间:2026-05-10
操作流程
Step 1:文件概况
- 总行数425行,行极长(平均约300字,最长1624字)
- 约130KB
Step 2:三批关键词grep搜索
- 批次1(服饰本体词):衣裳/冠冕/裘/弁等
- 批次2(材质纹饰词):锦/帛/丝麻/黼黻等
- 批次3(服制专词):舆服/冠服/祭服/朝服/丧服等
Step 3:排除噪声
初筛102行,排除"服"字非服饰用法(服丧/从服/服刑/降服等),保留约20行有效内容。
Step 4:精确定位
锁定21条服饰原文段落,覆盖行号4/204/233/235/237/239/249/255/261/299/301/303/326/372等。
Step 5:分类整理
8大类:服色变革(2)、冠服制度(4)、丧服制度(6)、郑注推次服制(3)、诗中服饰名物(2)、孔子冠服殷礼(2)、深衣考(1)、衣冠车旗(1)
Step 6:审核结果
✅ 全部通过
提取难点
- 行过长导致上下文定位困难
- "服"字多义,需逐一排除
- 服饰内容嵌入经学论述,需剥离
- 部分OCR特殊字符(衤暴=襮等)