研究总结 日志 原文

《备急千金要方》服饰内容提取 · 操作日志

时间:2025-03-04 任务:提取《备急千金要方》全部服饰相关内容


操作流程

Step 1: 文件概况

wc -l /home/z/my-project/download/part2_extracted/医藏/备急千金要方.txt
→ 22245行

Step 2: 第一轮grep——核心服饰词

衣: 125条 | 裳: 0 | 冠: 9 | 冕: 0 | 弁: 0 | 帻: 0
巾: 4 | 帽: 3 | 袍: 1 | 衫: 0 | 裙: 1 | 袂: 0
裾: 1 | 裘: 0 | 褐: 0 | 衮: 0

Step 3: 第二轮grep——制度等级词

服色: 0 | 舆服: 0 | 冠服: 0 | 章服: 0 | 品服: 0
朝服: 3 | 公服: 0 | 常服: 40 | 祭服: 0 | 丧服: 0
赐服: 0 | 赐紫: 0 | 赐绯: 0 | 借紫: 0

Step 4: 第三轮grep——织物材料词

锦: 2 | 绮: 3 | 帛: 42 | 绢: 66 | 绫: 0 | 罗: 15
缎: 0 | 纱: 1 | 绸: 0 | 丝: 86 | 绵: 148 | 布: 116
麻: 554 | 葛: 141 | 缂丝: 0 | 茧: 2 | 蚕: 43

Step 5: 第四轮grep——佩饰配件词

佩: 0 | 笏: 0 | 带: 102 | 绶: 0 | 鱼袋: 0 | 幞头: 0
舄: 0 | 履: 16 | 靴: 3 | 环: 30 | 钗: 9 | 簪: 4 | 珥: 0

Step 6: 第五轮grep——颜色工艺词

紫: 211 | 绯: 5 | 青: 361 | 绿: 2 | 赭: 29
黼: 0 | 黻: 0 | 绣: 1 | 染: 21 | 织: 0 | 缝: 23 | 纹: 33

Step 7: 第六轮grep——医书特有服饰词

医官: 0 | 太医: 5 | 药衣: 0 | 药布: 0 | 裹: 165
缠: 20 | 缚: 7 | 包: 17 | 裹衣: 0 | 药绵: 0
药绢: 0 | 裹创: 0 | 缠帛: 0 | 束帛: 0 | 裹伤: 1 | 绢包: 0

Step 8: sed上下文提取

对以下行号区间执行 sed -n 'start,endp'

对抗式审查

排除的误匹配:

关键词 误匹配类型 条数 说明
垣衣 药名(地衣科植物) ~5 非衣物
衣鱼/衣中白鱼 昆虫名(衣鱼科) ~4 非衣物
胞衣 胎盘 ~15 非衣物
铁衣 铁锈 ~3 非衣物
常服 “经常服用” 40 非日常服装
朝服 “朝朝服食” 3 非朝服
带下 妇科病症 ~70 非衣带
药材(麻黄等) ~540 非织物
药材(葛根) ~140 非葛布
绵裹 医疗包裹法 ~80 属医疗操作,非服饰
绢袋 药物容器 ~20 属医疗工具,非服饰
鸡冠 鸡冠花/鸡冠丹 ~4 非冠帽

保留的边缘匹配(医疗与服饰交叉):

保存三份文件