《外科医镜》服饰内容提取日志
任务信息
| 项目 | 内容 |
|---|---|
| 任务ID | 2-4 |
| 书名 | 外科医镜 |
| 输入文件 | /home/z/my-project/download/part2_extracted/医藏/外科医镜.txt |
| 输出目录 | /home/z/my-project/upload/2output/外科医镜/ |
| 执行日期 | 2025年 |
操作步骤记录
步骤1:文件行数统计
wc -l /home/z/my-project/download/part2_extracted/医藏/外科医镜.txt
# 结果:605行
步骤2:六轮grep检索
第1轮:核心服饰词(衣|裳|冠|冕|弁|帻|巾|帽|袍|衫|裙|袂|裾|裘|褐|衮)
grep -n '衣\|裳\|冠\|冕\|弁\|帻\|巾\|帽\|袍\|衫\|裙\|袂\|裾\|裘\|褐\|衮' 外科医镜.txt
命中行:5, 7, 9, 283, 513, 549
- 第5行"裘序":裘为姓氏,排除
- 第7行"席帽依然":席帽为冠帽用语,有效
- 第9行"裘光照":裘为姓氏,排除
- 第283行"雄黄为衣":药丸包衣术语,排除
- 第513行"锦衣杨永兴":锦衣为官职名,边缘有效
- 第549行"嚼瓷器,衣服""被咬衔衣":衣服提及,有效
第2轮:制度等级词(服色|舆服|冠服|章服|品服|朝服|公服|常服|祭服|丧服|赐服|赐紫|赐绯|借紫)
grep -n '服色\|舆服\|冠服\|章服\|品服\|朝服\|公服\|常服\|祭服\|丧服\|赐服\|赐紫\|赐绯\|借紫' 外科医镜.txt
命中行:无
第3轮:织物材料词(锦|绮|帛|绢|绫|罗|缎|纱|绸|丝|绵|布|麻|葛|缂丝|茧|蚕)
grep -n '锦\|绮\|帛\|绢\|绫\|罗\|缎\|纱\|绸\|丝\|绵\|布\|麻\|葛\|缂丝\|茧\|蚕' 外科医镜.txt
命中行:13, 61, 79, 85, 89, 117, 129, 207, 211, 225, 303, 321, 341, 397, 411, 433, 469, 475, 491, 513, 519, 535, 539, 545, 567, 575, 581, 591, 603
逐条筛查结果:
- 第13行"绵延":延续义,排除
- 第61/79/85/89/469/475/491行"麻黄":药材名,排除
- 第117行"蓝叶":植物名,排除
- 第129行"新白布":织物医用,有效
- 第207/341行"锦文佳":大黄纹理,排除
- 第513行"锦衣":已计入第1轮
- 第519/535/539/567/575/581/591行"麻油":芝麻油,排除
- 第591行"新棉絮":织物医用,有效
- 第433行"肥皂核":植物名,排除
- 其余均为药材名或无关项
第4轮:佩饰配件词(佩|笏|带|绶|鱼袋|幞头|舄|履|靴|环|钗|簪|珥)
grep -n '佩\|笏\|带\|绶\|鱼袋\|幞头\|舄\|履\|靴\|环\|钗\|簪\|珥' 外科医镜.txt
命中行:265, 459, 491
- 第265/459行"钗石斛":药材名(石斛别称),排除
- 第491行"带紫":颜色描述,排除
第5轮:颜色工艺词(紫|绯|青|绿|赭|黼|黻|绣|染|织|缝|纹)
grep -n '紫\|绯\|青\|绿\|赭\|黼\|黻\|绣\|染\|织\|缝\|纹' 外科医镜.txt
命中行:27, 117, 129, 157, 163, 203, 211, 231, 249, 273, 331, 463, 491, 549, 555, 575, 585, 591, 603
逐条筛查:全部为药材名(紫花地丁、紫石英、紫苏、紫荆皮、紫竹根、紫金膏、青黛、青皮等)或症状描述色(紫黑),无服色相关内容,全部排除。
第6轮:医书特有服饰词(医官|太医|药衣|药布|裹|缠|缚|包|裹衣|药绵|药绢|裹创|缠帛|束帛|裹伤|绢包)
grep -n '医官\|太医\|药衣\|药布\|裹\|缠\|缚\|包\|裹衣\|药绵\|药绢\|裹创\|缠帛\|束帛\|裹伤\|绢包' 外科医镜.txt
命中行:113
- 第113行"缠颈":指疾病蔓延缠绕颈部,非裹创缠帛,排除
步骤3:sed提取上下文
对有效行号执行sed提取上下文:
sed -n '5,9p' 外科医镜.txt # 席帽上下文
sed -n '127,131p' 外科医镜.txt # 白布上下文
sed -n '281,285p' 外科医镜.txt # 为衣上下文
sed -n '511,515p' 外科医镜.txt # 锦衣上下文
sed -n '547,551p' 外科医镜.txt # 衣服上下文
sed -n '589,593p' 外科医镜.txt # 棉絮上下文
步骤4:汇总与筛查
六轮grep命中总行数:约40+行(去重后) 经逐条人工筛查,有效服饰相关行仅6处:
- 直接服饰词:2处(席帽、衣服)
- 织物医用:2处(白布、棉絮)
- 服饰衍生词:1处(锦衣,官职)
- 药学借用:1处(为衣,排除)
步骤5:对抗式审查
审查要点:
- 席帽为文人自况修辞,无形制信息
- 衣服为狂犬病症状附述,无服饰描述
- 白布、棉絮为医疗工具,非穿着服饰
- 锦衣为官职代称,非服饰本身
- “为衣"为药学术语,完全无关
审查结论:本书服饰信息量极低,不具备独立服饰研究价值。
步骤6:输出三份MD文件
- 外科医镜_总结.md
- 外科医镜_日志.md(本文件)
- 外科医镜_原文提取.md
统计数据
| 指标 | 数值 |
|---|---|
| 全书行数 | 605 |
| grep命中总行数(去重) | 约42行 |
| 有效服饰相关行 | 6行 |
| 排除的误判行 | 约36行 |
| 服饰信息密度 | 约1.0% |