妇人良方集要 服饰提取日志
任务信息
- 任务ID:10-1
- 书名:妇人良方集要
- 输入:/home/z/my-project/download/part2_extracted/医藏/妇人良方集要.txt
- 输出:/home/z/my-project/upload/2output/妇人良方集要/
- 源文件行数:10067行
- 提取方法:grep+sed(不载入全文)
六轮提取记录
第1轮:衣裳冠冕弁帻巾帽袍衫裙袂裾裘褐衮
- 命令:
rg -n '衣裳|冠冕|弁|帻|巾|帽|袍|衫|裙|袂|裾|裘|褐|衮'
- 原始命中:约20行
- 服饰有效命中:5条
- L3075:衣箱、内衣裳(储衣致霍乱案)
- L5161:厚其衣裳(妊娠五月养气)
- L7053:衣裳宜厚(冻产防寒)
- L7067:手巾一条(坐产助产工具)
- 噪声排除:
- “衮"→"衮热""衮木"(OCR误字,实为"寒热"等)
- “褐"→"小柴胡褐"(OCR误字,实为"汤")
- “衫"→"吐痰甚衫"(OCR误字)
- “巾"→"脾气虚而巾不行"(OCR误字,实为"气")
第2轮:服色舆服冠服章服品服朝服公服常服祭服丧服赐服赐紫赐绯借紫
- 命令:
rg -n '服色|舆服|冠服|章服|品服|朝服|公服|常服|祭服|丧服|赐服|赐紫|赐绯|借紫'
- 原始命中:约10行
- 服饰有效命中:0条
- 噪声排除:
- “朝服"→"朝服补中益气"(早晨服药,非朝服制度)
- “常服"→"常服授风顺气丸"(经常服药,非常服制度)
- 本轮全部为服药语义,无一涉服饰制度
第3轮:锦绮帛绢绫罗缎纱绸丝绵布麻葛缂丝茧蚕
- 命令:
rg -n '锦|绮|帛|绢|绫|罗|缎|纱|绸|丝|绵|布|麻|葛|缂丝|茧|蚕'
- 原始命中:约200+行
- 服饰有效命中:8条
- L483:锦衣杨永兴(锦衣卫官衔)
- L1079:绢袋盛之(制药用具)
- L1337:绢囊盛药(制药用具)
- L3359:如帛所蔽(目疾喻)
- L4663:绢袋盛入阴(妇科外治用具)
- L4711:锦衣卫(武职官衔)
- L7005:帛裹咬断(断脐用帛)
- L8969:帛裹熨患处(热敷用帛)
- 噪声排除:
- “麻"→麻黄、麻木、大麻仁等(药名/症状)
- “丝"→蚕丝丸、如丝等(药名/脉象)
- “绵"→丝绵(极少量,多作药引)
- “葛"→乾葛、葛根(药名)
- “纱"→无命中
- “绸/绫/罗/缎/绮/缂丝/茧/蚕"→无真实服饰用例
第4轮:佩笏带绶鱼袋幞头舄履靴环钗簪珥
- 命令:
rg -n '佩|笏|带|绶|鱼袋|幞头|舄|履|靴|环|钗|簪|珥'
- 原始命中:约100+行
- 服饰有效命中:4条
- L511:如束带之状(带脉病位喻)
- L4721:佩弦、佩韦、施环佩、佩白玉(胎教佩饰)
- L4733:佩弦韦、施环佩、佩白玉(同上引文)
- L4873:络囊盛带之、雄黄人佩之(佩药辟邪)
- 噪声排除:
- “带"→白带、带下、带脉(病理术语,极大量)
- “履"→不能动履、步履、履地(步行义)
- “佩"→佩服(信服义,L4673)
- “环"→环跳(穴位)、环佩(仅胎教条有效)
- “笏/绶/鱼袋/幞头/舄/靴/钗/簪/珥"→无命中
第5轮:紫绯青绿赭黼黻绣染织缝纹
- 命令:
rg -n '紫|绯|青|绿|赭|黼|黻|绣|染|织|缝|纹'
- 原始命中:约200+行
- 服饰有效命中:12条(产图五色衣系列)
- L6809-6953:黄色衣、赤色衣、黑色衣、青色衣、白色衣(产图稳婆着装制)
- L4929:紫官玉女秘法(转男术名称,非服色)
- 噪声排除:
- “紫"→紫苏、紫苑、紫石英、紫金锭、紫河车等(药名,大量)
- “青"→面青、青皮、青蒿、青盐等(面色/药名,大量)
- “绯/绿/赭/黼/黻/绣/染/织/缝/纹"→无真实服饰用例
第6轮:医官太医药衣药布裹缠缚包裹衣药绵药绢裹创缠帛束帛裹伤绢包
- 命令:
rg -n '医官|太医|药衣|药布|裹缠|缚|包裹|药绵|药绢|裹创|缠帛|束帛|裹伤|绢包'
- 原始命中:约6行
- 服饰有效命中:2条
- L4709:太医院(官署名,非服饰)
- L4767:系缚者相拘挛(胎教禁忌)
- L4929:缚妇人腰下、衣中带之(弓弦束腰祈男术)
- L5047:系缚者相拘挛(同L4767引文)
- L7005:帛裹咬断脐带(断脐用帛)
- L8969:帛裹熨患处(热敷用帛)
- 噪声排除:
- “缚"→弓弩弦缚(祈嗣术,非日常服饰)
- “医官/药衣/药布/裹缠/药绵/药绢/裹创/缠帛/束帛/裹伤/绢包"→无命中
对抗式审查
误判记录
- "朝服"误判:第2轮初筛时"朝服补中益气"看似朝服制度,实为"早晨服用"之义
- "常服"误判:同上,"常服壮筋力"为"经常服用"之义
- "衮"误判:初筛"衮热""衮木"疑为衮服,实为OCR误字(寒热、厥木等)
- "褐"误判:初筛"小柴胡褐"疑为褐衣,实为OCR误字(汤)
- "履"误判:初筛"不能动履"疑为履鞋,实为步行义
- "带"海量噪声:白带、带下等妇科术语占"带"字命中90%以上
- "紫"海量噪声:紫苏、紫苑等药名占"紫"字命中95%以上
- "青"海量噪声:面青、青皮等占"青"字命中90%以上
漏检风险
- 未检索"裙""袍""冠"等单字词(因第1轮已有覆盖),若OCR造成断字可能遗漏
- “布"字未单独深挖(被大量"宣布""分布"等噪声淹没)
统计
- 六轮原始命中总数:约540+行
- 服饰有效命中总数:约31条(去重后约22条独立内容)
- 有效率:约4%
- 核心服饰信息:产图五色衣制、胎教佩饰、绢帛药具、衣中佩药、临产衣裳