《皇汉医学》服饰内容提取日志
基本信息
- 书名:《皇汉医学》
- 输入文件:
/home/z/my-project/download/part3/医藏/皇汉医学.txt - 输出目录:
/home/z/my-project/upload/2output/皇汉医学/ - 文件总行数:7639行
- 处理日期:2026-03-05
处理步骤记录
第一步:创建输出目录
mkdir -p /home/z/my-project/upload/2output/皇汉医学/
✅ 成功
第二步:关键词扫描
使用 ripgrep 逐词搜索35个服饰关键词,统计命中行数:
| 关键词 | 命中数 | 关键词 | 命中数 | 关键词 | 命中数 |
|---|---|---|---|---|---|
| 衣 | 39 | 裳 | 1 | 服 | 677 |
| 冠 | 8 | 帽 | 2 | 巾 | 2 |
| 履 | 5 | 鞋 | 0 | 裘 | 0 |
| 袍 | 0 | 袄 | 0 | 裙 | 0 |
| 裤 | 0 | 帛 | 1 | 绢 | 0 |
| 绸 | 0 | 缎 | 0 | 丝 | 12 |
| 麻 | 341 | 葛 | 162 | 绫 | 0 |
| 罗 | 10 | 纱 | 0 | 褐 | 3 |
| 毡 | 1 | 锦 | 2 | 绣 | 0 |
| 佩 | 1 | 带 | 82 | 褂 | 0 |
| 袜 | 0 | 衮 | 0 | 冕 | 0 |
| 弁 | 0 | 笏 | 0 | — | — |
总命中:1220行
第三步:逐词上下文审查与噪音过滤
对每个关键词的命中行逐一审查上下文,判断是否为服饰义:
高噪音词(全部排除)
- 服(677条):100%为"服药""服汤""与服""服之"等用药义,无服饰义
- 麻(341条):100%为"麻黄""麻木""麻痹"等药名/症状义
- 葛(162条):100%为"葛根""葛根汤"等药名
- 丝(12条):全部为"脉如丝""血丝""蛛丝""铜丝"等比喻/器物义
- 罗(10条):全部为人名(罗贝古斯、罗谦甫)或"网罗""包罗"义
- 冠(8条):全部为"冠以某字"(前置义)或"弱冠"(二十岁)
- 履(5条):全部为"步履""不能履地""健履"(行走义),非鞋履义
- 褐(3条):全部为"黄褐色""茶褐色"(颜色义)
- 帽(2条):"僧帽肌"(解剖学名词)、"如蔽如帽"(比喻义)
- 佩(1条):非服饰义
低噪音词(部分保留)
- 衣(39条):排除"胞衣"(6条,胎盘义)、"更衣"(4条,如厕义),保留15条服饰相关
- 带(82条):排除"带下""白带""带脉"等医学术语(81条),保留1条"如带五千钱”
- 锦(2条):排除《锦囊秘录》(书名),保留1条"色赤如锦纹”
有效词(全部保留)
- 裳(1条):"污下裳"——下衣实指
- 帛(1条):"如以帛裹朱"——丝织物比喻
- 毡(1条):"敷毡以步"——毡毯实指
- 巾(2条):保留1条"以巾浸水敷颈",排除1条"杂巾"(抹布)
补充发现
- 韈(袜异体字):在审查毡、褐时发现第6424行"装如韈",为袜类服饰
第四步:有效条目汇总
经审查,确认有效服饰相关条目 18条,涉及关键词:衣(15)、裳(1)、帛(1)、毡(1)、巾(1)、带比喻(1)、锦纹(1)、韈/袜(1)、绮絺(1)。部分条目涉及多个关键词。
第五步:撰写输出文件
- ✅
皇汉医学_总结.md:分类总结 - ✅
皇汉医学_日志.md:本文件,处理过程记录 - ✅
皇汉医学_原文提取.md:原文摘录
噪音比例分析
| 分类 | 命中行数 | 有效行数 | 噪音率 |
|---|---|---|---|
| 服 | 677 | 0 | 100% |
| 麻 | 341 | 0 | 100% |
| 葛 | 162 | 0 | 100% |
| 带 | 82 | 1 | 98.8% |
| 衣 | 39 | 15 | 61.5% |
| 丝 | 12 | 0 | 100% |
| 罗 | 10 | 0 | 100% |
| 冠 | 8 | 0 | 100% |
| 其余 | 9 | 2+ | ~78% |
| 合计 | 1340 | ~18 | 98.7% |
总噪音率高达 98.7%,反映医学文献中服饰关键词绝大部分为医学用法。
注意事项
- “更衣"一词虽源于"更换衣服",在本书中已完全固化为"大便"的委婉语,严格来说不算服饰内容,但因其词源与服饰相关,在原文提取中保留并注明。
- “胞衣"(胎盘)同理,取衣胞包裹之义,非服饰实指,在原文提取中不收录。
- “循衣摸床""捻衣摸床"为中医术语,描述危重病人无意识抓摸衣被的行为,虽非服饰本体描述,但反映了衣被在古代病榻场景中的存在,予以保留。