《重订通俗伤寒论》服饰内容提取日志
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 重订通俗伤寒论 |
| 输入路径 | /home/z/my-project/download/part3/医藏/重订通俗伤寒论.txt |
| 输出路径 | /home/z/my-project/upload/2output/重订通俗伤寒论/ |
| 文件编码 | UTF-8(含截断字符,已修复) |
| 文件行数 | 5561行 |
| 执行时间 | 2026年 |
操作步骤
第一步:创建输出目录
mkdir -p /home/z/my-project/upload/2output/重订通俗伤寒论/
结果:成功
第二步:文件预处理
- 原文件末尾存在截断的UTF-8字节(0xe3),导致ripgrep无法正常读取
- 使用Python脚本移除末尾不完整字节,生成修复版文件
/tmp/chongding_fixed.txt - 修复后文件大小:1,084,341字节
第三步:关键词搜索
使用ripgrep逐关键词搜索,统计结果如下:
| 关键词 | 命中行数 | 服饰相关 | 主要干扰用法 |
|---|---|---|---|
| 衣 | 106 | ~25 | 更衣(排便)、蝉衣(药)、金箔为衣(制药) |
| 服 | 282 | 0 | 服药、服法、冷服 |
| 冠 | 1 | 0 | 鸡冠花(舌色形容) |
| 帽 | 1 | 0 | 僧帽瓣(解剖名词) |
| 巾 | 1 | 0 | 毛巾(护理) |
| 履 | 4 | 2 | 步履(行走)、如履(比喻) |
| 鞋 | 0 | 0 | — |
| 裘 | 1 | 0 | 箕裘(比喻) |
| 袍 | 0 | 0 | — |
| 袄 | 0 | 0 | — |
| 裙 | 0 | 0 | — |
| 裤 | 1 | 1 | 衣裤(护理) |
| 帛 | 4 | 3 | 软帛(外治敷料) |
| 绢 | 2 | 0 | 绢包煎(制药) |
| 绸 | 0 | 0 | — |
| 缎 | 1 | 0 | 红缎(舌色形容) |
| 丝 | 43 | 0 | 丝通草、丝绵绞去滓 |
| 麻 | 155 | 0 | 大麻仁、麻黄、芝麻(药名) |
| 葛 | 56 | 0 | 葛根(药名) |
| 绫 | 0 | 0 | — |
| 罗 | 9 | 0 | 罗网、罗谦甫(人名) |
| 纱 | 1 | 0 | 纱笼罩 |
| 褐 | 2 | 1 | 被褐藜藿 |
| 毡 | 0 | 0 | — |
| 锦 | 53 | 0 | 生锦纹(大黄别称) |
| 绣 | 2 | 0 | 绣花针、绣球花 |
| 佩 | 17 | 0 | 佩兰(药名) |
| 带 | 86 | 0 | 带心翘、带皮苓、带下 |
| 褂 | 0 | 0 | — |
| 袜 | 0 | 0 | — |
| 衮 | 0 | 0 | — |
| 冕 | 0 | 0 | — |
| 弁 | 0 | 0 | — |
| 笏 | 0 | 0 | — |
原始总命中:611行;过滤后服饰相关:约37条
第四步:噪音过滤
主要噪音来源及处理:
- "服"(282行):全部为"服药""服法""吞服""冷服"等医事用语,全部排除
- "麻"(155行):全部为药物名(大麻仁、麻黄、芝麻等),全部排除
- "带"(86行):全部为"带心翘""带皮苓""带下"等,全部排除
- "锦"(53行):全部为"生锦纹"(大黄别称),全部排除
- "葛"(56行):全部为"葛根"药名,全部排除
- "佩"(17行):全部为"佩兰"药名,全部排除
- "丝"(43行):多为药名或制药用语,"丝绵"仅在制药中用作过滤工具,全部排除
- "衣"(106行):需重点过滤——"更衣丸"(药名)、"蝉衣"(药名)、"金箔为衣"(制药)、"去衣"(药物处理)、"循衣摸床"(医学术语),过滤后保留约25条
第五步:分类整理
将37条服饰相关内容归为五大主题:
- 穿衣行为与病证(10条)
- 衣与寒热辨证(6条)
- 衣物与养生护理(9条)
- 衣料与织物的医疗用途(5条)
- 服饰词语的比喻与形容(7条)
第六步:撰写输出文件
- 重订通俗伤寒论_总结.md ✅
- 重订通俗伤寒论_日志.md ✅
- 重订通俗伤寒论_原文提取.md ✅
质量控制
- ✅ 所有原文引用均来自原文件,无编造
- ✅ 每篇MD文件≤20KB
- ✅ 噪音已充分过滤
- ✅ 服饰内容极少的情况已明确说明