研究总结 日志 原文

《续名医类案》服饰内容提取操作日志

基本信息


操作步骤与结果

Step 1:创建输出目录

mkdir -p /home/z/my-project/upload/2output/续名医类案

✅ 成功

Step 2:第一轮grep搜索——衣物类关键词

rg -n '衣|裳|服|冠|帽|巾|履|鞋|裘|袍|袄|裙|裤|衿|袂|衮|冕|弁|笏' 续名医类案.txt | head -200

命中量:约200条(截断) 分析

Step 3:第二轮grep搜索——织物类关键词

rg -n '帛|绢|绸|缎|丝|麻|葛|缟|缣|绫|罗|纱|褐|毡|锦|绣' 续名医类案.txt | head -200

命中量:约200条(截断) 分析

Step 4:第三轮grep搜索——佩饰/制度类关键词

rg -n '佩|带|氅|褂|袜|赐服|赐紫|赐绯|品色|舆服|章服|冠服|服色|丧服' 续名医类案.txt | head -100

命中量:约100条 分析

Step 5:组合词搜索

rg -n '衣被|衣裳|衣冠|青衣|麻衣|重裘|绵絮|衣箱|单衣|裘衣' 续名医类案.txt
rg -n '裹首|裹足|缠帛|帛缠|覆首|蒙头|披衣|脱衣|更衣|着衣' 续名医类案.txt

关键发现

Step 6:针对性上下文提取

对以下行号执行 sed -n 'X,Yp' 提取前后5行上下文:


关键发现

  1. 本书服饰内容极少,全书15971行中,经甄别确认含服饰义的条目仅约25条
  2. 所有服饰描写均为医学症状服务,无独立于病机的服饰叙述
  3. 最大伪匹配陷阱
    • “服":数百次出现,99%为服药义
    • “带":百余次出现,绝大多数为带下病
    • “更衣":均为排便义
    • “锦衣":均为官职名
    • “冠/履":未检出服饰义
  4. 最具服饰价值的三条
    • Line 4783:绒帽貂套,束之以帕,鼻亦绒套笼之
    • Line 599:麻衣者在侧…妻之服也
    • Line 1589:狐帽蒙其首

审核结果

自动匹配 vs 人工甄别

关键词 自动匹配数 服饰义数 命中率
~500+ 1 <0.2%
~200+ 0 0%
~80+ ~20 ~25%
6 6 100%
5 3 60%
8 0 0%
~10 0 0%
1 1 100%

甄别标准


产出文件清单

  1. 续名医类案_总结.md — 本文件
  2. 续名医类案_日志.md — 操作日志(本文件)
  3. 续名医类案_原文提取.md — 带行号原文片段