研究总结 日志 原文

《皇汉医学》服饰内容提取日志

基本信息


处理步骤记录

第一步:创建输出目录

mkdir -p /home/z/my-project/upload/2output/皇汉医学/

✅ 成功

第二步:关键词扫描

使用 ripgrep 逐词搜索35个服饰关键词,统计命中行数:

关键词 命中数 关键词 命中数 关键词 命中数
39 1 677
8 2 2
5 0 0
0 0 0
0 1 0
0 0 12
341 162 0
10 0 3
1 2 0
1 82 0
0 0 0
0 0

总命中:1220行

第三步:逐词上下文审查与噪音过滤

对每个关键词的命中行逐一审查上下文,判断是否为服饰义:

高噪音词(全部排除)

低噪音词(部分保留)

有效词(全部保留)

补充发现

第四步:有效条目汇总

经审查,确认有效服饰相关条目 18条,涉及关键词:衣(15)、裳(1)、帛(1)、毡(1)、巾(1)、带比喻(1)、锦纹(1)、韈/袜(1)、绮絺(1)。部分条目涉及多个关键词。

第五步:撰写输出文件


噪音比例分析

分类 命中行数 有效行数 噪音率
677 0 100%
341 0 100%
162 0 100%
82 1 98.8%
39 15 61.5%
12 0 100%
10 0 100%
8 0 100%
其余 9 2+ ~78%
合计 1340 ~18 98.7%

总噪音率高达 98.7%,反映医学文献中服饰关键词绝大部分为医学用法。


注意事项

  1. “更衣"一词虽源于"更换衣服",在本书中已完全固化为"大便"的委婉语,严格来说不算服饰内容,但因其词源与服饰相关,在原文提取中保留并注明。
  2. “胞衣"(胎盘)同理,取衣胞包裹之义,非服饰实指,在原文提取中不收录。
  3. “循衣摸床""捻衣摸床"为中医术语,描述危重病人无意识抓摸衣被的行为,虽非服饰本体描述,但反映了衣被在古代病榻场景中的存在,予以保留。