研究总结 日志 原文

《神农本草经疏》服饰内容提取日志

基本信息

项目 内容
书名 神农本草经疏
文件路径 /home/z/my-project/download/part3/医藏/神农本草经疏.txt
输出目录 /home/z/my-project/upload/2output/神农本草经疏/
全书行数 4747行
执行时间 2025年

搜索过程

第一轮:关键词全量扫描

使用以下30个服饰关键词逐一搜索:

衣、裳、服、冠、帽、巾、履、鞋、裘、袍、袄、裙、裤、帛、绢、绸、缎、丝、麻、葛、绫、罗、纱、褐、毡、锦、绣、佩、带、褂、袜、衮、冕、弁、笏

首轮命中统计:

关键词 命中行数 初判
52 需逐条甄别
0
877 噪音极高(服药/服法)
7 多为鸡冠血/冠诸证
0
0
5 多为行履/步履
0
1 有效(御重裘)
0
0
0
0
4 有效(医用包裹)
17 有效(药袋/过滤)
0
0
40 多为菟丝子等药名
213 噪音极高(麻黄/麻木)
78 噪音极高(葛根)
0
7 多为罗为散/罗经
2 有效(纱绢/纱袋)
0
0
2 锦纹大黄/锦囊秘览
3 铁绣=铁锈
1 有效(佩带麝香)
95 噪音极高(带下/带脉)
0
0
0
0
0
0

首轮总计命中:1121行,但绝大多数为噪音。

第二轮:逐词甄别与上下文提取

对有潜力的关键词(衣、帛、绢、裘、纱、佩)逐条检查上下文:

  1. 衣(52条):逐一审阅,排除以下噪音类型:

    • 更衣=如厕(2条)
    • 胞衣=胎盘(约8条)
    • 铁衣=铁锈别名(1条)
    • 衣鱼=虫名(1条)
    • 垣衣=药名使(1条)
    • 保留有效服饰条目约15条
  2. 帛(4条):全部为医用包裹,均保留

  3. 绢(17条):全部为药用绢袋/过滤,均保留

  4. 裘(1条):御重裘,有效

  5. 纱(2条):纱绢/纱袋,有效

  6. 佩(1条):佩带麝香,有效

第三轮:补充搜索

追加搜索以下复合词及关联词:

补充发现:

第四轮:噪音过滤说明

噪音词 出现次数 排除原因
服药/服法/服之 ~870 “服"为服用,非服饰
麻黄/麻仁/麻木 ~210 “麻"为药名或症状
葛根 ~75 “葛"为药名
带下/白带/带脉 ~90 “带"为医学术语
菟丝子 ~30 “丝"为药名
鸡冠血 4 “冠"为动物器官
行履/步履 5 “履"为行走
锦纹大黄 1 “锦"为药材性状描述
铁绣/铁衣 3 “绣/衣"为锈别名
罗为散/罗经 5 “罗"为筛/罗盘
更衣 2 委婉语,非服饰

提取结果统计

类别 有效条目数
衣食并举 2
衣着与病候 5
织物医用(帛/绢/纱/鹿皮) 约18
贴身织物入药(经衣/裈裆) 6
服饰佩戴与生活 6
洗衣/去污 3
面脂(化妆护肤) 4
更衣(非服饰,附列) 2
合计(含附列) 约46条
合计(仅服饰相关) 约39条

输出文件

文件名 内容 大小
神农本草经疏_原文提取.md 逐条原文提取,含行号、上下文、按语 约18KB
神农本草经疏_总结.md 全书服饰内容分类总结与核心发现 约8KB
神农本草经疏_日志.md 本文件,搜索过程与统计 约6KB

方法说明

  1. 使用 ripgrep (rg) 对TXT文件进行关键词搜索
  2. 逐条审阅上下文,人工甄别噪音
  3. 对有效条目提取原文,标注行号
  4. 按内容分类撰写总结
  5. 严格遵守"不编造原文"原则,所有引文均来自源文件

注意事项