《寿世保元》服饰整理工作日志
任务信息
| 项目 | 内容 |
|---|---|
| 源文件 | /home/z/my-project/download/part2_extracted/医藏/寿世保元.txt |
| 文件大小 | 1.2MB |
| 文件行数 | 20057行 |
| 输出目录 | /home/z/my-project/upload/2output/寿世保元/ |
| 任务类型 | rysxguji 子Agent — 服饰关键词检索与提取 |
执行步骤
第一步:文件确认与目录创建
- 确认源文件存在,1.2MB,20057行(大文件,严禁整本载入 ✓)
- 创建输出目录
第二步:关键词初筛
使用 rg -c 对单字关键词逐一计数:
| 关键词 | 命中行数 | 备注 |
|---|---|---|
| 麻 | 431 | 绝大多数为药名(麻黄、天麻等),非服饰 |
| 衣 | 121 | 含大量"朱砂为衣""胞衣"等医药用语 |
| 带 | 104 | 含大量"赤带""白带"等妇科症状 |
| 布 | 62 | 部分为"布帛"医疗用途 |
| 被 | 43 | 含被动语态及"衣被"连用 |
| 绢 | 37 | 多为"绢袋""绢帛"制药工具 |
| 帛 | 19 | 多为"布帛""帛扎"医疗用途 |
| 履 | 18 | 多为"步履""动履"(行走义) |
| 罗 | 11 | 含"罗筛""飞罗面"等非服饰义 |
| 锦 | 10 | 多为"锦纹大黄"药名 |
| 簪 | 9 | 多为银簪医疗工具 |
| 冠 | 8 | 含"冠诸方之首"等比喻义 |
| 鞋 | 6 | 多为鞋底热熨法 |
| 钗 | 5 | 金钗股(药名)、探喉工具 |
| 裳 | 5 | 衣裳连用 |
| 巾 | 4 | 绢巾滤药 |
| 褐 | 4 | 药材鉴别用语 |
| 裙 | 2 | 鳖甲去裙 + 旧裙改衣 |
| 袖 | 2 | 非服饰义 |
| 衫 | 1 | 小儿衣衫 |
| 袄 | 2 | — |
初筛总命中:840行(含大量非服饰义项)
第三步:复词精准搜索
使用复合词搜索(衣裳/衣服/衣被/脱衣/棉衣/旧裙/旧裤/衣衫/绢帛/布帛/鞋底/银簪/胭脂/铅粉/衣香等),获得 61行 精准命中。
第四步:逐条甄别
对61行命中结果逐条阅读上下文,按以下标准甄别:
- ✓ 保留:直接涉及穿衣、面料、首饰、梳妆、衣被调护的内容
- ✗ 排除:纯医学术语("朱砂为衣""胞衣""黄衣"等药丸着色/病症名称)
- ✗ 排除:药名中的服饰字("锦纹大黄""金钗石斛""玉簪花"等)
- ✗ 排除:行走义"步履""动履”
经甄别,有效服饰条目约42条。
第五步:补充搜索
额外搜索以下词汇以确保覆盖:
- 梳头/盥洗/易衣/沐浴/衣香/KT裆/扇/髻/丝绫罗毡绒
- 发现 L19133 “衣香方"、L10297 “沐浴方"、L10289 “透体气口丸"等重要条目
第六步:输出撰写
- 总结.md:分类概述,含7大类分析
- 日志.md:本文件
- 原文提取.md:按类编排原始引文(≤20KB)
搜索命令记录
# 单字计数
rg -c '衣' 寿世保元.txt
# 复合词精准搜索
rg -n '丝绫罗|毡绒|棉衣|衣被|旧裙|旧裤|衣衫|脱衣|覆衣|袒肉|赤体|梳头|盥洗|易衣|衣领|衣香|衣裳|绢帛|布帛|鞋底|银簪|胭脂|铅粉' 寿世保元.txt
# 上下文提取
sed -n '19125,19145p' 寿世保元.txt
sed -n '10285,10310p' 寿世保元.txt
数据质量评估
| 评估项 | 结果 |
|---|---|
| 假阳性率 | 约70%(初筛840行中约600行为非服饰义项) |
| 漏检风险 | 低(已覆盖衣/裳/冠/巾/鞋/袜/簪/钗/裙/衫/帛/绢/锦/罗/绣/胭脂等主要关键词) |
| 核心条目可靠性 | 高(42条均经上下文确认) |
| 最具史料价值条目 | L15373(婴儿衣衫选材禁忌)、L19133(衣香方) |