研究总结 日志 原文

《寿世保元》服饰整理工作日志

任务信息

项目 内容
源文件 /home/z/my-project/download/part2_extracted/医藏/寿世保元.txt
文件大小 1.2MB
文件行数 20057行
输出目录 /home/z/my-project/upload/2output/寿世保元/
任务类型 rysxguji 子Agent — 服饰关键词检索与提取

执行步骤

第一步:文件确认与目录创建

第二步:关键词初筛

使用 rg -c 对单字关键词逐一计数:

关键词 命中行数 备注
431 绝大多数为药名(麻黄、天麻等),非服饰
121 含大量"朱砂为衣""胞衣"等医药用语
104 含大量"赤带""白带"等妇科症状
62 部分为"布帛"医疗用途
43 含被动语态及"衣被"连用
37 多为"绢袋""绢帛"制药工具
19 多为"布帛""帛扎"医疗用途
18 多为"步履""动履"(行走义)
11 含"罗筛""飞罗面"等非服饰义
10 多为"锦纹大黄"药名
9 多为银簪医疗工具
8 含"冠诸方之首"等比喻义
6 多为鞋底热熨法
5 金钗股(药名)、探喉工具
5 衣裳连用
4 绢巾滤药
4 药材鉴别用语
2 鳖甲去裙 + 旧裙改衣
2 非服饰义
1 小儿衣衫
2

初筛总命中:840行(含大量非服饰义项)

第三步:复词精准搜索

使用复合词搜索(衣裳/衣服/衣被/脱衣/棉衣/旧裙/旧裤/衣衫/绢帛/布帛/鞋底/银簪/胭脂/铅粉/衣香等),获得 61行 精准命中。

第四步:逐条甄别

对61行命中结果逐条阅读上下文,按以下标准甄别:

经甄别,有效服饰条目约42条

第五步:补充搜索

额外搜索以下词汇以确保覆盖:

第六步:输出撰写

搜索命令记录

# 单字计数
rg -c '衣' 寿世保元.txt

# 复合词精准搜索
rg -n '丝绫罗|毡绒|棉衣|衣被|旧裙|旧裤|衣衫|脱衣|覆衣|袒肉|赤体|梳头|盥洗|易衣|衣领|衣香|衣裳|绢帛|布帛|鞋底|银簪|胭脂|铅粉' 寿世保元.txt

# 上下文提取
sed -n '19125,19145p' 寿世保元.txt
sed -n '10285,10310p' 寿世保元.txt

数据质量评估

评估项 结果
假阳性率 约70%(初筛840行中约600行为非服饰义项)
漏检风险 低(已覆盖衣/裳/冠/巾/鞋/袜/簪/钗/裙/衫/帛/绢/锦/罗/绣/胭脂等主要关键词)
核心条目可靠性 高(42条均经上下文确认)
最具史料价值条目 L15373(婴儿衣衫选材禁忌)、L19133(衣香方)