研究总结 日志 原文

《赤水元珠》服饰内容提取日志

基本信息


操作步骤记录

Step 1:创建输出目录

mkdir -p /home/z/my-project/upload/2output/赤水元珠

✅ 成功

Step 2:多轮grep搜索服饰关键词

第1轮:衣冠鞋帽类

关键词衣|裳|冠|帽|巾|履|鞋|裘|袍|袄|裙|裤|衿|袂|衮|冕|弁|笏

命中行数:约80行(去重后) 主要发现

第2轮:织物材质类

关键词帛|绢|绸|缎|丝|麻|葛|缟|缣|绫|罗|纱|褐|毡|锦|绣

命中行数:约30行 主要发现

第3轮:佩饰制度类

关键词佩|氅|褂|袜|赐服|赐紫|赐绯|品色|舆服|章服|冠服|服色|丧服

命中行数:0行 主要发现

Step 3:关键行上下文提取

对初步筛选出的约25个可疑行号,使用sed -n提取前后各5-10行上下文,逐条判断是否为服饰义。

提取的行号范围:

Step 4:噪音过滤

排除项目(非服饰义)

排除内容 原因 数量
硃砂为衣/金箔为衣/白麪为衣/真土为衣 丸药包衣,非衣物 ~40处
每服/温服/食后服/空心服 服药义,非服饰 数百处
麻黄/麻仁/麻子仁 药名,非织物 ~80处
鳖甲去裙 甲边缘,非衣裙 2处
带下/白带 病名,非腰带 ~10处
白果去衣/大蒜去衣 去壳膜,非脱衣 ~5处
垣衣 苔藓名,非衣物 1处
恩袍散/绿袍散 药名含"袍",无服饰义 2处
不能任身履地/行履不得 履=步行,非鞋履 ~8处

保留但降级项目

内容 原因 处理
烧裩散/裩裆 药方名,但"裩"确为内衣 保留,标注为药方
足下缓失履 “履"有穿鞋义 保留
衣被(合称) 非单一服饰名 保留,标注为合称

Step 5:撰写产出文档

产出3份MD文档:

  1. ✅ 赤水元珠_总结.md —— 结构化总结
  2. ✅ 赤水元珠_日志.md —— 本文件
  3. ✅ 赤水元珠_原文提取.md —— 带行号原文片段

统计摘要

指标 数值
文件总行数 14286
grep命中行数(3轮合计) ~110行
提取上下文行数 ~60行
确认服饰义条目 ~25条
具象服饰物品 15条
服饰病理关系 15条
独立服饰制度内容 0条
噪音排除率 ~95%