研究总结 日志 原文

太平圣惠方 服饰提取日志

任务信息

项目 内容
任务ID 6-2
书名 太平圣惠方
输入文件 /home/z/my-project/download/part2_extracted/医藏/太平圣惠方.txt
输出目录 /home/z/my-project/upload/2output/太平圣惠方/
文件规模 79043行,5,283,172字节
执行方法 grep+sed提取,不载入全文

六轮词库搜索记录

第一轮:基础服饰词

词库:衣裳|冠冕|弁|帻|巾帽|袍|衫|裙|袂|裾|裘|褐|衮

指标 数值
原始命中 309行
有效服饰条目 ~10条
误判分析 “裙"字309次中绝大多数为"去裙"(去除鳖甲裙边),属药材处理术语,与服饰无关;"褐"多指粗褐药材;"裘"未出现于服饰语境

有效发现

第二轮:制度服饰词

词库:服色|舆服|冠服|章服|品服|朝服|公服|常服|祭服|丧服|赐服|赐紫|赐绯|借紫

指标 数值
原始命中 20行
有效服饰条目 0条
误判分析 “常服"20次均为"经常服用"义(医学术语),非日常官服;"章服"1次为"服石"断句误判

结论:本书无任何服饰制度内容

第三轮:织物材质词

词库:锦|绮|帛|绢|绫|罗|缎|纱|绸|丝绵|布|麻|葛|缂|茧|蚕

指标 数值
原始命中 10111行
细化后命中 430行
有效服饰条目 ~200条
误判分析 单字"丝""帛""绢""布""麻""蚕"等在方书中大量出现为药材名或量词,细化后仅保留复合词(绵裹、帛裹、绢袋等)

关键发现

第四轮:佩饰配件词

词库:佩|笏|带|绶|鱼袋|幞头|舄|履|靴|环|钗|簪|珥

指标 数值
原始命中 164行
有效服饰条目 ~8条
误判分析 “带"多指带脉(经络);"环"多指脉象;"佩"未出现于佩饰语境;"履"多为"行履不稳"(病症);"囊"约半数指阴囊

有效发现

第五轮:色彩纹饰词

词库:紫|绯|青|绿|赭|黼|黻|绣|染|织|缝|纹

指标 数值
原始命中 2617行
细化后命中 18条
有效服饰条目 18条
误判分析 单字"紫""青"等大量为药材名(紫菀、青黛等),细化后仅保留服饰复合词

关键发现

第六轮:医官药裹词

词库:医官|太医|药衣|药布|裹缠|缚包|裹包|裹衣|药绵|药绢|裹创|缠帛|束帛|裹伤|绢包

指标 数值
原始命中 13行
有效服饰条目 8条
误判分析 “医官"仅1条,为序言中"翰林医官院";"裹缠""裹包"多为药材包裹用语

有效发现

综合提取策略

由于本书为方书,服饰内容零散嵌于医疗语境,采用以下策略:

  1. 六轮词库由宽到窄:先全量grep,再sed细化
  2. 单字搜索结果需二次过滤(第三轮10111→430,第五轮2617→18)
  3. 重点标注"误判陷阱":去裙(鳖甲)、带脉(经络)、常服(服药)、阴囊(解剖)
  4. 最终有效服饰条目约280条,按六大类别组织

质量控制