《花底拾遗》服饰提取日志

基本信息

项目 内容
书名 花底拾遗
文件路径 /home/z/my-project/upload/part4/花底拾遗.txt
文件大小 7,517 字节
行数 17 行
时代 明末清初
作者 黎遂球(正文)+ 张潮(小引、补遗)

执行步骤记录

Step 1:读取文件基本信息

Step 2:按词库执行多轮 grep

第1轮:核心服饰词全搜

执行命令: bash rg -n '衣|裳|冠|冕|袍|裘|带|佩|巾|帻|履|舄|笏|绶|幞头|裙|衫|袄|褐|缙|绅|纨|绮|绫|罗|锦|绣|帛|绢|绸|缎|丝|棉|葛|麻|毡|帽|靴|鞋|袜|披|氅|褂|领|袖|袂|裾|襟|衽|裆|裤|褶|襦|襕|裲裆|半臂|霞帔|首饰|簪|钗|钏|环|珮|鱼袋|鞍|鞯|辔|卤簿|仪仗|服色|章服|品服|朝服|公服|常服|吉服|丧服|祭服|戎服|赐服|赐紫|赐绯|蟒衣|飞鱼|斗牛|补服|弁|盔|胄|缨|钗|步摇|胜|花钿|蔽膝|袴|屦|屐|蹀躞|缂丝|纹|黼|黻|法服|燕服|翟衣|袆衣|深衣' INPUT_FILE

命中行:7, 9, 10, 16

第2轮:制度动作词

执行命令: bash rg -n '赐服|赐紫|赐绯|赐蟒|赐鱼|赏衣|僭|逾制|违式|品色|冠礼|笄礼|敛衽|释服|加冠' INPUT_FILE

命中行:无

第3轮:组合扩展词

因前两轮有效命中较少,补充搜索: bash rg -n '绡|宫花|女红|妆' INPUT_FILE 补充命中:妆字出现7次,女红1次

Step 3:审查排除

逐条审查所有命中,按排除规则表执行:

原始命中 排除原因 规则依据
带花香睡 "带"=携带义,非腰带 排除规则:带领/地带义排除
书带草 "带"=植物名(书带草) 排除规则:非服饰义排除
碧纱窗 "纱"=窗纱,非服用 排除规则:非穿着用纱排除
绣榭 "绣"修饰建筑,非服饰 排除规则:非服饰语境排除
纱内悬胆瓶 "纱"=罩纱,非服用 排除规则:非穿着用纱排除
青丝一缕 "丝"=黑发代称 排除规则:非丝织品义排除
曲迳避残丝 "丝"=蛛丝/植物纤维 排除规则:非丝织品义排除
罗虬 "罗"=人名 排除规则:非丝织品义排除
须眉丈夫 "须眉"=男性代称 排除规则:比喻义,非服饰

Step 4:提取上下文

因文件极小(17行),正文主体即为一整行(第10行),无需 sed 逐条提取上下文,直接在全文中定位即可。

Step 5:分类

有效服饰条目按以下类别整理: - 首服与头饰:3条 - 体服:4条 - 下服:1条 - 足服:4条 - 佩饰:2条 - 衣料与工艺:6条 - 妆容:7条

Step 6:创作三份MD

输出文件: - 花底拾遗_总结.md ✅ - 花底拾遗_日志.md ✅ - 花底拾遗_原文提取.md ✅

统计摘要

指标 数值
全书条目数 约180条
grep命中行数 4行
有效服饰条目数 18条
涉及关键词数 12个
制度性内容 0条
排除误命中数 9项