目 录
《花底拾遗》服饰提取日志
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 花底拾遗 |
| 文件路径 | /home/z/my-project/upload/part4/花底拾遗.txt |
| 文件大小 | 7,517 字节 |
| 行数 | 17 行 |
| 时代 | 明末清初 |
| 作者 | 黎遂球(正文)+ 张潮(小引、补遗) |
执行步骤记录
Step 1:读取文件基本信息
- 文件极小(7.5KB,17行),正文主体集中在第10行(约4000+字,含150余条短句),补遗在第16行
- 体裁:谱录小品,每条为一句场景描写,句号分隔
Step 2:按词库执行多轮 grep
第1轮:核心服饰词全搜
执行命令:
bash
rg -n '衣|裳|冠|冕|袍|裘|带|佩|巾|帻|履|舄|笏|绶|幞头|裙|衫|袄|褐|缙|绅|纨|绮|绫|罗|锦|绣|帛|绢|绸|缎|丝|棉|葛|麻|毡|帽|靴|鞋|袜|披|氅|褂|领|袖|袂|裾|襟|衽|裆|裤|褶|襦|襕|裲裆|半臂|霞帔|首饰|簪|钗|钏|环|珮|鱼袋|鞍|鞯|辔|卤簿|仪仗|服色|章服|品服|朝服|公服|常服|吉服|丧服|祭服|戎服|赐服|赐紫|赐绯|蟒衣|飞鱼|斗牛|补服|弁|盔|胄|缨|钗|步摇|胜|花钿|蔽膝|袴|屦|屐|蹀躞|缂丝|纹|黼|黻|法服|燕服|翟衣|袆衣|深衣' INPUT_FILE
命中行:7, 9, 10, 16
第2轮:制度动作词
执行命令:
bash
rg -n '赐服|赐紫|赐绯|赐蟒|赐鱼|赏衣|僭|逾制|违式|品色|冠礼|笄礼|敛衽|释服|加冠' INPUT_FILE
命中行:无
第3轮:组合扩展词
因前两轮有效命中较少,补充搜索:
bash
rg -n '绡|宫花|女红|妆' INPUT_FILE
补充命中:妆字出现7次,女红1次
Step 3:审查排除
逐条审查所有命中,按排除规则表执行:
| 原始命中 | 排除原因 | 规则依据 |
|---|---|---|
| 带花香睡 | "带"=携带义,非腰带 | 排除规则:带领/地带义排除 |
| 书带草 | "带"=植物名(书带草) | 排除规则:非服饰义排除 |
| 碧纱窗 | "纱"=窗纱,非服用 | 排除规则:非穿着用纱排除 |
| 绣榭 | "绣"修饰建筑,非服饰 | 排除规则:非服饰语境排除 |
| 纱内悬胆瓶 | "纱"=罩纱,非服用 | 排除规则:非穿着用纱排除 |
| 青丝一缕 | "丝"=黑发代称 | 排除规则:非丝织品义排除 |
| 曲迳避残丝 | "丝"=蛛丝/植物纤维 | 排除规则:非丝织品义排除 |
| 罗虬 | "罗"=人名 | 排除规则:非丝织品义排除 |
| 须眉丈夫 | "须眉"=男性代称 | 排除规则:比喻义,非服饰 |
Step 4:提取上下文
因文件极小(17行),正文主体即为一整行(第10行),无需 sed 逐条提取上下文,直接在全文中定位即可。
Step 5:分类
有效服饰条目按以下类别整理: - 首服与头饰:3条 - 体服:4条 - 下服:1条 - 足服:4条 - 佩饰:2条 - 衣料与工艺:6条 - 妆容:7条
Step 6:创作三份MD
输出文件: - 花底拾遗_总结.md ✅ - 花底拾遗_日志.md ✅ - 花底拾遗_原文提取.md ✅
统计摘要
| 指标 | 数值 |
|---|---|
| 全书条目数 | 约180条 |
| grep命中行数 | 4行 |
| 有效服饰条目数 | 18条 |
| 涉及关键词数 | 12个 |
| 制度性内容 | 0条 |
| 排除误命中数 | 9项 |