《钗小志》服饰提取日志
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 钗小志 |
| 文件路径 | /home/z/my-project/upload/part4/钗小志.txt |
| 文件大小 | 10,873 字节 |
| 行数 | 101 行(含空行) |
| 时代 | 明(引文上溯先秦下及唐宋) |
| 作者 | 不著撰人(一说田艺蘅) |
| 体裁 | 笔记小品,条目体 |
执行步骤记录
Step 1:读取文件基本信息
- 文件较小(10.8KB,101行),为典型条目体笔记
- 每条以" 条目名 正文"格式排列,4空格缩进
- 全书约90余条,专记妾姬婢妓掌故
Step 2:按词库执行多轮 grep
第1轮:核心服饰词全搜
执行命令:
bash
rg -n '衣|裳|冠|冕|袍|裘|带|佩|巾|帻|履|舄|笏|绶|幞头|裙|衫|袄|褐|缙|绅|纨|绮|绫|罗|锦|绣|帛|绢|绸|缎|丝|棉|葛|麻|毡|帽|靴|鞋|袜|披|氅|褂|领|袖|袂|裾|襟|衽|裆|裤|褶|襦|襕|裲裆|半臂|霞帔|首饰|簪|钗|钏|环|珮|鱼袋|鞍|鞯|辔|卤簿|仪仗|服色|章服|品服|朝服|公服|常服|吉服|丧服|祭服|戎服|赐服|赐紫|赐绯|蟒衣|飞鱼|斗牛|补服|弁|盔|胄|缨|钗|步摇|胜|花钿|蔽膝|袴|屦|屐|蹀躞|缂丝|纹|黼|黻|法服|燕服|翟衣|袆衣|深衣' /home/z/my-project/upload/part4/钗小志.txt
命中行:11, 13, 21, 22, 23, 24, 25, 36, 48, 52, 55, 57, 61, 62, 64, 67, 68, 69, 71, 72, 74, 76, 79, 81, 88, 92, 93, 98, 99 共29行命中
第2轮:制度动作词
执行命令:
bash
rg -n '赐服|赐紫|赐绯|赐蟒|赐鱼|赏衣|僭|逾制|违式|品色|冠礼|笄礼|敛衽|释服|加冠' /home/z/my-project/upload/part4/钗小志.txt
命中行:无
第3轮:组合扩展词
因第2轮零命中,且第1轮命中较多但妆容/妆具可能遗漏,补充搜索:
bash
rg -n '妆|粉|香|犀|翠|珠|宝|金|银|玉|琉璃|郁金|染|鬓|髻|梳|篦|奁|帐|帷|扇' /home/z/my-project/upload/part4/钗小志.txt
补充命中行:15, 27, 34, 42, 46, 47, 56, 60, 62, 63, 66, 68, 70, 72, 73, 77, 79, 88, 92, 98, 99
进一步精确搜索特定组合:
bash
rg -n '绛纱|紫绡|红绡|凤皇|鸳鸯|翡翠|玳瑁|白团' /home/z/my-project/upload/part4/钗小志.txt
补充命中行:15, 25, 62, 64, 70, 73, 92
Step 3:审查排除
逐条审查所有命中,按排除规则表执行:
| 原始命中 | 行号 | 排除原因 | 规则依据 |
|---|---|---|---|
| 红绡信手舞,紫绡随意歌 | 25 | 红绡/紫绡为人名(自注"皆臧获名") | 排除规则:人名非织物 |
| 别锦儿诗 | 36 | 锦儿为人名 | 排除规则:人名非锦缎 |
| 解带角之 | 52 | 解带为赌博动作,非服饰描写 | 排除规则:动词义排除 |
| 香烟薫之 | 56 | 焚香非服饰 | 排除规则:非服饰语境 |
| 香儿 | 42 | 人名 | 排除规则:人名非香品 |
| 百濯香 | 34 | 体香非服饰 | 排除规则:非服饰 |
| 作芙蕖香 | 77 | 口中花香非服饰 | 排除规则:非服饰 |
| 犀帘至皆损坏 | 46 | 帘幕非个人装饰 | 排除规则:非服用 |
| 玳瑁之床/翡翠之帐 | 73 | 床帐为家具陈设 | 排除规则:非服用 |
| 镜儿 | 60 | 人名 | 排除规则:人名非妆具 |
| 巾箱之宠 | 93 | 巾箱为妆具箱名,非头巾 | 排除规则:非服饰义 |
| 耳(甚易耳) | 8 | 语气词 | 排除规则:非首饰 |
| 遣此耳 | 85 | 语气词 | 排除规则:非首饰 |
Step 4:提取上下文
因文件较小(101行),已逐行阅读全文确认上下文。关键条目上下文完整,无需额外 sed 提取。
Step 5:分类
有效服饰条目按以下类别整理: - 首服与头饰:5条 - 体服:8条 - 下服与足服:2条 - 腰带:1条 - 佩饰与妆具:6条 - 妆容:6条 - 衣料与工艺:6条 - 服饰制度与观念:3条
Step 6:创作三份MD
输出文件: - 钗小志_总结.md ✅ - 钗小志_日志.md ✅ - 钗小志_原文提取.md ✅
统计摘要
| 指标 | 数值 |
|---|---|
| 全书条目数 | 约90余条 |
| 第1轮grep命中行数 | 29行 |
| 第2轮grep命中行数 | 0行 |
| 第3轮grep补充命中行数 | 21行 |
| 有效服饰条目数 | 26条 |
| 涉及关键词数 | 22个 |
| 制度性内容 | 0条(正式制度) |
| 排除误命中数 | 13项 |
| 内容等级 | 丰富(26条 > 16条阈值) |