《钗小志》服饰提取日志

基本信息

项目 内容
书名 钗小志
文件路径 /home/z/my-project/upload/part4/钗小志.txt
文件大小 10,873 字节
行数 101 行(含空行)
时代 明(引文上溯先秦下及唐宋)
作者 不著撰人(一说田艺蘅)
体裁 笔记小品,条目体

执行步骤记录

Step 1:读取文件基本信息

Step 2:按词库执行多轮 grep

第1轮:核心服饰词全搜

执行命令: bash rg -n '衣|裳|冠|冕|袍|裘|带|佩|巾|帻|履|舄|笏|绶|幞头|裙|衫|袄|褐|缙|绅|纨|绮|绫|罗|锦|绣|帛|绢|绸|缎|丝|棉|葛|麻|毡|帽|靴|鞋|袜|披|氅|褂|领|袖|袂|裾|襟|衽|裆|裤|褶|襦|襕|裲裆|半臂|霞帔|首饰|簪|钗|钏|环|珮|鱼袋|鞍|鞯|辔|卤簿|仪仗|服色|章服|品服|朝服|公服|常服|吉服|丧服|祭服|戎服|赐服|赐紫|赐绯|蟒衣|飞鱼|斗牛|补服|弁|盔|胄|缨|钗|步摇|胜|花钿|蔽膝|袴|屦|屐|蹀躞|缂丝|纹|黼|黻|法服|燕服|翟衣|袆衣|深衣' /home/z/my-project/upload/part4/钗小志.txt

命中行:11, 13, 21, 22, 23, 24, 25, 36, 48, 52, 55, 57, 61, 62, 64, 67, 68, 69, 71, 72, 74, 76, 79, 81, 88, 92, 93, 98, 99 共29行命中

第2轮:制度动作词

执行命令: bash rg -n '赐服|赐紫|赐绯|赐蟒|赐鱼|赏衣|僭|逾制|违式|品色|冠礼|笄礼|敛衽|释服|加冠' /home/z/my-project/upload/part4/钗小志.txt

命中行:无

第3轮:组合扩展词

因第2轮零命中,且第1轮命中较多但妆容/妆具可能遗漏,补充搜索:

bash rg -n '妆|粉|香|犀|翠|珠|宝|金|银|玉|琉璃|郁金|染|鬓|髻|梳|篦|奁|帐|帷|扇' /home/z/my-project/upload/part4/钗小志.txt

补充命中行:15, 27, 34, 42, 46, 47, 56, 60, 62, 63, 66, 68, 70, 72, 73, 77, 79, 88, 92, 98, 99

进一步精确搜索特定组合: bash rg -n '绛纱|紫绡|红绡|凤皇|鸳鸯|翡翠|玳瑁|白团' /home/z/my-project/upload/part4/钗小志.txt

补充命中行:15, 25, 62, 64, 70, 73, 92

Step 3:审查排除

逐条审查所有命中,按排除规则表执行:

原始命中 行号 排除原因 规则依据
红绡信手舞,紫绡随意歌 25 红绡/紫绡为人名(自注"皆臧获名") 排除规则:人名非织物
别锦儿诗 36 锦儿为人名 排除规则:人名非锦缎
解带角之 52 解带为赌博动作,非服饰描写 排除规则:动词义排除
香烟薫之 56 焚香非服饰 排除规则:非服饰语境
香儿 42 人名 排除规则:人名非香品
百濯香 34 体香非服饰 排除规则:非服饰
作芙蕖香 77 口中花香非服饰 排除规则:非服饰
犀帘至皆损坏 46 帘幕非个人装饰 排除规则:非服用
玳瑁之床/翡翠之帐 73 床帐为家具陈设 排除规则:非服用
镜儿 60 人名 排除规则:人名非妆具
巾箱之宠 93 巾箱为妆具箱名,非头巾 排除规则:非服饰义
耳(甚易耳) 8 语气词 排除规则:非首饰
遣此耳 85 语气词 排除规则:非首饰

Step 4:提取上下文

因文件较小(101行),已逐行阅读全文确认上下文。关键条目上下文完整,无需额外 sed 提取。

Step 5:分类

有效服饰条目按以下类别整理: - 首服与头饰:5条 - 体服:8条 - 下服与足服:2条 - 腰带:1条 - 佩饰与妆具:6条 - 妆容:6条 - 衣料与工艺:6条 - 服饰制度与观念:3条

Step 6:创作三份MD

输出文件: - 钗小志_总结.md ✅ - 钗小志_日志.md ✅ - 钗小志_原文提取.md ✅

统计摘要

指标 数值
全书条目数 约90余条
第1轮grep命中行数 29行
第2轮grep命中行数 0行
第3轮grep补充命中行数 21行
有效服饰条目数 26条
涉及关键词数 22个
制度性内容 0条(正式制度)
排除误命中数 13项
内容等级 丰富(26条 > 16条阈值)