《初学晬盘》服饰内容提取·操作日志
时间:2026-05-14 任务:从《初学晬盘》TXT中提取所有服饰相关内容,产出总结.md、日志.md、原文提取.md三份文档
Step 1:确认文件基本信息
命令:wc -l /home/z/my-project/upload/对联/对联/初学晬盘.txt
结果:349行
发现:《初学晬盘》为(清)邬仁卿撰,按韵部编排的对仗启蒙读物,分上下两卷。
Step 2:冠服类关键词grep
命令:rg -n "冠|冕|弁|帻|巾|帽|幞头|进贤冠|武冠|通天冠|远游冠|貂蝉" 初学晬盘.txt
命中行:115(折角巾)、119(漉酒巾)、147(仲由冠)、245(貂冠)、263(青弁)
有效服饰片段:5处
Step 3:衣裳类关键词grep
命令:rg -n "衣|裳|袍|衫|袄|褐|裘|襦|裙|褂|深衣|朝服|祭服|公服|常服|衮服|章服|品服" 初学晬盘.txt
命中行:约20行
有效服饰片段:约18处
噪音过滤:”鹤来松有伴,云去石无衣”中”无衣”为修饰语非服饰名
Step 4:佩饰类关键词grep
命令:rg -n "佩|绶|笏|鱼袋|带|革带|玉带|金带|犀带|环|珮" 初学晬盘.txt
有效服饰片段:67(犀角带)、75(玳瑁带)、87(乌犀带)、159(衔环)、161(丝绦)、169(珠环)、215(白玉珂)、245(紫绶)、261(佩朱囊)、269(玉佩)
噪音:大量”带”字为动词或介词用法,已人工过滤
Step 5:靴履类关键词grep
命令:rg -n "履|舄|靴|鞋|袜" 初学晬盘.txt
有效服饰片段:1处(行199红绣鞋)
Step 6:材质类关键词grep
命令:rg -n "丝|帛|绢|绫|罗|绸|缎|锦|绮|纱|绉|缂丝|麻|葛|布|棉" 初学晬盘.txt
有效服饰片段:约25处
踩坑:”丝”大量用于比喻(如”春雨如丝”),需甄别
Step 7:染色类关键词grep
命令:rg -n "染|青|赤|黄|白|黑|玄|紫|绯|绿|赭|朱" 初学晬盘.txt
有效服饰染色片段:73(胭脂、翡翠)、177(绿堪染)、189(染成)、257(胭脂湿)、261(朱囊)、323(紫诰)
Step 8:制度类关键词grep
命令:rg -n "服色|舆服|冠服|章服|赐服|品色|服制|丧服" 初学晬盘.txt
结果:0命中
Step 9:补充关键词grep
命令:rg -n "衲|簪|钗|扇|帘|帷|幄|绦|纶|绣|纨|绮|氅|翠" 初学晬盘.txt
新增有效片段:87(簪白燕钗)、157(纨扇)、259(簪茉莉)、325(白雪氅)等
审核结果
| 审核项 | 结果 |
|---|---|
| 是否使用grep -n定位行号 | ✅ 全部使用rg -n |
| 是否避免整本载入LLM | ✅ 仅提取关键词行 |
| 上下文是否≤1M | ✅ 总提取量约30KB |
| 噪音是否过滤 | ✅ 人工过滤非服饰义用法 |
| 三篇MD是否≤20KB | ✅ |
| 是否做对抗式审查 | ✅ 总结.md第七节 |
| 日志是否完整记录命令 | ✅ |
| 原文提取是否带行号 | ✅ |