《犬窝谜话》服饰内容提取 · 工作日志
时间:2026-04-19 任务:提取《犬窝谜话》全部服饰相关内容,整理分类总结 输入文件:/home/z/my-project/upload/谜语/谜语/犬窝谜话.txt 输出目录:/home/z/my-project/upload/谜语output/犬窝谜话/
操作流程
Step 1: 检查文件基本信息
wc -c 犬窝谜话.txt
→ 293249 字节(约286KB)
file 犬窝谜话.txt
→ Unicode text, UTF-8 text, with very long lines (1767), with CRLF line terminators
文件为UTF-8编码,行数约244行(极长行),总字数约9万字。
Step 2: 读取参考模板
读取三个参考模板文件:
- /home/z/my-project/upload/参考/总结.md(《吕氏春秋》服饰总结)
- /home/z/my-project/upload/参考/日志.md(《晋会要》工作日志)
- /home/z/my-project/upload/参考/原文提取.md(《天工开物》原文提取)
了解格式规范:总结MD按分类章节+原文引用+注释+总结表格;日志MD按Step编号;原文提取MD按分类带行号+关键词加粗。
Step 3: 多轮grep检索服饰关键词
使用python3逐行检索,按关键词统计命中数:
| 关键词 | 命中数 | 关键词 | 命中数 | 关键词 | 命中数 |
|---|---|---|---|---|---|
| 衣 | 34 | 裳 | 12 | 服 | 12 |
| 冠 | 13 | 帽 | 9 | 巾 | 6 |
| 帻 | 2 | 履 | 7 | 鞋 | 10 |
| 靴 | 6 | 袜 | 0 | 带 | 16 |
| 佩 | 3 | 裘 | 8 | 袍 | 3 |
| 衫 | 1 | 裙 | 8 | 袴 | 0 |
| 褐 | 2 | 帛 | 5 | 绢 | 2 |
| 丝 | 13 | 锦 | 12 | 绮 | 7 |
| 绫 | 1 | 罗 | 17 | 缎 | 2 |
| 绸 | 4 | 纱 | 7 | 绣 | 15 |
| 染 | 3 | 织 | 7 | 纺 | 2 |
| 蚕 | 1 | 茧 | 1 | 绵 | 6 |
| 衮 | 1 | 冕 | 3 | 笏 | 1 |
| 簪 | 2 | 钗 | 11 | 珠 | 20 |
| 玉 | 51 | 金 | 45 | 银 | 12 |
| 翠 | 9 | 钏 | 4 | 镯 | 1 |
| 钿 | 1 | 髻 | 3 | 鬟 | 3 |
| 黛 | 8 | 妆 | 9 | 脂粉 | 3 |
总计约123行含服饰关键词,但需大量噪音过滤。
Step 4: 噪音识别与过滤
逐行审阅后确认以下高命中关键词噪音极多:
- 玉(51次):人名”宝玉”“黛玉”“玉儿”占大多数,仅”玉簪”“被衮而执玉”属服饰
- 金(45次):金钱、人名”金钏儿”“金寡妇”为主,仅”金钏”“金钗十二”属首饰
- 银(12次):银两、银灯为主,无实质服饰
- 珠(20次):珍珠泛用、人名”贾珠”为主,”一串四颗大珠”属头饰
- 环(20次):多为人名/典故,非佩环
过滤后实质性服饰内容约40余条。
Step 5: 关键行提取与上下文审读
使用python3逐行提取关键行(约60行),对超长行截取关键词前后30-40字上下文。识别出以下核心服饰内容分布:
- 谜面含服饰(约18条):牛衣对泣、缟素衣裳、衣披一品上金銮、钗环裙袄等
- 谜底含服饰(约6条):凤冠、大红纱裙、色丝等
- 诗词隐语服饰(约12条):绣罗襦、绛帻、流黄锦等
- 红楼梦服饰谜(约15条):最为集中的服饰内容来源
- 染织工艺(约8条):织造、染色、丝帛
- 冠弁礼制(约6条):衮服、冕旒、笏
- 民俗歌谣服饰(约9条):衣裳、帽、草鞋、耳环
Step 6: 对抗式学术审查
- 确认”凫靥裘”为小说虚构衣物,标注存疑
- 确认”血蓑衣”为新小说名,非实物服饰
- 确认”绣花襁褓”为食物谜面中的比喻
- 过滤”袜”“袴”等零命中关键词
- 整体判断:本书不是服饰制度典籍,服饰内容完全附属于谜语艺术
Step 7: 撰写三份MD文档
按参考模板格式撰写:
- 犬窝谜话_总结.md:7大分类+对抗式审查+总结表格
- 犬窝谜话_日志.md:本文件
- 犬窝谜话_原文提取.md:8大分类+行号+关键词加粗
关键发现
- 服饰内容附属性强:全书无任何系统性服饰记载,服饰术语均为谜语艺术的服务工具
- 红楼梦为最大来源:约15条服饰相关谜语出自《红楼梦》,占实质性服饰内容近40%
- 谜面>谜底:以服饰入面远多于以服饰为底,服饰词汇主要承担扣合线索功能
- 民俗歌谣贴近日常:草鞋、耳环、手巾等日常物品在歌谣体谜语中出现
- 曹家织造为唯一史实:L200关于曹雪芹先世任江宁织造58年的记载,是全书最接近服饰制度史的内容
关键踩坑记录
- grep编码问题:bash直接grep含中文的UTF-8文件时出现
'utf-8' codec can't decode byte错误,改用python3逐行读取解决 - 极长行问题:文件行数仅约244行但单行极长(最长1767字符),截取上下文时需特别处理
- 噪音极高:玉(51)、金(45)、珠(20)、环(20)四词合计136次命中,但实质性服饰内容不足5条
- 间接关联:谜语类古籍的服饰内容以间接关联为主(谜面/谜底中嵌入),需区别于直接记载性文献
审核结果
全部通过 ✅ ——原文均从本地TXT文件python3逐行提取,有明确行号对应。已做噪音过滤和存疑标注。