《冷眼观》服饰内容提取 · 操作记录
时间:2026-03-05 任务:提取《冷眼观》全部服饰相关内容,整理分类总结
操作流程
Step 1: 检查输入文件
wc -l /home/z/my-project/upload/part1/冷眼观.txt → 1169行
wc -c /home/z/my-project/upload/part1/冷眼观.txt → 689642字节
file → Unicode text, UTF-8 text, with very long lines, CRLF line terminators
发现原文UTF-8编码含CRLF行尾,部分区域有编码问题,需iconv清洗。
Step 2: 文件清洗
iconv -f UTF-8 -t UTF-8 冷眼观.txt > /tmp/lengyanguan_clean.txt
wc -l → 1169行(清洗后行数不变)
Step 3: 8轮关键词grep检索
| 轮次 | 关键词 | 命中行数 |
|---|---|---|
| 第1轮 | 衣|裳|裘|袍|褐|襦|裙|袴|衫|袂|衽 | 111 |
| 第2轮 | 冠|冕|弁|巾|帻|幞头|帽|笠|盔 | 55 |
| 第3轮 | 佩|笏|带|鱼袋|玉佩|蹀躞 | 138 |
| 第4轮 | 丝|帛|绢|锦|绮|绫|罗|缎|绸|纱|葛|麻|布|毡 | 120 |
| 第5轮 | 衮|朝服|公服|常服|祭服|赐服|赐紫|赐绯|品色|舆服|服色|冠服 | 7 |
| 第6轮 | 舄|履|屦|靴|鞋|甲|铠|胄|兜鍪 | 45 |
| 第7轮 | 紫|绯|绿袍|青袍|白袍|红袍|金带|玉带|银带 | 11 |
| 第8轮 | 黼黻|章服|蟒袍|补服|龙袍|凤冠|霞帔|云肩|钿|簪|钗|步摇 | 9 |
合计命中行(去重前):496行 去重后有效服饰相关行:约85行
Step 4: 人工筛选与上下文提取
对8轮命中结果逐一审读,剔除以下无效命中: - "衣"在"衣不解带"(非服饰)、"衣食"(泛指生活)等语境中的非服饰用法 - "带"在"带领""带有""地带"等非服饰用法 - "丝"在"丝线""情丝"等比喻用法 - "巾"在"小手巾儿"(手帕而非头巾) - "布"在"宣布""分布"等非织物用法 - "紫"在"紫猪肝颜色""紫竹林"(地名)等非服色用法 - "甲"在"甲榜""指甲"等非铠甲用法
保留的服饰相关内容按8大类整理: 1. 官服与品级服饰(7条核心原文) 2. 女装与妓女服饰(7条核心原文) 3. 男装与日常服饰(8条核心原文) 4. 奇异与特殊服饰(4条核心原文) 5. 面料与织物(7条核心原文) 6. 鞋履与足饰(5条核心原文) 7. 冠帽(5条核心原文) 8. 首饰与佩饰(8条核心原文)
Step 5: 生成三份文件
/home/z/my-project/upload/1小说output/冷眼观/冷眼观_原文提取.md— 约18KB/home/z/my-project/upload/1小说output/冷眼观/冷眼观_总结.md— 约10KB/home/z/my-project/upload/1小说output/冷眼观/冷眼观_日志.md— 本文件
关键发现
- 《冷眼观》服饰集中于官场品级与妓女装扮:全书无专门服饰描写段落,所有服饰信息均散见于人物出场与社会讽刺
- 品级顶戴是全书最突出的服饰符号:大红顶子、花翎、朝珠反复出现,且几乎全在讽刺语境中
- 衬袍翻面法(行346)为珍贵的内廷服饰制度细节:红紫不可为礼服,衬袍里外异色可翻面应急
- 洋货面料进入妓女服饰:外国缎、外国帽、丝袜等显示清末洋货对传统服饰的冲击
- 天足与缠足并存:一只脚小如莲瓣、一只脚硕大无朋,反映过渡时期
- 蓝竹布大衫为新式学生标志(行837):不同于传统长衫,显示教育改革对服饰的影响
- 一口锺雪衣为晚清妓女最华丽冬装:大红猩猩血、顾绣花边、白狐天马出风——集传统工艺与奢华面料于一体
- "穿衣吃饭"为官场入门隐喻(行778):不懂官服仪注即不懂做官,服饰成为权力知识的载体
踩坑记录
- 原文UTF-8含CRLF,grep -nE 直接操作原文部分区域报编码错误(
'utf-8' codec can't decode byte),需iconv清洗后再grep - 第3轮"带"字命中138行,绝大多数为"带领""带有""地带"等非服饰用法,人工筛选工作量最大
- 第4轮"丝"字命中120行,"情丝""丝线""游丝"等比喻用法需大量剔除
- 第7轮"紫"字命中11行,仅1条(行346"红紫不可为礼服")为真正服色相关
- 小说中"衣"字82行命中,近半数为"衣食""衣不解带""衣冠"等非具体服饰描述
审核结果
全部通过 ✅ — 原文均从清洗后文本中grep提取,有明确行号对应。3份MD文件均≤20KB。