《孽海花》服饰内容提取 · 日志
时间:2026-04-17 任务:提取《孽海花》TXT全文中服饰相关内容,整理分类总结
操作流程
Step 1: 读取参考模板
读取 /home/z/my-project/upload/参考/ 总结.md、日志.md、原文提取.md
→ 确认输出格式:总结(分类分析)、日志(操作记录)、原文提取(带行号原文)
Step 2: 文件预处理
wc -l 孽海花.txt → 552行
file 孽海花.txt → UTF-8, very long lines (最长19490字符), CRLF
iconv -f UTF-8 -t UTF-8 -c → 清理编码问题,存 /tmp/niehaihua_clean.txt
Step 3: 5轮Grep检索
第1轮-基础: 衣|裳|裘|冠|冕|弁|帽|巾|袍|裙|袂|褐|衫|褂|襦|袴|裤|帔|履|靴|舄|鞋|袜
→ 140条匹配(因行长极长,每行含大量文本)
第2轮-丝织: 锦|绮|帛|绢|绫|罗|缎|绸|纱|缂丝|缯|纨
→ 命中纱衫、纱马褂、香云纱、白纱、纱袍褂、彩绢、锦衾、轻绡、漳绒、缂丝等
第3轮-等级: 舆服|服色|冠服|章服|法服|朝服|祭服|常服|公服|吉服|丧服|品色|赐紫|赐绯
→ 命中吉服、朝衣朝帽、朝珠补褂、凤冠霞帔
第4轮-配饰: 笏|鱼袋|革带|玉带|金带|银带|幞头|凤冠|步摇|簪|钗|钏|镯|佩|玉佩|霞帔|帔帛|披帛
→ 命中凤冠、霞帔、簪(钻石簪)、钏、钗、镯、汉玉带钩
第5轮-纺织: 绵|布|葛|麻|苎|棉|染|织|绣|纹|黼|黻
→ 命中葛纱、夏布、织(满绣金花)、绣(绣枕)、纹(芝麻地大牡丹花)等
补充检索: 马褂|长衫|西装|洋装|欧装|斗篷|团扇|鼻烟壶|朝珠|花翎|蓝顶|钻石|猫儿眼
→ 补充大量关键片段
Step 4: 筛选有效片段
- 排除:纯语境中的"衣"(如"衣锦还乡"为成语,但保留因含服饰文化意义)
- 排除:泛指"衣服""穿衣"等无具体描写者
- 保留:有具体面料、款式、色彩、配饰描写的片段
- 保留:有服饰文化意义(等级、中西对比)的片段
- 最终筛选出 28处 有效服饰描写
Step 5: 分类整理
按7大类整理: 1. 文人日常服饰(6处) 2. 梨园优伶服饰(3处) 3. 命妇婚嫁服饰(2处) 4. 洋装与中西交融(7处) 5. 官场仪仗服饰(5处) 6. 特殊场景服饰(6处) 7. 面料与纹饰/首饰配件(汇总表)
Step 6: 对抗式审查
- ✅ 凤冠霞帔描写(第168行)——确认原文准确
- ✅ 钻石簪为白金底八宝攒珠——确认细节无误
- ✅ 香云纱大衫描写——确认藕粉色配宝蓝韦陀银一线滚
- ✅ 法国太太穿朝珠补褂——确认出处第501行
- ✅ 漳绒马褂为珠公子所穿——确认第378行
Step 7: 写入3个MD文件
- 孽海花_总结.md — 分类分析
- 孽海花_日志.md — 本文件
- 孽海花_原文提取.md — 带行号原文
关键发现
- 中西服饰交融是全书最突出的服饰特征——从上海租界的"短衣硬领"到欧洲的"纯黑衣裙",再到法国太太穿"朝珠补褂",服饰成为文化碰撞的核心载体
- 彩云是全书服饰描写最丰富的人物——凤冠霞帔(出嫁)、欧装出游(德国)、西装居家(俄国)、钻石簪与宝石箱(瓦德西赠),贯穿始终
- 面料词汇极具时代特征——香云纱(岭南)、漳绒(福建)、缂丝(苏杭)为中国传统名产;大呢、细毡、乳貂为欧洲面料
- 服饰等级争议——彩云出身妓家戴凤冠霞帔被议论"越礼",反映了服饰等级与出身等级的矛盾
- 仑樵典当纱袍——穷翰林以袍子换饭钱,服饰与仕途经济的关联
关键踩坑记录
- 原文件UTF-8编码有坏字节,需iconv -c清理
- 行极长(最长19490字符),grep -E复杂正则超时,改用Grep工具分步检索
- grep -n返回行号与实际段落对应,但每行包含大量文本,提取时需精确定位关键句
- "衣锦还乡"为成语但含服饰文化意义,予以保留
- 部分服饰词如"布""织"泛指太多,需结合上下文筛选
审核结果
全部通过 ✅ — 原文均从孽海花.txt中grep提取,有明确行号对应。28处有效服饰描写均已归入相应类别。