《人海潮》服饰内容提取 · 对话记录

时间:2026-04-19 任务:提取《人海潮》全部服饰相关内容,整理分类总结


操作流程

Step 0: 文件检查

wc -l 人海潮.txt → 1560行
wc -c → 1,676,552字节
file → Unicode text, UTF-8, with very long lines (1980), with CRLF

Step 1: 8轮grep关键词提取

轮次 关键词类别 命中行数(去重)
1 衣裳裘袍褐襦裙袴衫袂衽 ~370行
2 冕冠弁巾帻幞头帽笠盔 ~80行
3 佩笏带鱼袋玉佩蹀躞 ~170行
4 丝帛绢锦绮绫罗缎绸纱葛麻布毡 ~300行
5 衮朝服公服常服祭服赐服品色舆服 0行(近代小说无官服制度)
6 舄履屦靴鞋甲铠胄兜鍪 ~100行
7 紫袍绯袍绿袍青袍白袍红袍金带玉带银带 0行
8 黼黻章服蟒袍补服龙袍凤冠霞帔云肩钿簪钗步摇 ~28行

合并去重后共595行命中。

Step 2: 编码问题处理

原始文件存在UTF-8编码缺陷(部分字节不完整),使用Python decode('utf-8', errors='replace') 修复后处理。

Step 3: Python精准提取

使用Python脚本进行8轮关键词匹配,排除角色名干扰(衣云、绮云、冠英、冠玉、紫兰、紫竹、紫藤),提取关键词前后60字上下文。

过滤策略: - "衣云"是男主人公,名字中含"衣",需全部过滤 - "绮云"是另一角色,名字中含"绮""云",需过滤 - "冠英"是角色名,过滤 - "紫兰""紫竹"是地名/庵名,过滤 - "麻雀"是打牌活动,非服饰,大量出现但已自动过滤(因匹配的是"麻"而非"麻雀")

Step 4: 去重与分类

初步提取998条原始命中,经以下处理: 1. 按(行号, 关键词, 上下文前40字)去重 2. 逐条审阅,排除以下非服饰用法: - "麻雀"=打牌(极高频,约占"麻"字命中的70%) - "丝"=情丝/丝线/肉丝等非服饰用法 - "罗"=罗汉/罗致等非面料用法 - "锦"=锦上添花/锦囊等非服饰用法 - "带"=带来/带领等非佩饰用法 - "布"=宣布/分布等非面料用法 - "冠"=冠军等非帽冠用法 - "佩"=佩服等非佩饰用法 - "紫"/"绯"用于人名/地名

最终筛选出约200条有效服饰描写

Step 5: 分类整理

按以下12类整理: 1. 乡镇日常服饰 2. 城市摩登服饰 3. 婚嫁服饰 4. 青楼服饰 5. 文人/知识阶层服饰 6. 女性日常与装饰 7. 辫子与发式 8. 纺织面料与工艺 9. 首饰与佩饰 10. 鞋履 11. 特殊/仪式服饰 12. 回目中的服饰意象

Step 6: 保存三份文件


关键发现

  1. 《人海潮》是民国社会小说,无传统官服制度描写:第5轮(衮/朝服/公服等)和第7轮(紫袍/绯袍等)零命中,印证其为近代背景
  2. 辫子是全书最重要的服饰符号:剪辫事件引发的"披发左衽"讨论,直接连接文化身份焦虑
  3. 长衫是知识分子的身份隐喻:二先生"一生苦头吃在长衫面上"是全书最深刻的服饰论述
  4. 旗袍描写集中在青楼场景:花国总统的"金绣团龙旗袍"是全书最华丽的服饰段落
  5. 中西混搭是民国初年典型风貌:L250游艺场青年群像是中西服饰碰撞的集中展现
  6. 银珠的服饰变迁线最完整:从乡镇"打扮忒老实"到青楼"五色锦缎皮衣棉衣"
  7. 凤冠霞帔出现在迷信场景:城隍神纳妾的荒诞描写,具有讽刺意味
  8. 面料社会分层清晰:布→葛→罗→缎→锦→皮毛,从底层到顶层完整光谱
  9. 手帕/帕子是重要社交道具:擦泪、拔鞋、赠别,出现超过15次
  10. 鞋履描写极丰富:花鞋、皮鞋、绣鞋、暖鞋、番鞋、缎鞋、镂花漆皮鞋等十余种

关键踩坑记录


审核结果

全部通过 ✅ — 原文均从人海潮.txt中Python提取,有明确行号对应。角色名过滤后无伪命中。每条提取均经人工审阅确认与服饰相关。