《霓裳续谱》服饰提取日志

基本信息

  • 书名:霓裳续谱
  • 输入文件:/home/z/my-project/upload/剧曲/剧曲/霓裳续谱.txt
  • 输出目录:/home/z/my-project/upload/剧曲output/霓裳续谱/
  • 文件总行数:1389

处理流程

第一步:wc -l 查总行数

  • 结果:1389行

第二步:多轮 grep -n 提取服饰关键词行号

使用48个服饰关键词(衣、裳、冠、带、袍、裘、褐、巾、履、屦、绅、袂、裾、襟、裙、幅、弁、冕、簪、珥、佩、环、绮、罗、纱、绢、帛、锦、绣、练、絮、布、麻、丝、绸、缎、缯、绫、纨、绡、绶、绂、黼、黻、鹖、帻、帷、帐、幄、旗、旌、旆、纛)进行全文grep。

初步grep命中总行数:407行(791次命中)

各关键词命中行数统计:
| 关键词 | 行数 | 关键词 | 行数 | 关键词 | 行数 |
|--------|------|--------|------|--------|------|
| 绣 | 99 | 罗 | 91 | 带 | 69 |
| 衣 | 62 | 纱 | 54 | 丝 | 44 |
| 帐 | 36 | 锦 | 31 | 裳 | 25 |
| 绫 | 24 | 絮 | 23 | 裙 | 22 |
| 环 | 18 | 布 | 16 | 簪 | 15 |
| 麻 | 14 | 绸 | 8 | 袂 | 8 |
| 巾 | 10 | 冠 | 8 | 旗 | 8 |
| 袍 | 6 | 佩 | 5 | 绮 | 2 |
| 襟 | 3 | 绡 | 3 | 练 | 1 |
| 缎 | 1 | 纨 | 1 | 旌 | 1 |

零命中关键词:裘、褐、履、屦、绅、裾、幅、弁、冕、珥、帛、缯、绶、绂、黼、黻、鹖、帻、帷、幄、旆、纛

第三步:噪音过滤

初步grep命中的407行中含有大量非服饰用法,需过滤:

典型噪音模式
- "纱窗"(建筑构件,非服饰纱料):约30行
- "一带秋山""带着""带绿"(非服饰"带"):约40行
- "情丝""丝儿""丝桐"(非服饰"丝"):约25行
- "柳絮"(非服饰"絮"):约20行
- "绣口锦心""雕龙绣虎"(文学比喻,非实指刺绣):约5行
- "桑麻"(农作物,非服饰"麻"):约5行
- "布袋罗汉"(佛教名,非服饰"布"):约2行
- "衣钵"(佛教术语,非实指衣服):1行
- "旗"多用于"酒旗"(非服饰旗帜):约6行

过滤后实际服饰相关行约180行。

第四步:分类提取原文

将过滤后的服饰相关内容按以下类别整理:
1. 衣衫类(罗衣、罗衫、锦衣、征衣等)
2. 裙裳类(罗裙、湘裙、裙带等)
3. 鞋履类(绣鞋、红绣鞋、花鞋、金莲等)
4. 带类(罗带、绣带、鸳鸯带等)
5. 冠帽类(乌纱小帽、珠冠等)
6. 簪钗环佩类(玉簪、金钗、步摇等)
7. 帷帐寝具类(芙蓉帐、锦帐、销金帐等)
8. 织物原料类(绮罗、红绫、冰纱等)
9. 特殊服饰(袈裟、素道袍、蓑衣等)

第五步:生成输出文件

  • 霓裳续谱_总结.md:分类总结分析
  • 霓裳续谱_原文提取.md:按类别辑录原文
  • 霓裳续谱_日志.md:本文件

关键发现

  1. 高频服饰词:绣(99)、罗(91)远超其他词,但"绣"大量用于"绣帏""绣枕""绣鞋"等闺阁织物泛称,"罗"多用于"罗衣""罗帏""罗裙"等,均为实指服饰/织物。

  2. 零命中词:裘、褐、履、屦、绅、裾、幅、弁、冕、珥、帛、缯、绶、绂、黼、黻、鹖、帻、帷、幄、旆、纛等22个关键词全书无服饰用法,反映该书以市井闺阁为主题,不涉及礼制服饰(冕、弁、黼、黻等)和军用服饰(纛、旆等)。

  3. 核心服饰意象链:衣宽→钗落→帐冷→鞋小,构成完整的相思闺怨文学服饰符号体系。

  4. 缠足文化:红绣鞋、三寸金莲、缠脚带等描写极为突出,多首曲子以绣鞋为定情信物。

  5. 万寿庆典服饰:卷末"万寿庆典"部分记载演出服饰规制,如"穿彩衣彩裙,各手拿扇子汗巾""身穿红道袍,孩儿发金箍",具有史料价值。

文件大小校验

各输出文件均控制在20KB以内:
- 霓裳续谱_总结.md:约8KB
- 霓裳续谱_原文提取.md:约12KB
- 霓裳续谱_日志.md:约4KB