《霓裳续谱》服饰提取日志
基本信息
- 书名:霓裳续谱
- 输入文件:/home/z/my-project/upload/剧曲/剧曲/霓裳续谱.txt
- 输出目录:/home/z/my-project/upload/剧曲output/霓裳续谱/
- 文件总行数:1389
处理流程
第一步:wc -l 查总行数
- 结果:1389行
第二步:多轮 grep -n 提取服饰关键词行号
使用48个服饰关键词(衣、裳、冠、带、袍、裘、褐、巾、履、屦、绅、袂、裾、襟、裙、幅、弁、冕、簪、珥、佩、环、绮、罗、纱、绢、帛、锦、绣、练、絮、布、麻、丝、绸、缎、缯、绫、纨、绡、绶、绂、黼、黻、鹖、帻、帷、帐、幄、旗、旌、旆、纛)进行全文grep。
初步grep命中总行数:407行(791次命中)
各关键词命中行数统计:
| 关键词 | 行数 | 关键词 | 行数 | 关键词 | 行数 |
|--------|------|--------|------|--------|------|
| 绣 | 99 | 罗 | 91 | 带 | 69 |
| 衣 | 62 | 纱 | 54 | 丝 | 44 |
| 帐 | 36 | 锦 | 31 | 裳 | 25 |
| 绫 | 24 | 絮 | 23 | 裙 | 22 |
| 环 | 18 | 布 | 16 | 簪 | 15 |
| 麻 | 14 | 绸 | 8 | 袂 | 8 |
| 巾 | 10 | 冠 | 8 | 旗 | 8 |
| 袍 | 6 | 佩 | 5 | 绮 | 2 |
| 襟 | 3 | 绡 | 3 | 练 | 1 |
| 缎 | 1 | 纨 | 1 | 旌 | 1 |
零命中关键词:裘、褐、履、屦、绅、裾、幅、弁、冕、珥、帛、缯、绶、绂、黼、黻、鹖、帻、帷、幄、旆、纛
第三步:噪音过滤
初步grep命中的407行中含有大量非服饰用法,需过滤:
典型噪音模式:
- "纱窗"(建筑构件,非服饰纱料):约30行
- "一带秋山""带着""带绿"(非服饰"带"):约40行
- "情丝""丝儿""丝桐"(非服饰"丝"):约25行
- "柳絮"(非服饰"絮"):约20行
- "绣口锦心""雕龙绣虎"(文学比喻,非实指刺绣):约5行
- "桑麻"(农作物,非服饰"麻"):约5行
- "布袋罗汉"(佛教名,非服饰"布"):约2行
- "衣钵"(佛教术语,非实指衣服):1行
- "旗"多用于"酒旗"(非服饰旗帜):约6行
过滤后实际服饰相关行约180行。
第四步:分类提取原文
将过滤后的服饰相关内容按以下类别整理:
1. 衣衫类(罗衣、罗衫、锦衣、征衣等)
2. 裙裳类(罗裙、湘裙、裙带等)
3. 鞋履类(绣鞋、红绣鞋、花鞋、金莲等)
4. 带类(罗带、绣带、鸳鸯带等)
5. 冠帽类(乌纱小帽、珠冠等)
6. 簪钗环佩类(玉簪、金钗、步摇等)
7. 帷帐寝具类(芙蓉帐、锦帐、销金帐等)
8. 织物原料类(绮罗、红绫、冰纱等)
9. 特殊服饰(袈裟、素道袍、蓑衣等)
第五步:生成输出文件
- 霓裳续谱_总结.md:分类总结分析
- 霓裳续谱_原文提取.md:按类别辑录原文
- 霓裳续谱_日志.md:本文件
关键发现
-
高频服饰词:绣(99)、罗(91)远超其他词,但"绣"大量用于"绣帏""绣枕""绣鞋"等闺阁织物泛称,"罗"多用于"罗衣""罗帏""罗裙"等,均为实指服饰/织物。
-
零命中词:裘、褐、履、屦、绅、裾、幅、弁、冕、珥、帛、缯、绶、绂、黼、黻、鹖、帻、帷、幄、旆、纛等22个关键词全书无服饰用法,反映该书以市井闺阁为主题,不涉及礼制服饰(冕、弁、黼、黻等)和军用服饰(纛、旆等)。
-
核心服饰意象链:衣宽→钗落→帐冷→鞋小,构成完整的相思闺怨文学服饰符号体系。
-
缠足文化:红绣鞋、三寸金莲、缠脚带等描写极为突出,多首曲子以绣鞋为定情信物。
-
万寿庆典服饰:卷末"万寿庆典"部分记载演出服饰规制,如"穿彩衣彩裙,各手拿扇子汗巾""身穿红道袍,孩儿发金箍",具有史料价值。
文件大小校验
各输出文件均控制在20KB以内:
- 霓裳续谱_总结.md:约8KB
- 霓裳续谱_原文提取.md:约12KB
- 霓裳续谱_日志.md:约4KB