《苏六娘》服饰提取日志
基本信息
- 输入文件:/home/z/my-project/upload/剧曲/剧曲/苏六娘.txt
- 总行数:1250行
- 输出目录:/home/z/my-project/upload/剧曲output/苏六娘/
检索过程
第一轮:关键词频次统计
| 关键词 | 命中行数 | 备注 |
|---|---|---|
| 衣 | 16 | 含"衣裳"等 |
| 裳 | 12 | 含"衣裳"等 |
| 袍 | 10 | 曲牌名"皂罗袍"占多数 |
| 袂 | 20 | 多为闽粤方言"袂得""袂好"=不能,非服饰义 |
| 罗 | 20 | 含曲牌名"皂罗袍""香罗带"及"罗帐""罗帕""罗绫" |
| 绣 | 12 | 含"绣帘""绣房""绣筐""绣床"及曲牌名"绣停针" |
| 带 | 14 | 含曲牌名"香罗带"及"头带"等 |
| 裘 | 4 | "裘衫"2处×2=4 |
| 裙 | 2 | "裙裾" |
| 环 | 2 | "含环" |
| 绫 | 2 | "罗绫" |
| 帐 | 2 | "罗帐" |
| 冠 | 2 | "珠冠" |
| 练 | 2 | 非服饰义 |
| 布 | 2 | "织布" |
| 麻 | 2 | 曲牌名"黑麻序" |
| 丝 | 2 | 非服饰义 |
| 裾 | 2 | "裙裾" |
第二轮:噪音过滤
主要噪音源:
- "袂"20行:闽粤方言词"袂得""袂好""袂改拆"等,意为"不能",全非服饰义,全部过滤
- "袍"10行:8行为曲牌名"皂罗袍",2行非服饰义
- "罗"中曲牌名:皂罗袍、香罗带,非实指服饰
- "绣"中曲牌名:绣停针,非实指服饰
- "麻"2行:曲牌名"黑麻序"
- "带"中"香罗带"为曲牌名
过滤后实际服饰内容约10条独立描述。
第三轮:去重处理
剧本结构为前后两半重复(前640行与后610行),服饰内容几乎完全重复。处理方式:
- 合并相同内容为一条,标注双行号
- 曲牌名单独列出,不计入正文统计
关键发现
行427为全剧服饰描写最集中处:"贴肉裘衫透底新,上盖衣裳要罗绫;头带珠冠龙凤髻,含环诸般要是金"——由内到外、由头到身,完整展现潮汕婚嫁服饰层次。
输出文件
- 苏六娘_服饰总结.md — 服饰类别总结表
- 苏六娘_原文提取.md — 逐条原文摘录
- 苏六娘_日志.md — 本文件
文件大小检查
- 总结:约5KB ✓(≤20KB)
- 原文提取:约4KB ✓(≤20KB)
- 日志:约3KB ✓(≤20KB)