《六十种曲千金记》服饰提取日志
基本信息
| 项目 |
内容 |
| 输入文件 |
/home/z/my-project/upload/剧曲/剧曲/六十种曲千金记.txt |
| 输出目录 |
/home/z/my-project/upload/剧曲output/六十种曲千金记/ |
| 文件行数 |
1035行 |
| 处理时间 |
2026-03-05 |
| 文件大小 |
输出三份MD,每份≤20KB |
提取流程
第一轮:wc -l 行数确认
- 命令:
wc -l 六十种曲千金记.txt
- 结果:1035行
- 评估:文件规模适中,可直接全文处理
第二轮:多轮关键词grep
轮次1:基础服饰词(衣裳冠带袍裘褐巾履屦绅袂裾襟裙幅弁冕簪珥佩环)
- 命令:
grep -n '衣裳|冠带|袍|裘|褐|巾|履|屦|绅|袂|裾|襟|裙|幅|弁|冕|簪|珥|佩|环'
- 命中行数:约20行
- 主要发现:衣锦(8次)、袍(8次)、裘(3次)、裙(3次)、佩/环(5次)、袂(2次)、襟裾(1次)
轮次2:织物材质词(绮罗纱绢帛锦绣练絮布麻丝绸缎缯绫纨绡绶绂黼黻)
- 命令:
grep -n '绮|罗|纱|绢|帛|锦|绣|练|絮|布|麻|丝|绸|缎|缯|绫|纨|绡|绶|绂|黼|黻'
- 命中行数:约45行
- 主要发现:锦(15+次)、布(12+次)、絮(6次)、绮罗(3次)、绫罗/绢帛(3次)
轮次3:旗帜帷帐词(鹖帻帷帐幄旗旌旆纛)
- 命令:
grep -n '鹖|帻|帷|帐|幄|旗|旌|旆|纛'
- 命中行数:约18行
- 主要发现:旌旗(15+次)、旗纛(1次)、帐(5次)、旌斾(1次)
轮次4:扩展军戎服饰词(兜鍪/盔甲/甲胄/披挂/战袍/征袍等)
- 命令:
grep -n '兜鍪|盔甲|甲胄|披挂|战袍|征袍|霞帔|凤冠|鲛绡|蓑衣|罗襕|纶巾|冠带|纱帽|头巾|蟒衣'
- 命中行数:约12行
- 主要发现:兜鍪(3次)、盔甲(2次)、甲胄(1次)、征袍/战袍(5次)、霞帔凤冠(1次)、纶巾(1次)
轮次5:官服仪礼词(玉带/金印/官诰/红裙/绛裙等)
- 命令:
grep -n '玉带|金印|官诰|鸾诰|红裙|绛裙|裙幅|衣衫|衣锦|布衣|锦衣|韦布'
- 命中行数:约30行
- 主要发现:衣锦(8次)、锦衣(6次)、布衣(3次)、韦布(1次)
轮次6:女性妆饰词(红妆/梳掠/香奁/晓妆/菱花/鸦翅/鬓/钗)
- 命令:
grep -n '红妆|梳掠|香奁|晓妆|菱花|鸦翅|鬓|钗|玉带|金锁铠|铁兜鍪|宫袍|昼锦|玉印'
- 命中行数:约15行
- 主要发现:钗(2次)、鬓(6次)、红妆(2次)、菱花(1次)
第三轮:噪音过滤
已过滤的噪音项:
| 类型 |
原文 |
过滤原因 |
| 曲牌名 |
皂罗袍 |
曲牌名,非服饰 |
| 曲牌名 |
红衲袄 |
曲牌名,非服饰 |
| 曲牌名 |
破阵子 |
曲牌名,非服饰 |
| 曲牌名 |
锦堂犯画眉序 |
曲牌名,非服饰 |
| 曲牌名 |
滚绣球 |
曲牌名,非服饰 |
| 比喻用法 |
锦绣粱肉 |
比喻,非实指服饰 |
| 通假/俗语 |
絮叨叨 |
絮为絮叨义,非絮衣 |
| 通假/俗语 |
絮刮 |
絮为絮叨义 |
| 非服饰 |
丝纶(钓线) |
丝纶指钓线/纶线,非服饰布料 |
| 非服饰 |
绸缪 |
绸缪为情意缠绵义,非绸缎 |
| 非服饰 |
衣饭 |
衣饭指生计,非具体衣饰 |
| 通用语 |
锦绣裹旗鎗 |
军旗装饰,已归入旌旗类 |
第四轮:整理分类
将提取结果按以下维度分类:
1. 贫贱布衣类:布衣、布袍、韦布、衣衫蓝缕、破损衣衫
2. 军旅甲胄类:盔甲、征袍、战袍、兜鍪、铁甲、金锁铠、甲胄
3. 功成锦衣类:锦衣、锦袍、宫袍、衣锦、紫罗襕、绯罗紫绶
4. 女性服饰类:裙钗、红裙、绛裙、霞帔凤冠、佩环、钗
5. 织物材料类:布疋、布帛绵絮、绫罗、绢帛、丝麻、絮
6. 仪仗旗帜类:旌旗、旗纛、旌斾、帐幕
7. 配饰类:玉带、纶巾、瑶环、鲛绡、裘
输出文件清单
| 文件名 |
大小 |
内容 |
| 六十种曲千金记_总结.md |
~8KB |
服饰主题分析、统计、特色 |
| 六十种曲千金记_原文提取.md |
~12KB |
按出目编排的原文摘录 |
| 六十种曲千金记_日志.md |
~6KB |
提取流程与过滤记录 |
质量检查
- [x] 总输出≤1M
- [x] 每份MD≤20KB
- [x] 关键词覆盖全部词库
- [x] 噪音已过滤
- [x] 原文保留上下文
- [x] 标注行号与关键词