六十种曲玉环记 — 服饰提取日志
任务信息
- 输入文件:/home/z/my-project/upload/剧曲/剧曲/六十种曲玉环记.txt
- 输出目录:/home/z/my-project/upload/剧曲output/六十种曲玉环记/
- 处理时间:2026-03-05
处理步骤
Step 1: 行数统计
wc -l 六十种曲玉环记.txt
# 结果: 1437行
Step 2: 关键词频次扫描
逐词统计55个服饰关键词出现次数,有效命中31个关键词,24个关键词(屦、绅、弁、冕、珥、绢、帛、缎、缯、绫、纨、绡、绂、黼、黻、鹖、帻、帷、幄、旆等)零命中。
Step 3: 全文grep
rg -n '衣|裳|冠|带|袍|裘|褐|巾|履|屦|绅|袂|裾|襟|裙|幅|弁|冕|簪|珥|佩|环|绮|罗|纱|绢|帛|锦|绣|练|絮|布|麻|丝|绸|缎|缯|绫|纨|绡|绶|绂|黼|黻|鹖|帻|帷|帐|幄|旗|旌|旆|纛' 六十种曲玉环记.txt
# 结果: 169行
Step 4: 复合词精细搜索
rg -n '衣裳|衣冠|衣带|衣锦|锦衣|儒衣|儒冠|锦袍|紫罗袍|布衣|绣绒|绣帘|绣褥|佩环|簪缨|锦帐|罗衣|旌旗|锦征袍|茜红巾|玉带|狐裘|儒裘|纨扇|绮罗|裙钗|征纛|锦衣还|锦衣旋' …
筛得63条有效服饰行。
Step 5: 噪音过滤
排除以下非服饰语义:
- "环"→玉环(信物/人名,非佩饰)
- "锦绣"→锦绣江山(比喻,非织物)
- "绸缪"→永效绸缪(情感,非丝织)
- "絮叨"→絮叨叨(言语,非絮衣)
- "旗牌""旗牌官"(职官名,非旗帜)
Step 6: 输出文件
| 文件 | 大小 | 内容 |
|---|---|---|
| 01_总结.md | ~4KB | 服饰内容分类总结 |
| 02_原文提取.md | ~7KB | 逐条原文引用 |
| 03_日志.md | ~2KB | 本文件 |
关键词命中明细
| 关键词 | 次数 | 有效服饰 | 关键词 | 次数 | 有效服饰 |
|---|---|---|---|---|---|
| 衣 | 47 | ✓ 约30条 | 锦 | 27 | ✓ 约8条 |
| 环 | 20 | △ 仅1条(佩环) | 带 | 19 | ✓ 约3条 |
| 罗 | 15 | ✓ 约3条 | 帐 | 15 | ✓ 约3条 |
| 旗 | 14 | ✓ 约5条 | 绣 | 14 | ✓ 约5条 |
| 旌 | 10 | ✓ 约4条 | 袍 | 10 | ✓ 约4条 |
| 冠 | 10 | ✓ 约3条 | 裘 | 7 | ✓ 约4条 |
| 布 | 7 | ✓ 约2条 | 絮 | 9 | △ 0条(均非服饰) |
| 丝 | 6 | △ 1条 | 簪 | 4 | ✓ 约2条 |
| 纱 | 4 | △ 0条 | 襟 | 5 | ✓ 约3条 |
| 佩 | 5 | ✓ 约2条 | 绮 | 2 | ✓ 1条 |
| 绶 | 2 | ✓ 1条 | 裙 | 2 | ✓ 2条 |
| 袂 | 3 | ✓ 2条 | 巾 | 3 | ✓ 1条 |
| 绸 | 3 | △ 0条 | 裳 | 1 | ✓ 1条 |
| 履 | 1 | △ 0条 | 练 | 1 | △ 0条 |
| 纨 | 1 | ✓ 1条 | 纛 | 1 | ✓ 1条 |
质量检查
- ✓ 所有引用均为原文,未转述
- ✓ grep验证每条提取均可回溯
- ✓ 未加载整本TXT,按行提取
- ✓ 输出文件均≤20KB
- ✓ 总输出≤1MB