《六十种曲千金记》服饰提取日志

基本信息

项目 内容
输入文件 /home/z/my-project/upload/剧曲/剧曲/六十种曲千金记.txt
输出目录 /home/z/my-project/upload/剧曲output/六十种曲千金记/
文件行数 1035行
处理时间 2026-03-05
文件大小 输出三份MD,每份≤20KB

提取流程

第一轮:wc -l 行数确认

  • 命令:wc -l 六十种曲千金记.txt
  • 结果:1035行
  • 评估:文件规模适中,可直接全文处理

第二轮:多轮关键词grep

轮次1:基础服饰词(衣裳冠带袍裘褐巾履屦绅袂裾襟裙幅弁冕簪珥佩环)

  • 命令:grep -n '衣裳|冠带|袍|裘|褐|巾|履|屦|绅|袂|裾|襟|裙|幅|弁|冕|簪|珥|佩|环'
  • 命中行数:约20行
  • 主要发现:衣锦(8次)、袍(8次)、裘(3次)、裙(3次)、佩/环(5次)、袂(2次)、襟裾(1次)

轮次2:织物材质词(绮罗纱绢帛锦绣练絮布麻丝绸缎缯绫纨绡绶绂黼黻)

  • 命令:grep -n '绮|罗|纱|绢|帛|锦|绣|练|絮|布|麻|丝|绸|缎|缯|绫|纨|绡|绶|绂|黼|黻'
  • 命中行数:约45行
  • 主要发现:锦(15+次)、布(12+次)、絮(6次)、绮罗(3次)、绫罗/绢帛(3次)

轮次3:旗帜帷帐词(鹖帻帷帐幄旗旌旆纛)

  • 命令:grep -n '鹖|帻|帷|帐|幄|旗|旌|旆|纛'
  • 命中行数:约18行
  • 主要发现:旌旗(15+次)、旗纛(1次)、帐(5次)、旌斾(1次)

轮次4:扩展军戎服饰词(兜鍪/盔甲/甲胄/披挂/战袍/征袍等)

  • 命令:grep -n '兜鍪|盔甲|甲胄|披挂|战袍|征袍|霞帔|凤冠|鲛绡|蓑衣|罗襕|纶巾|冠带|纱帽|头巾|蟒衣'
  • 命中行数:约12行
  • 主要发现:兜鍪(3次)、盔甲(2次)、甲胄(1次)、征袍/战袍(5次)、霞帔凤冠(1次)、纶巾(1次)

轮次5:官服仪礼词(玉带/金印/官诰/红裙/绛裙等)

  • 命令:grep -n '玉带|金印|官诰|鸾诰|红裙|绛裙|裙幅|衣衫|衣锦|布衣|锦衣|韦布'
  • 命中行数:约30行
  • 主要发现:衣锦(8次)、锦衣(6次)、布衣(3次)、韦布(1次)

轮次6:女性妆饰词(红妆/梳掠/香奁/晓妆/菱花/鸦翅/鬓/钗)

  • 命令:grep -n '红妆|梳掠|香奁|晓妆|菱花|鸦翅|鬓|钗|玉带|金锁铠|铁兜鍪|宫袍|昼锦|玉印'
  • 命中行数:约15行
  • 主要发现:钗(2次)、鬓(6次)、红妆(2次)、菱花(1次)

第三轮:噪音过滤

已过滤的噪音项:

类型 原文 过滤原因
曲牌名 皂罗袍 曲牌名,非服饰
曲牌名 红衲袄 曲牌名,非服饰
曲牌名 破阵子 曲牌名,非服饰
曲牌名 锦堂犯画眉序 曲牌名,非服饰
曲牌名 滚绣球 曲牌名,非服饰
比喻用法 锦绣粱肉 比喻,非实指服饰
通假/俗语 絮叨叨 絮为絮叨义,非絮衣
通假/俗语 絮刮 絮为絮叨义
非服饰 丝纶(钓线) 丝纶指钓线/纶线,非服饰布料
非服饰 绸缪 绸缪为情意缠绵义,非绸缎
非服饰 衣饭 衣饭指生计,非具体衣饰
通用语 锦绣裹旗鎗 军旗装饰,已归入旌旗类

第四轮:整理分类

将提取结果按以下维度分类:
1. 贫贱布衣类:布衣、布袍、韦布、衣衫蓝缕、破损衣衫
2. 军旅甲胄类:盔甲、征袍、战袍、兜鍪、铁甲、金锁铠、甲胄
3. 功成锦衣类:锦衣、锦袍、宫袍、衣锦、紫罗襕、绯罗紫绶
4. 女性服饰类:裙钗、红裙、绛裙、霞帔凤冠、佩环、钗
5. 织物材料类:布疋、布帛绵絮、绫罗、绢帛、丝麻、絮
6. 仪仗旗帜类:旌旗、旗纛、旌斾、帐幕
7. 配饰类:玉带、纶巾、瑶环、鲛绡、裘

输出文件清单

文件名 大小 内容
六十种曲千金记_总结.md ~8KB 服饰主题分析、统计、特色
六十种曲千金记_原文提取.md ~12KB 按出目编排的原文摘录
六十种曲千金记_日志.md ~6KB 提取流程与过滤记录

质量检查

  • [x] 总输出≤1M
  • [x] 每份MD≤20KB
  • [x] 关键词覆盖全部词库
  • [x] 噪音已过滤
  • [x] 原文保留上下文
  • [x] 标注行号与关键词