《荔镜记荔枝记》服饰内容提取日志

基本信息

项目 内容
书名 荔镜记荔枝记
输入文件 /home/z/my-project/upload/剧曲/剧曲/荔镜记荔枝记.txt
输出目录 /home/z/my-project/upload/剧曲output/荔镜记荔枝记/
总行数 3385
处理时间 2026-03-05

处理流程记录

第一步:查总行数

wc -l → 3385行

第二步:多轮grep提取服饰关键词

共执行7轮关键词grep,逐词扫描全部46个服饰关键词:

轮次 关键词 命中行数 服饰义行数
第1轮 衣、裳、冠、带、袍、裘、褐 衣17、裳3、冠4、带30+、袍7、裘1、褐0 需过滤
第2轮 巾、履/屦、绅/袂/裾/襟、裙、弁/冕、簪/珥/佩/环 巾0、履1、裾1、襟2、裙3、佩0、环2 多数无命中
第3轮 绮/罗/纱/绢/帛/锦/绣/练/絮 罗8、纱4、绢2、帛1、锦15+、绣12+、絮1 曲牌名需过滤
第4轮 布/麻/丝/绸/缎/缯/绫/纨/绡 布3、丝3 其余无命中
第5轮 绶/绂/黼/黻/鹖/帻/帷/帐/幄/旗/旌/旆/纛 帐5、旗2 其余无命中
第6轮 0
第7轮 补充grep:珠冠/金钗/凤髻/弓鞋/帽/靴/鞋/梳妆/打扮/衫/袖/袄/帕/帛/脚帛/绣帔/御罗/番罗 大量补充命中

第三步:过滤噪音

以下命中行经判定为非服饰义,已排除:

关键词 行号 噪音类型 排除理由
430 "带腰刀" 武器,非服饰带
907 "马牵带" 动词"带领"
1091/1096/1216/1295/1340 "带利/带累/搭带" 闽南语"连累"义
1522/1567/1742/1929/2090/2172 "留带/带枝/带疑/带疑/带只处/带疑" 动词/副词语法功能
2284/2404/2472/2847/2849/2897/2909 "带着/带你/耽带/带着/带着/带着/带累" 闽南语动词
2956/2968/2970/3067/3092/3117/3179/3239/3249 "带着/带的/带着/带笔砚/带着/带返/带有/带着/带着" 动词语法功能
244/1006/1682/1952/2292/2758/3085 【皂罗袍】 曲牌名,非服饰
380/381/421/449/450/451/607/659/665/920/933/935/960/1040/1137/1140/1150/1166/1230/1331/1467/1578/1644/1670/1676/1692/1712/1723/1756/1772/1849/1885/1940/1976/1979/1980/2005/2006/2017/2018/2088/2115/2308/2415/2424/2542/2586/2679/2760/2845/2889/2997/3084/3089/3113/3170/3177 "袂" 闽南语否定词"不会",非"袖子"义
1701/3335 "衔环(含环)" 成语"结草衔环",非服饰环
509 "风前挂酒旗" 酒旗为商铺标识,非军旗
1331 "绣帔"保留 服饰义,保留
2151 "飞柳絮" 自然物,非衣絮
78 "襟怀慷慨" "襟怀"为胸襟义,但与服饰关联保留
2515 "脚帛" 缠足裹脚布,保留

第四步:上下文提取

对关键行号执行sed -n提取上下文,验证原文:
- sed -n '2965,2975p':验证金首饰上下文
- sed -n '2925,2935p':验证【香罗带】上下文
- sed -n '1100,1110p':验证"衫仔"上下文
- sed -n '2510,2520p':验证"脚帛"上下文
- sed -n '895,910p':验证"绿罗衣"上下文

第五步:输出文件生成

文件名 大小 内容
荔镜记荔枝记_总结.md ≤20KB 服饰分类分析与闽南特色总结
荔镜记荔枝记_原文提取.md ≤20KB 按类别分组的原文引录
荔镜记荔枝记_日志.md ≤20KB 本日志

关键发现

  1. 本书为闽南方言戏文,"袂"字出现极高频(60+行)但均为闽南语否定词"不会",非服饰"袖子"义,为最大噪音源
  2. "带"字多义性:30+行命中中仅6行属服饰义(金带、冠带),其余为动词"带着/带领/连累"
  3. 【皂罗袍】为曲牌名,出现7次,非服饰描写
  4. 弓鞋/脚帛为闽南缠足文化重要证据
  5. 金钗为核心道具,贯穿全剧礼聘、拒婚、赠别、赎身等情节
  6. 刺绣文化描写极为丰富,第二十六出"五娘刺绣"为集中展现

关键词未命中清单

以下24个关键词在本书中无服饰义命中:
巾、褐、绅、弁、冕、簪、珥、佩、幅、绶、绂、黼、黻、鹖、帻、帷、幄、旌、旆、纛、绮、练、缎、缯、绫、纨、绡

质量控制

  • [x] 全部引用原文,未转述
  • [x] 每条原文标注行号,可复核
  • [x] grep验证每条提取
  • [x] 未加载整本TXT,仅用grep+sed逐段提取
  • [x] 三份MD均≤20KB
  • [x] 噪音已过滤(袂=不会、带=动词、皂罗袍=曲牌等)