《珍珠舶》服饰提取日志
基本信息
- 输入文件:/home/z/my-project/upload/part3/珍珠舶.txt
- 文件大小:510,202字节,1,191行
- 输出目录:/home/z/my-project/upload/3小说output/珍珠舶/
- 处理日期:2026-03-04
六轮Grep搜索
第1轮:上衣类(衣裳袍衫褂袄裘蓑)
- 搜索模式:
衣[裳袍衫褂襟袖领边裾] + 裙|袍|衫|褂|袄|裘|蓑
- 命中行数:约30行(去重后约15处有效服饰描写)
- 主要发现:衣衫褴褛、破夏布衣、花绣罗衫、黑罗衫子、衬里衣衫、宫袍换绿、裘敝黑貂、青衫、戒衲
第2轮:冠帽类(冠帽巾帻弁笠)
- 搜索模式:
冠|帽|巾|帻|弁|笠
- 命中行数:约20行
- 主要发现:方巾、纱帽、红缨满帽、凤冠、綦巾、钵笠
- 误判过滤:冠婚丧祭("冠"为加冠礼,非服饰)、冠冕(形容词)——保留因含服饰信息
第3轮:首饰类(簪钗环钏镯佩珮珠翠)
- 搜索模式:
簪|钗|环|钏|镯|佩|珮|珠翠|首饰|钗环
- 命中行数:约20行
- 主要发现:玉燕钗(核心信物)、钗环典押、金钗十二、簪珥易米、簪花、鬓簪海棠、衣饰珠翠、环珮珊珊
- 误判过滤:环珮珊珊中"环珮"为玉佩声,归入首饰类
第4轮:鞋袜类(鞋袜履靴屐屦)
- 搜索模式:
鞋|袜|履|靴|屐|屦
- 命中行数:约8行
- 主要发现:鞋袜(手工制作)、青布快鞋、皂靴、足蹑苏秦之履
第5轮:布料类(带绦丝锦绸缎绢绫罗纱布葛)
- 搜索模式:
带|绦|丝|锦|绸|缎|绢|绫|罗|纱|绢|布|葛
- 命中行数:约140行(大量噪声)
- 过滤后有效:花纱一疋、白布二疋、青布二丈、绵绸一匹、锦缎四疋、夏布、玄缎、黑绒镶领
- 误判过滤:带(带领/带去)、丝(细丝银两)、布帘/布帆/布包(非服饰)等
第6轮:组合精确搜索
- 搜索模式:
凤冠|霞帔|罗衫|宫袍|锦被|绣裙|戒衲|马衣|纱帽|方巾|皂靴|红缨|黑罗|蓝布|花纱|黑绒
- 命中行数:约25行
- 精确度高,几乎无噪声
Sed提取与过滤
- 未单独使用sed,因grep结果已足够精确定位
- 对每条grep结果进行人工审查,判断是否为真实服饰描写
审查过滤规则
| 规则 |
说明 |
示例 |
| 排除比喻用衣 |
"作牛衣泣"为典故比喻 |
保留但在总结中注明 |
| 排除非服饰布 |
布帘、布帆、布包非穿戴物 |
已过滤 |
| 排除银两"细丝" |
"雪花细丝"指银两非丝织品 |
已过滤 |
| 保留"蓑衣"比喻 |
"像蓑衣着雨"虽为比喻但含服饰信息 |
保留 |
| 保留诗中服饰 |
"泪湿青衫""裘敝黑貂"为诗中服饰意象 |
保留 |
| 去除重出文本 |
第641行起为「」引号版本重出 |
以首次出现为准 |
最终有效服饰条目:约30处
产出文件
| 文件名 |
内容 |
大小限制 |
| 珍珠舶_总结.md |
服饰分类总结 |
≤20KB |
| 珍珠舶_日志.md |
本文件,提取过程日志 |
≤20KB |
| 珍珠舶_原文提取.md |
服饰相关原文摘录 |
≤20KB |