聊斋志异 服饰提取日志

任务信息

处理流程

步骤1: 文本预处理

步骤2: 六轮关键词检索(grep)

类别 关键词举例 命中
1 基本衣类 衣冠/锦衣/青衣/红衣/缞服/罗裙/道袍/貂裘/麻裙/布袍 113
2 冠帽首饰 峨冠/珠冠/高髻/明珰/金钗/翠凤/步摇/抹额/雉尾/上鬟 90
3 履带佩饰 吉莫靴/朱履/绣履/莲钩/革带/佩刀/环佩/锦裀/流苏 53
4 织物色彩 锦幕/绣幰/绛绡/翠裳/珊瑚/水晶/玳瑁/画灯/纱烛 48
5 具体服饰 紫衣人/衣绛绡/衣翠裳/绿袍白袜/袍服/泥衣/泥巾 32
6 妆容配饰 红妆/浓妆/粉黛/画黛/金腕钏/珠冠锦衣/粉白黛绿 50
- 六轮合并去重: 278条独立命中段落

步骤3: 评分过滤(sed提取)

步骤4: 分类审查

步骤5: 产出文件

文件 内容 大小
聊斋志异_总结.md 服饰分类总结与文化分析 <=20KB
聊斋志异_日志.md 提取流程详细记录 <=20KB
聊斋志异_原文提取.md 按类归整的服饰原文摘录 <=20KB

数据质量评估

  1. 检索覆盖度: 六轮覆盖衣/袍/裳/裙/冠/帽/履/靴/带/佩/锦/绣/罗/纱/妆/黛/珰/钏/翠/珠等20余语义域

  2. 误检率控制: 单字关键词需配合语境词; 评分机制过滤低信息量段落

  3. 漏检分析: (a)罕见服饰专称可能未被覆盖; (b)纯描述性服饰可能漏检; (c)异史氏评论中的服饰典故未专门提取

  4. 分类交叉: 多元素段落按首要特征归一类, 其余标签保留于关键词字段

提取过程详录

  1. 首轮grep: rg -n搜索衣/袍/裳/裙/衫/裘/褂/袄, 命中440行, 截取前200行存round1.txt

  2. 二轮grep: 搜索冠/帽/巾/帻/簪/珥/钗/环佩/步摇, 命中205行, 截取前200行存round2.txt

  3. 三轮grep: 搜索履/靴/鞋/袜/带/绦/佩/鞓/革带, 命中274行, 截取前200行存round3.txt

  4. 四轮grep: 搜索锦/绣/罗/绫/绸/缎/绢/纱/绡/缣, 命中246行, 截取前200行存round4.txt

  5. 五轮grep: 搜索氅/褛/襦/袂/衿/裾/袴/褐/禅衣/道袍/僧衣, 命中73行, 存round5.txt

  6. 六轮grep: 搜索妆/黛/脂/粉/珰/钏/钿/珠/翠/金钗/玉佩/明珰, 命中270行, 截取前200行存round6.txt

  7. 合并去重: 728个独立行号, 抽取727行/607KB

  8. Python精炼: 1282段落为单元, 六轮复合关键词逐段匹配, 502段初筛

  9. 评分过滤: 高/中价值词加权评分, score>=2保留171条

  10. 分类审查: 按冠帽/衣袍/履袜/首饰/妆容/织物/其他七类归整

关键发现

  1. 服饰描写集中出现在仙鬼狐妖出场和婚恋场景

  2. 青衣为高频词(31次), 几乎专属婢仆角色

  3. 颜色编码: 紫/红=贵族, 青=婢仆, 褐=平民, 白=丧/鬼

  4. 仙界服饰以轻透织物(绡/纱/罗)和宝石(水晶/珊瑚/玳瑁)为特征

  5. 狐嫁女翠凤明珰容华绝世为最精炼华丽描写

  6. 罗刹海市龙宫(衣绣裳/珊瑚床/水晶砚)为志怪服饰想象巅峰

  7. 佩刀出现14次, 为武人/鬼使标志性佩饰

  8. 绣履出现10次, 为女性脚饰高频词, 常与金钏搭配