聊斋志异 服饰提取日志
任务信息
-
输入: /home/z/my-project/upload/part3/聊斋志异.txt
-
输出: /home/z/my-project/upload/3小说output/聊斋志异/
-
文本: 约146万字, 3984行, 1282段落, 273篇
-
作者: 蒲松龄
处理流程
步骤1: 文本预处理
-
按空行分割为1282个段落
-
识别273个篇目标题(非缩进短行+后续缩进内容行)
-
建立段落-篇目索引
步骤2: 六轮关键词检索(grep)
| 轮 | 类别 | 关键词举例 | 命中 |
|---|---|---|---|
| 1 | 基本衣类 | 衣冠/锦衣/青衣/红衣/缞服/罗裙/道袍/貂裘/麻裙/布袍 | 113 |
| 2 | 冠帽首饰 | 峨冠/珠冠/高髻/明珰/金钗/翠凤/步摇/抹额/雉尾/上鬟 | 90 |
| 3 | 履带佩饰 | 吉莫靴/朱履/绣履/莲钩/革带/佩刀/环佩/锦裀/流苏 | 53 |
| 4 | 织物色彩 | 锦幕/绣幰/绛绡/翠裳/珊瑚/水晶/玳瑁/画灯/纱烛 | 48 |
| 5 | 具体服饰 | 紫衣人/衣绛绡/衣翠裳/绿袍白袜/袍服/泥衣/泥巾 | 32 |
| 6 | 妆容配饰 | 红妆/浓妆/粉黛/画黛/金腕钏/珠冠锦衣/粉白黛绿 | 50 |
| - 六轮合并去重: 278条独立命中段落 |
步骤3: 评分过滤(sed提取)
-
对278条命中段落进行服饰描写丰富度评分
-
高价值词(具体服饰术语如翠凤明珰/锦衣朱履)每词+3分
-
中等价值词(部分术语如衣冠/珠翠)每词+1分
-
保留阈值: score>=2
-
过滤结果: 171条实质服饰描写段落
步骤4: 分类审查
- 冠帽头饰: 36条
- 衣袍裳裙: 76条
- 履袜鞋带: 27条
- 首饰佩饰: 25条
- 妆容体态: 2条
- 织物器用: 1条
- 其他服饰相关: 4条
- 审查: 排除非服饰语境误检; 确认分类归属
步骤5: 产出文件
| 文件 | 内容 | 大小 |
|---|---|---|
| 聊斋志异_总结.md | 服饰分类总结与文化分析 | <=20KB |
| 聊斋志异_日志.md | 提取流程详细记录 | <=20KB |
| 聊斋志异_原文提取.md | 按类归整的服饰原文摘录 | <=20KB |
数据质量评估
-
检索覆盖度: 六轮覆盖衣/袍/裳/裙/冠/帽/履/靴/带/佩/锦/绣/罗/纱/妆/黛/珰/钏/翠/珠等20余语义域
-
误检率控制: 单字关键词需配合语境词; 评分机制过滤低信息量段落
-
漏检分析: (a)罕见服饰专称可能未被覆盖; (b)纯描述性服饰可能漏检; (c)异史氏评论中的服饰典故未专门提取
-
分类交叉: 多元素段落按首要特征归一类, 其余标签保留于关键词字段
提取过程详录
-
首轮grep: rg -n搜索衣/袍/裳/裙/衫/裘/褂/袄, 命中440行, 截取前200行存round1.txt
-
二轮grep: 搜索冠/帽/巾/帻/簪/珥/钗/环佩/步摇, 命中205行, 截取前200行存round2.txt
-
三轮grep: 搜索履/靴/鞋/袜/带/绦/佩/鞓/革带, 命中274行, 截取前200行存round3.txt
-
四轮grep: 搜索锦/绣/罗/绫/绸/缎/绢/纱/绡/缣, 命中246行, 截取前200行存round4.txt
-
五轮grep: 搜索氅/褛/襦/袂/衿/裾/袴/褐/禅衣/道袍/僧衣, 命中73行, 存round5.txt
-
六轮grep: 搜索妆/黛/脂/粉/珰/钏/钿/珠/翠/金钗/玉佩/明珰, 命中270行, 截取前200行存round6.txt
-
合并去重: 728个独立行号, 抽取727行/607KB
-
Python精炼: 1282段落为单元, 六轮复合关键词逐段匹配, 502段初筛
-
评分过滤: 高/中价值词加权评分, score>=2保留171条
-
分类审查: 按冠帽/衣袍/履袜/首饰/妆容/织物/其他七类归整
关键发现
-
服饰描写集中出现在仙鬼狐妖出场和婚恋场景
-
青衣为高频词(31次), 几乎专属婢仆角色
-
颜色编码: 紫/红=贵族, 青=婢仆, 褐=平民, 白=丧/鬼
-
仙界服饰以轻透织物(绡/纱/罗)和宝石(水晶/珊瑚/玳瑁)为特征
-
狐嫁女翠凤明珰容华绝世为最精炼华丽描写
-
罗刹海市龙宫(衣绣裳/珊瑚床/水晶砚)为志怪服饰想象巅峰
-
佩刀出现14次, 为武人/鬼使标志性佩饰
-
绣履出现10次, 为女性脚饰高频词, 常与金钏搭配