《红楼梦》服饰提取日志
生成:2026-05-18 09:44
输入信息
- 文件:
/home/z/my-project/upload/part3/红楼梦.txt - 大小:2,599,781字节 | 行数:3,092行
- 正文起行:第367行(跳过目录1-366行)
提取过程
第1轮:基础服饰名词
关键词:衣裳、裙子、袍子、袄儿、褂子、衫儿、背心、比甲、半臂、抹胸、兜肚、斗篷、披风、蓑衣、鹤氅 结果:239行
第2轮:配饰名词
关键词:冠、簪、钗、步摇、凤钗、金钗、银钗、玉簪、金簪、宫花、绒花、头面、钿、凤冠、珠冠 结果:498行(含误匹配"冠军""环境"等,后续过滤)
第3轮:面料与色彩
关键词:绸、缎、绫、罗、纱、锦、绢、绒、绉、缂丝、倭缎、羽缎、羽纱、软烟罗、霞影纱 结果:290行(含误匹配"纱窗""罗汉"等,后续过滤)
第4轮:鞋帽头饰
关键词:靴、履、鞋、帽、巾、袜、绣鞋、凤头鞋、蝴蝶鞋、皂靴、朝靴、风帽、暖帽、汗巾、罗袜 结果:98行
第5轮:穿戴动词与搭配
关键词:穿着、穿戴、披着、裹着、束着、系着、装束、打扮、梳妆、更衣、卸妆、项圈、璎珞、金锁 结果:160行
第6轮:首饰珠宝与特殊服饰
关键词:镯、钏、金钏、银钏、虾须镯、红麝串、手串、念珠、朝珠、翡翠、珊瑚、玛瑙、琥珀、雀金裘、凫靥裘 结果:167行
合并去重
6轮合并去重后:933行 → 去除目录行后910行
评分过滤
Python脚本定义37组高置信度服饰正则模式,按权重计分,阈值得分≥3 最终保留:189条
分类统计
| 类别 | 条数 | 说明 |
|---|---|---|
| 衣类 | 99 | |
| 面料 | 80 | |
| 头饰 | 67 | |
| 鞋帽 | 41 | |
| 袄类 | 38 | |
| 首饰 | 37 | |
| 特殊服饰 | 29 | |
| 裙类 | 25 | |
| 外衣 | 19 | |
| 褂类 | 13 | |
| 内衣 | 12 | |
| 袍类 | 8 | |
| 衫类 | 5 | |
| 合计 | 189 | 一条可归多类 |
得分分布
| 得分段 | 条数 | 说明 |
|---|---|---|
| 30+ | 12 | 核心服饰描写 |
| 20-29 | 13 | 核心服饰描写 |
| 10-19 | 30 | 具体服饰提及 |
| 5-9 | 52 | 一般服饰提及 |
| 3-4 | 82 | 轻度提及 |
TOP 10 高分条目
| 排名 | 行号 | 得分 | 回目 | 关键词 |
|---|---|---|---|---|
| 1 | 441 | 112 | 第三回 | 戴着金丝八宝攒珠髻,绾着朝阳五凤挂珠钗、戴着赤金盘螭璎珞圈、穿着缕金百蝶穿花大红洋缎窄Ё袄 |
| 2 | 1842 | 68 | 第五十一回 | 戴着几枝金钗珠钏、穿着桃红百子刻丝银鼠袄子,葱绿盘金彩绣绵裙、穿着青缎灰鼠褂。凤姐儿笑道:“这三件衣 |
| 3 | 1725 | 67 | 第四十九回 | 猩猩毡 |
| 4 | 450 | 65 | 第三回 | 戴着束发嵌宝紫金冠、穿着银红撒花半旧大袄、外罩石青起花八团倭锻排穗褂 |
| 5 | 1545 | 53 | 第四十回 | 身上穿、红绵纱袄、纱袄 |
| 6 | 659 | 46 | 第八回 | 身上穿、头上戴、戴着丝嵌宝紫金冠 |
| 7 | 803 | 40 | 第十五回 | 戴着洁白簪、戴着束发银冠、穿着江牙海水五爪坐龙白蟒袍 |
| 8 | 1843 | 40 | 第五十一回 | 猩猩毡 |
| 9 | 2935 | 38 | 第一零九回 | 身上穿、白素绸袄、白绫裙 |
| 10 | 1870 | 36 | 第五十二回 | 猩猩毡、身上穿、凫靥裘 |
误匹配排除
| 关键词 | 误匹配例 | 排除方式 |
|---|---|---|
| 环 | 环境、环绕 | 仅保留"钗环""环佩"等组合 |
| 冠 | 冠军、冠名 | 仅保留"凤冠""珠冠""紫金冠"等服饰用法 |
| 穿 | 穿越、穿过 | 仅保留"穿着""穿了"等穿戴用法 |
| 罗 | 罗汉、罗网 | 仅保留"绫罗""软烟罗"等面料用法 |
| 纱 | 纱窗 | 排除"纱窗""窗纱"非服饰用法 |
| 衣 | 衣服(泛指) | 保留"衣裳""冬衣""锦衣"等具体服饰用法 |
| 佩 | 钦佩 | 保留"玉佩""环佩"装饰用法 |