《侠义英雄传》服饰内容提取 · 操作日志
时间:2026-03-05 任务:对平江不肖生《侠义英雄传》进行服饰相关内容的完整提取和整理
操作流程
Step 1: 检查输入文件
文件:/home/z/my-project/upload/part1/侠义英雄传.txt
大小:2,008,081 字节(约1.9MB)
判定:大体积TXT,严禁整本载入LLM,使用grep+sed提取
Step 2: 创建输出目录
mkdir -p /home/z/my-project/upload/1小说output/侠义英雄传/
Step 3: 参考模板分析
- 读取 /home/z/my-project/upload/参考/ 总结.md、日志.md、原文提取.md
- 确认三份产出格式:总结MD(分类归纳)、原文提取MD(带行号原文)、日志MD(操作记录)
Step 4: 8轮关键词grep提取
| 轮次 | 关键词 | 命中行数 | 备注 |
|---|---|---|---|
| 1 | 衣裳裘袍褐襦裙袴衫袂衽 | 257 | 衣最多,多为日常用语 |
| 2 | 冠冕弁巾帻幞头帽笠盔 | 45 | 帽儿山地名噪声多 |
| 3 | 佩笏带鱼袋玉佩蹀躞 | 387 | 带字噪声极大(动词"带") |
| 4 | 丝帛绢锦绮绫罗缎绸纱葛麻布毡 | 329 | 丝/布/麻多非服饰用途 |
| 5 | 衮朝服公服常服祭服赐服赐绯品色舆服服色冠服 | 1 | 仅1行(常服) |
| 6 | 舄履屦靴鞋甲铠胄兜鍪 | 492 | 甲字440行为人名"霍元甲" |
| 7 | 紫绯绿袍青袍白袍红袍金带玉带银带 | 18 | 紫多为面色描写 |
| 8 | 黼黻章服蟒袍补服龙袍凤冠霞帔云肩钿簪钗步摇 | 4 | 钗/簪少量出现 |
合计原始命中:约1,533行(含大量非服饰噪声)
Step 5: 噪声过滤与精筛
- Round 3的"带"字387行中,绝大多数为动词"带领/带着/地带",实际服饰相关仅约10行
- Round 6的"甲"字440行全为人名"霍元甲/甲等",实际铠甲相关为0行
- Round 7的"紫"多为面色描写("紫色脸膛""紫猪肝色")
- 进行第二轮精筛,使用组合关键词(瓜皮帽、毡帽、马褂、薄底麻鞋等)
Step 6: 关键服饰条目识别
从精筛结果中识别出以下核心服饰描写: 1. 夜行衣靠(行423-425)——全书最详细的服饰专条,含青绢衣裤、开叉袜、丝带系腰、青绢包头 2. 掼交制服(行156)——制度性服饰 3. 红缨大帽+马车夫制服(行1288)——中西服饰碰撞 4. 比武脱衣惯例——多处反复出现 5. 各类冠帽——瓜皮帽、貂皮暖帽、毡帽等
Step 7: 分类整理与撰写
- 原文提取MD:8大类42条,按衣袍、夜行衣靠、冠帽、鞋靴、配饰、制服、纺织材料、社会身份分列
- 总结MD:8大类归纳,含袜底材质对比表、纺织材料对比表、总结表
- 日志MD:本文件
关键发现
- 夜行衣靠是全书最重要的服饰专条:详述青绢衣裤的剪裁(对襟、纽扣、开叉袜)、袜底材质比较(麻vs头发)、青绢包头防刀剑功能,为武侠小说中最系统的夜行装备描写之一
- 掼交制服有严格制度:棉布制又厚又硬,穿了打死不偿命,不穿不能交手
- 比武脱长衣是江湖惯例:长袍在比武中明显不利,"转折略笨"
- 红缨大帽为官帽标志:西洋人让中国马车夫戴此帽被视为侮辱
- 铁尖鞋为暗器:卖艺女子的鞋尖可伤人
- 中西混搭:黄石屏穿洋服配薄底朝鞋,体现晚清服饰过渡期特征
- 鞋底打脸:刘荣脱鞋以鞋底打人,鞋成为市井暴力工具
- 发编袜底:头发编织的袜底优于麻皮,为江湖特殊工艺
关键踩坑记录
- "甲"字440行全为"霍元甲"人名:Round 6的492行中440行是"甲"字命中,但均为人名"霍元甲"中的甲,与铠甲无关。本书时代为晚清民初,无铠甲描写
- "带"字387行中极少服饰用义:绝大多数为动词"带领""带着"或名词"地带",实际服饰腰带仅约10行
- "帽儿山"地名干扰:Round 2中"帽"字命中多为地名"帽儿山"
- "紫"多为面色:Round 7中"紫"多描写脸色(紫色脸膛、紫猪肝色、紫酱色),非服色
- 本书无传统服饰制度内容:无衮服、蟒袍、补服、凤冠等,因时代背景为晚清民初市井江湖
审核结果
- 3份MD文件大小:
- 侠义英雄传_原文提取.md:15,908字节 ✅(≤20KB)
- 侠义英雄传_总结.md:6,495字节 ✅(≤20KB)
- 侠义英雄传_日志.md:本文件 ✅(≤20KB)
- 全部原文均有行号对应,可溯源验证 ✅
- 未使用批处理脚本/for循环 ✅
- 大文件未整本载入LLM ✅