皇朝经世文续编(清·葛士浚)服饰提取日志
任务ID:2-7
操作时间:2026-03-04
源文件:皇朝经世文续编-清-葛士浚.txt
总行数:10203行
操作流程
步骤1:查看文件基本信息
- 命令:
wc -l - 结果:10203行
- 创建输出目录:
/home/z/my-project/upload/经世文编output/皇朝经世文续编-清-葛士浚/
步骤2:逐轮grep关键词
第1轮:上位概念(服饰|舆服|冠服|章服|服色|衣冠|服制)
- 命令:
grep -n "服饰\|舆服\|冠服\|章服\|服色\|衣冠\|服制" 皇朝经世文续编-清-葛士浚.txt | head -200 - 结果:约30+条命中
- 关键行号:728, 783, 790, 1108, 1566, 1827, 3077, 3511, 3520, 4072, 5185, 5300, 5345, 5348, 5351, 5354, 5425, 5537, 5543, 5552, 5554, 5558, 5564, 5574, 5582, 5601, 5605, 5658, 5659, 5660
- 噪音过滤:大量"服制"命中为丧服制度(礼学讨论),非日常服饰,但属礼制服饰范畴,保留
- 有效命中约20条
第2轮:冠帽(冠|冕|弁|帻|巾|帽|幞头|进贤冠|武冠|通天冠|皮弁)
- 命令:
grep -n "冠\|冕\|弁\|帻\|巾\|帽\|幞头\|进贤冠\|武冠\|通天冠\|皮弁" 皇朝经世文续编-清-葛士浚.txt | head -200 - 结果:因编码问题部分截断,改用Python脚本处理
- 关键行号:3173(貂褂/补褂变更), 5185(冠服拜跪), 5465(冠礼/深衣), 5601(纬帽)
- 噪音极高:"冠"字出现极多(冠军、冠绝等),需人工筛选
- 有效命中约5条
第3轮:衣服(袍|裘|褐|衫|襦|袄|褂|深衣|法服|朝服|祭服|公服|戎服)
- 命令:
grep -n "袍\|裘\|褐\|衫\|襦\|袄\|褂\|深衣\|法服\|朝服\|祭服\|公服\|戎服" ... - 结果:因编码问题,改用Python处理
- 关键行号:3173(貂褂/补褂), 3220(短襟袍), 3453(四团龙补褂), 4440(无褐), 4508(棉袄), 5601(朝服), 5605(盛服)
- 噪音:"袍"出现较多(同袍等),需筛选
- 有效命中约7条
第4轮:品色(紫袍|绯袍|绿袍|青袍|白袍|黄袍|赐紫|赐绯|借紫|品色)
- 命令:
grep -n "紫袍\|绯袍\|绿袍\|青袍\|白袍\|黄袍\|赐紫\|赐绯\|借紫\|品色" ... - 结果:0条命中
- 本书无品色服相关内容
第5轮:材质(锦|绮|帛|绢|绫|罗|缎|绸|缂丝|缯)
- 命令:Python脚本处理(因bash编码问题)
- 结果:大量命中,噪音极高("罗"为姓氏/地名,"帛"见于"谷帛"经济论述)
- 关键行号:3143(锦缎绉绸采办), 3553-3570(谷帛经济), 4197(布帛核奸伪), 4200(杭绸苏绉江宁缎), 5660(紬段挽帐)
- 有效命中约8条
第6轮:配饰(绶|佩|笏|鱼袋|金带|玉带|革带|鞶囊)
- 命令:
grep -n "绶\|佩\|笏\|鱼袋\|金带\|玉带\|革带\|鞶囊" ... - 结果:命中极少,"佩"多为人名(钟佩贤、张佩纶)
- 有效命中:5278(緌缨绅佩有恒度)
- 仅1条有效
第7轮:动作(赐服|赐衣|赐帛|赐锦|僭|逾制)
- 命令:Python脚本处理
- 关键行号:3453(赐红宝石顶), 4200(僭/辨尊卑), 5659-5660(僭而违礼)
- "僭"字约10条命中,多数为政治僭越非服饰僭越
- 有效命中约4条
第8轮:纺织(蚕|桑|织|染|绣|缫|练)
- 命令:Python脚本处理
- 大量命中("蚕桑""纺织"为经济主题)
- 关键行号:4210-4227(劝树桑、蚕桑专篇), 3547-3570(农桑经济)
- 有效命中约15条
步骤3:上下文提取
- 使用Python脚本,对18组行号范围执行sed等效操作
- 提取范围涵盖:禁奢辨等、采办锦缎、赐服章服、丧服制度、朝服祭祀、农桑纺织、赈济施衣
- 总计提取有效段落约20段
步骤4:筛选与分类
- 过滤标准:(1) 含服饰关键词且语境为服饰/服制;(2) 排除纯人名、地名误命中;(3) 丧服制度虽属礼制服饰但单独分类
- 最终有效服饰片段:约35条
- 分为6大类:丧服礼制、禁奢辨等、赐服章服、农桑纺织、赈济施衣、冠礼朝服
步骤5:撰写三份MD
- 总结MD:结构化整理,含概述、分类表、关键发现、学术审查、引用位置表
- 日志MD:本文件,记录全流程
- 原文提取MD:带行号的原始片段,关键词加粗
统计摘要
| 轮次 | 关键词组 | 总命中 | 有效命中 | 噪音率 |
|---|---|---|---|---|
| 1 | 上位概念 | ~30 | 20 | 33% |
| 2 | 冠帽 | ~200+ | 5 | 97%+ |
| 3 | 衣服 | ~100+ | 7 | 93%+ |
| 4 | 品色 | 0 | 0 | N/A |
| 5 | 材质 | ~80+ | 8 | 90% |
| 6 | 配饰 | ~10 | 1 | 90% |
| 7 | 动作 | ~10 | 4 | 60% |
| 8 | 纺织 | ~80+ | 15 | 81% |
有效服饰片段总计约35条,涉及行号范围约30处。