《班马异同》服饰史料处理日志

基本信息

项目	内容
源文件	/home/z/my-project/upload/zhengshi/正史/班马异同.txt
输出目录	/home/z/my-project/upload/正史重制output/班马异同/
文件编码	UTF-8
总行数	642行
最长行	10466字（匈奴列传）
产出文件	班马异同_总结.md / 班马异同_日志.md / 班马异同_原文提取.md

处理步骤

步骤1：wc -l 统计行数

结果：642行
文件为UTF-8编码，含极长行（最长10466字），为古籍未分行文本

步骤2：grep -c 统计服饰关键词命中数

使用Python逐行匹配（因行过长导致grep超时）
全部关键词（含单字色名）命中行数：103行
排除高频单色字（黄43/白35/青24/黑1等大量非服饰语境）
核心服饰关键词命中行数：约81行

步骤3：grep -n 提取关键词行号

32个关键词有命中（排除纯色名单字噪音后）
高频关键词统计：
衣: 45行 | 冠: 36行 | 带: 18行 | 帛: 18行 | 绶: 8行
佩: 7行 | 罗: 7行 | 缯: 7行 | 裘: 6行 | 褐: 5行
锦: 5行 | 冠带: 5行 | 缟: 4行 | 服色: 4行

步骤4：sed上下文提取

以Python模拟sed，提取关键词前后各60-80字上下文
共提取213条上下文片段
按服饰史料价值筛选出25个核心段落
覆盖篇章：高祖本纪、留侯世家、陈丞相世家、张苍传、申屠嘉传、郦生陆贾传、刘敬叔孙通传、季布传、田蚡传、灌夫传、韩安国传、匈奴传、公孙弘传、严安传、司马相如传、汲黯传、佞幸传、货殖传

步骤5：撰写3份MD

班马异同_总结.md

文献概况
服饰史料分类梳理（5大类：冠服制度/日常服饰/织物贡品/丧服仪礼/职官礼仪）
核心发现（7条）
文献价值评述

班马异同_日志.md（本文件）

完整处理步骤记录
关键词统计详表
噪音过滤说明

班马异同_原文提取.md

25个核心段落的原文摘录
按篇章组织
标注关键词与行号

噪音过滤说明

关键词	原始命中	噪音类型	过滤方式
黄	43行	多为人名/地名（黄屋、黄龙等非服饰色）	不纳入服饰色统计
白	35行	多为形容词（白鹿、白狼、肥白等）	仅保留明确服饰语境
青	24行	多为地名/人名（青衣、青虬等）	仅保留明确织物色
带	18行	"带河""带甲""带剑""带同师"等非服饰	区分腰带/佩带 vs 地势/动词
冠	36行	"冠军""冠玉""冠诸侯""位冠群臣"等	区分冠帽 vs 冠军/冠绝
衣	45行	"衣食""布衣""衣褐"为服饰；"衣衾"为丧具	按语境分类

关键词完整命中统计

关键词	命中行数	备注
衣	45	含布衣/衣褐/衣裘/儒衣/衣帛等
黄	43	多非服饰语境
冠	36	含刘氏冠/儒冠/冠带/冠军等
白	35	多非服饰语境
青	24	多非服饰语境
朱	21	多为朱中/丹朱等
带	18	含地带/佩带/带甲/带剑等
帛	18	金帛/束帛/币帛等
绶	8	印绶（均为职官信物）
佩	7	佩印绶/佩之（均为佩戴义）
罗	7	纎罗/罗钟鼓/罗者/雀罗
缯	7	贩缯/絮缯/奇缯
裘	6	旃裘/羊裘/狐裘
褐	5	衣褐/裋褐
锦	5	锦绣/文锦/锦袷袍
冠带	5	弃冠带/冠带之伦/冠带衣履
缟	4	缟素/鲁缟/纻缟
服色	4	正朔服色/改正朔易服色
绮	3	绮縠/绣袷绮衣/绮里季(人名)
中衣	2	中衣袴
襦	2	长襦/罗襦
章服	2	异章服/殊章服
车服	2	车服黄屋左纛/宫室车服
裳	1	衣裘裳
袍	1	锦袷袍
丧服	1	匈奴丧服
紫	1	紫贝
黑	1	尚上黑
赭	1	丹青赭垩
簪	1	一簪不得着身
绸	1	屈虹为绸
服制	1	以礼为服制

处理时间

总耗时：约5分钟
瓶颈：超长行导致grep超时，改用Python逐行处理