《班马异同》服饰史料处理日志
基本信息
| 项目 | 内容 |
|---|---|
| 源文件 | /home/z/my-project/upload/zhengshi/正史/班马异同.txt |
| 输出目录 | /home/z/my-project/upload/正史重制output/班马异同/ |
| 文件编码 | UTF-8 |
| 总行数 | 642行 |
| 最长行 | 10466字(匈奴列传) |
| 产出文件 | 班马异同_总结.md / 班马异同_日志.md / 班马异同_原文提取.md |
处理步骤
步骤1:wc -l 统计行数
- 结果:642行
- 文件为UTF-8编码,含极长行(最长10466字),为古籍未分行文本
步骤2:grep -c 统计服饰关键词命中数
- 使用Python逐行匹配(因行过长导致grep超时)
- 全部关键词(含单字色名)命中行数:103行
- 排除高频单色字(黄43/白35/青24/黑1等大量非服饰语境)
- 核心服饰关键词命中行数:约81行
步骤3:grep -n 提取关键词行号
- 32个关键词有命中(排除纯色名单字噪音后)
- 高频关键词统计:
- 衣: 45行 | 冠: 36行 | 带: 18行 | 帛: 18行 | 绶: 8行
- 佩: 7行 | 罗: 7行 | 缯: 7行 | 裘: 6行 | 褐: 5行
- 锦: 5行 | 冠带: 5行 | 缟: 4行 | 服色: 4行
步骤4:sed上下文提取
- 以Python模拟sed,提取关键词前后各60-80字上下文
- 共提取213条上下文片段
- 按服饰史料价值筛选出25个核心段落
- 覆盖篇章:高祖本纪、留侯世家、陈丞相世家、张苍传、申屠嘉传、郦生陆贾传、刘敬叔孙通传、季布传、田蚡传、灌夫传、韩安国传、匈奴传、公孙弘传、严安传、司马相如传、汲黯传、佞幸传、货殖传
步骤5:撰写3份MD
班马异同_总结.md
- 文献概况
- 服饰史料分类梳理(5大类:冠服制度/日常服饰/织物贡品/丧服仪礼/职官礼仪)
- 核心发现(7条)
- 文献价值评述
班马异同_日志.md(本文件)
- 完整处理步骤记录
- 关键词统计详表
- 噪音过滤说明
班马异同_原文提取.md
- 25个核心段落的原文摘录
- 按篇章组织
- 标注关键词与行号
噪音过滤说明
| 关键词 | 原始命中 | 噪音类型 | 过滤方式 |
|---|---|---|---|
| 黄 | 43行 | 多为人名/地名(黄屋、黄龙等非服饰色) | 不纳入服饰色统计 |
| 白 | 35行 | 多为形容词(白鹿、白狼、肥白等) | 仅保留明确服饰语境 |
| 青 | 24行 | 多为地名/人名(青衣、青虬等) | 仅保留明确织物色 |
| 带 | 18行 | "带河""带甲""带剑""带同师"等非服饰 | 区分腰带/佩带 vs 地势/动词 |
| 冠 | 36行 | "冠军""冠玉""冠诸侯""位冠群臣"等 | 区分冠帽 vs 冠军/冠绝 |
| 衣 | 45行 | "衣食""布衣""衣褐"为服饰;"衣衾"为丧具 | 按语境分类 |
关键词完整命中统计
| 关键词 | 命中行数 | 备注 |
|---|---|---|
| 衣 | 45 | 含布衣/衣褐/衣裘/儒衣/衣帛等 |
| 黄 | 43 | 多非服饰语境 |
| 冠 | 36 | 含刘氏冠/儒冠/冠带/冠军等 |
| 白 | 35 | 多非服饰语境 |
| 青 | 24 | 多非服饰语境 |
| 朱 | 21 | 多为朱中/丹朱等 |
| 带 | 18 | 含地带/佩带/带甲/带剑等 |
| 帛 | 18 | 金帛/束帛/币帛等 |
| 绶 | 8 | 印绶(均为职官信物) |
| 佩 | 7 | 佩印绶/佩之(均为佩戴义) |
| 罗 | 7 | 纎罗/罗钟鼓/罗者/雀罗 |
| 缯 | 7 | 贩缯/絮缯/奇缯 |
| 裘 | 6 | 旃裘/羊裘/狐裘 |
| 褐 | 5 | 衣褐/裋褐 |
| 锦 | 5 | 锦绣/文锦/锦袷袍 |
| 冠带 | 5 | 弃冠带/冠带之伦/冠带衣履 |
| 缟 | 4 | 缟素/鲁缟/纻缟 |
| 服色 | 4 | 正朔服色/改正朔易服色 |
| 绮 | 3 | 绮縠/绣袷绮衣/绮里季(人名) |
| 中衣 | 2 | 中衣袴 |
| 襦 | 2 | 长襦/罗襦 |
| 章服 | 2 | 异章服/殊章服 |
| 车服 | 2 | 车服黄屋左纛/宫室车服 |
| 裳 | 1 | 衣裘裳 |
| 袍 | 1 | 锦袷袍 |
| 丧服 | 1 | 匈奴丧服 |
| 紫 | 1 | 紫贝 |
| 黑 | 1 | 尚上黑 |
| 赭 | 1 | 丹青赭垩 |
| 簪 | 1 | 一簪不得着身 |
| 绸 | 1 | 屈虹为绸 |
| 服制 | 1 | 以礼为服制 |
处理时间
- 总耗时:约5分钟
- 瓶颈:超长行导致grep超时,改用Python逐行处理