《班马异同》服饰史料处理日志

基本信息

项目内容
源文件/home/z/my-project/upload/zhengshi/正史/班马异同.txt
输出目录/home/z/my-project/upload/正史重制output/班马异同/
文件编码UTF-8
总行数642行
最长行10466字(匈奴列传)
产出文件班马异同_总结.md / 班马异同_日志.md / 班马异同_原文提取.md

处理步骤

步骤1:wc -l 统计行数

  • 结果:642行
  • 文件为UTF-8编码,含极长行(最长10466字),为古籍未分行文本

步骤2:grep -c 统计服饰关键词命中数

  • 使用Python逐行匹配(因行过长导致grep超时)
  • 全部关键词(含单字色名)命中行数:103行
  • 排除高频单色字(黄43/白35/青24/黑1等大量非服饰语境)
  • 核心服饰关键词命中行数:约81行

步骤3:grep -n 提取关键词行号

  • 32个关键词有命中(排除纯色名单字噪音后)
  • 高频关键词统计:
  • 衣: 45行 | 冠: 36行 | 带: 18行 | 帛: 18行 | 绶: 8行
  • 佩: 7行 | 罗: 7行 | 缯: 7行 | 裘: 6行 | 褐: 5行
  • 锦: 5行 | 冠带: 5行 | 缟: 4行 | 服色: 4行

步骤4:sed上下文提取

  • 以Python模拟sed,提取关键词前后各60-80字上下文
  • 共提取213条上下文片段
  • 按服饰史料价值筛选出25个核心段落
  • 覆盖篇章:高祖本纪、留侯世家、陈丞相世家、张苍传、申屠嘉传、郦生陆贾传、刘敬叔孙通传、季布传、田蚡传、灌夫传、韩安国传、匈奴传、公孙弘传、严安传、司马相如传、汲黯传、佞幸传、货殖传

步骤5:撰写3份MD

班马异同_总结.md

  • 文献概况
  • 服饰史料分类梳理(5大类:冠服制度/日常服饰/织物贡品/丧服仪礼/职官礼仪)
  • 核心发现(7条)
  • 文献价值评述

班马异同_日志.md(本文件)

  • 完整处理步骤记录
  • 关键词统计详表
  • 噪音过滤说明

班马异同_原文提取.md

  • 25个核心段落的原文摘录
  • 按篇章组织
  • 标注关键词与行号

噪音过滤说明

关键词原始命中噪音类型过滤方式
43行多为人名/地名(黄屋、黄龙等非服饰色)不纳入服饰色统计
35行多为形容词(白鹿、白狼、肥白等)仅保留明确服饰语境
24行多为地名/人名(青衣、青虬等)仅保留明确织物色
18行"带河""带甲""带剑""带同师"等非服饰区分腰带/佩带 vs 地势/动词
36行"冠军""冠玉""冠诸侯""位冠群臣"等区分冠帽 vs 冠军/冠绝
45行"衣食""布衣""衣褐"为服饰;"衣衾"为丧具按语境分类

关键词完整命中统计

关键词命中行数备注
45含布衣/衣褐/衣裘/儒衣/衣帛等
43多非服饰语境
36含刘氏冠/儒冠/冠带/冠军等
35多非服饰语境
24多非服饰语境
21多为朱中/丹朱等
18含地带/佩带/带甲/带剑等
18金帛/束帛/币帛等
8印绶(均为职官信物)
7佩印绶/佩之(均为佩戴义)
7纎罗/罗钟鼓/罗者/雀罗
7贩缯/絮缯/奇缯
6旃裘/羊裘/狐裘
5衣褐/裋褐
5锦绣/文锦/锦袷袍
冠带5弃冠带/冠带之伦/冠带衣履
4缟素/鲁缟/纻缟
服色4正朔服色/改正朔易服色
3绮縠/绣袷绮衣/绮里季(人名)
中衣2中衣袴
2长襦/罗襦
章服2异章服/殊章服
车服2车服黄屋左纛/宫室车服
1衣裘裳
1锦袷袍
丧服1匈奴丧服
1紫贝
1尚上黑
1丹青赭垩
1一簪不得着身
1屈虹为绸
服制1以礼为服制

处理时间

  • 总耗时:约5分钟
  • 瓶颈:超长行导致grep超时,改用Python逐行处理