《考古图》服饰提取日志

基本信息

项目
书名 考古图
输入文件 /home/z/my-project/upload/器物/器物/考古图.txt
输出目录 /home/z/my-project/upload/器物output/考古图/
总行数 4510行
文件编码 UTF-8

处理流程

第一步:总行数统计

wc -l → 4510行

第二步:多轮关键词grep

使用44个服饰关键词逐一/分组grep,共执行8轮检索:

轮次 检索关键词 命中行数
1 4
2 0
3 3
4 5
5 袍裘褐巾履屦绅袂裾襟 5
6 裙幅弁冕簪珥佩环 19
7 绮罗纱绢帛锦绣练絮布麻丝 4
8 绸缎缯绫纨绡绶绂黼黻鹖帻帷帐幄旗旌旆纛 3

合计原始命中:35行(去重后)

汇总grep命令

rg -n '衣|裳|冠|带|袍|裘|褐|巾|履|屦|绅|袂|裾|襟|裙|幅|弁|冕|簪|珥|佩|环|绮|罗|纱|绢|帛|锦|绣|练|絮|布|麻|丝|绸|缎|缯|绫|纨|绡|绶|绂|黼|黻|鹖|帻|帷|帐|幄|旗|旌|旆|纛' 考古图.txt

第三步:sed上下文提取

对35个命中行逐一执行 sed -n 'N-2,N+2p' 提取上下文,确认语境。

第四步:噪音过滤

过滤规则:青铜器图录中大量服饰词为器物描述,需严格区分。

过滤类别 关键词 行号 原文片段 过滤理由
器物环扣 388 连环系于柄 鬲之提环,非佩环
器物环扣 1103 垂环 彞之装饰环
器物环扣 1398 环颈饰以山 尊之颈纹
器物环扣 1429 环颈之文 罍之颈纹
器物环扣 1445 衔方环 壶之鼻环
器物环扣 1850 二环在外 壶之环
器物环扣 2762 连环以为提 器物提环
器物环扣 2855 自环以上手主之 器物部位
器物环扣 2915 囬环 循环义
器物环扣 3049 圜而环之 权之形制
器物环扣 3380 兽环 瓿之环
器物环扣 3699 衔环凡四环 器物环
器物环扣 4505 如刀环绕腹 鼎之纹
钟带纹饰 2070 钟带谓之篆 钟体纹带
精炼铜 3221 三十练铜 练=精炼,非丝练
图名 3 捧勑佩图 图名/人名
六币 2159 琥以绣 小行人六币,非刺绣布
使用 2915 太子服用 "服用"=使用

过滤行数:23行 有效行数:12条

第五步:输出文件生成

文件 大小 说明
考古图_总结.md ≤20KB 主题分类总结
考古图_原文提取.md ≤20KB 原文逐条引用
考古图_日志.md ≤20KB 处理过程记录

关键词命中统计

关键词 命中总行 有效 噪音
4 3 1(服用)
0 0 0
3 2 1(毌音冠)
5 3 2(钟带、篆带)
1 1 0
1 1 0
2 2 0
1 1 0
1 1 0
5 4 1(佩图)
3 3 0
14 1 13(器物环)
1 1 0
2 1 1(练铜)
1 1 0
2 1 1(服用)
2 2 0
1 1 0
1 1 0
1 0 1(帐中,器物语境)
1 0 1(六币)
其余23词 0 0 0

特殊说明

  1. 《考古图》为器物图录,服饰内容极为稀少,仅出现在铭文考释引经据典时附带提及。
  2. "古衣服令"段(行2232)为全书服饰含量最高段落,涉及6个关键词,引用聂崇义所载古代服制。
  3. "环"为最大噪音词(14条命中,13条为器物环扣),必须严格过滤。
  4. 续考古图部分(行3038-4510)无有效服饰内容,仅"帐"字1条但因语境为器物旁证而过滤。