《考古图》服饰提取日志
基本信息
| 项目 | 值 |
|---|---|
| 书名 | 考古图 |
| 输入文件 | /home/z/my-project/upload/器物/器物/考古图.txt |
| 输出目录 | /home/z/my-project/upload/器物output/考古图/ |
| 总行数 | 4510行 |
| 文件编码 | UTF-8 |
处理流程
第一步:总行数统计
wc -l → 4510行
第二步:多轮关键词grep
使用44个服饰关键词逐一/分组grep,共执行8轮检索:
| 轮次 | 检索关键词 | 命中行数 |
|---|---|---|
| 1 | 衣 | 4 |
| 2 | 裳 | 0 |
| 3 | 冠 | 3 |
| 4 | 带 | 5 |
| 5 | 袍裘褐巾履屦绅袂裾襟 | 5 |
| 6 | 裙幅弁冕簪珥佩环 | 19 |
| 7 | 绮罗纱绢帛锦绣练絮布麻丝 | 4 |
| 8 | 绸缎缯绫纨绡绶绂黼黻鹖帻帷帐幄旗旌旆纛 | 3 |
合计原始命中:35行(去重后)
汇总grep命令:
rg -n '衣|裳|冠|带|袍|裘|褐|巾|履|屦|绅|袂|裾|襟|裙|幅|弁|冕|簪|珥|佩|环|绮|罗|纱|绢|帛|锦|绣|练|絮|布|麻|丝|绸|缎|缯|绫|纨|绡|绶|绂|黼|黻|鹖|帻|帷|帐|幄|旗|旌|旆|纛' 考古图.txt
第三步:sed上下文提取
对35个命中行逐一执行 sed -n 'N-2,N+2p' 提取上下文,确认语境。
第四步:噪音过滤
过滤规则:青铜器图录中大量服饰词为器物描述,需严格区分。
| 过滤类别 | 关键词 | 行号 | 原文片段 | 过滤理由 |
|---|---|---|---|---|
| 器物环扣 | 环 | 388 | 连环系于柄 | 鬲之提环,非佩环 |
| 器物环扣 | 环 | 1103 | 垂环 | 彞之装饰环 |
| 器物环扣 | 环 | 1398 | 环颈饰以山 | 尊之颈纹 |
| 器物环扣 | 环 | 1429 | 环颈之文 | 罍之颈纹 |
| 器物环扣 | 环 | 1445 | 衔方环 | 壶之鼻环 |
| 器物环扣 | 环 | 1850 | 二环在外 | 壶之环 |
| 器物环扣 | 环 | 2762 | 连环以为提 | 器物提环 |
| 器物环扣 | 环 | 2855 | 自环以上手主之 | 器物部位 |
| 器物环扣 | 环 | 2915 | 囬环 | 循环义 |
| 器物环扣 | 环 | 3049 | 圜而环之 | 权之形制 |
| 器物环扣 | 环 | 3380 | 兽环 | 瓿之环 |
| 器物环扣 | 环 | 3699 | 衔环凡四环 | 器物环 |
| 器物环扣 | 环 | 4505 | 如刀环绕腹 | 鼎之纹 |
| 钟带纹饰 | 带 | 2070 | 钟带谓之篆 | 钟体纹带 |
| 精炼铜 | 练 | 3221 | 三十练铜 | 练=精炼,非丝练 |
| 图名 | 佩 | 3 | 捧勑佩图 | 图名/人名 |
| 六币 | 绣 | 2159 | 琥以绣 | 小行人六币,非刺绣布 |
| 使用 | 服 | 2915 | 太子服用 | "服用"=使用 |
过滤行数:23行 有效行数:12条
第五步:输出文件生成
| 文件 | 大小 | 说明 |
|---|---|---|
| 考古图_总结.md | ≤20KB | 主题分类总结 |
| 考古图_原文提取.md | ≤20KB | 原文逐条引用 |
| 考古图_日志.md | ≤20KB | 处理过程记录 |
关键词命中统计
| 关键词 | 命中总行 | 有效 | 噪音 |
|---|---|---|---|
| 衣 | 4 | 3 | 1(服用) |
| 裳 | 0 | 0 | 0 |
| 冠 | 3 | 2 | 1(毌音冠) |
| 带 | 5 | 3 | 2(钟带、篆带) |
| 袍 | 1 | 1 | 0 |
| 裘 | 1 | 1 | 0 |
| 履 | 2 | 2 | 0 |
| 屦 | 1 | 1 | 0 |
| 绅 | 1 | 1 | 0 |
| 佩 | 5 | 4 | 1(佩图) |
| 冕 | 3 | 3 | 0 |
| 环 | 14 | 1 | 13(器物环) |
| 丝 | 1 | 1 | 0 |
| 练 | 2 | 1 | 1(练铜) |
| 纱 | 1 | 1 | 0 |
| 服 | 2 | 1 | 1(服用) |
| 旂 | 2 | 2 | 0 |
| 旌 | 1 | 1 | 0 |
| 旗 | 1 | 1 | 0 |
| 帐 | 1 | 0 | 1(帐中,器物语境) |
| 绣 | 1 | 0 | 1(六币) |
| 其余23词 | 0 | 0 | 0 |
特殊说明
- 《考古图》为器物图录,服饰内容极为稀少,仅出现在铭文考释引经据典时附带提及。
- "古衣服令"段(行2232)为全书服饰含量最高段落,涉及6个关键词,引用聂崇义所载古代服制。
- "环"为最大噪音词(14条命中,13条为器物环扣),必须严格过滤。
- 续考古图部分(行3038-4510)无有效服饰内容,仅"帐"字1条但因语境为器物旁证而过滤。