《钱谱》服饰提取日志

基本信息

处理流程

第一步:wc -l 查总行数

73 /home/z/my-project/upload/器物/器物/钱谱.txt

全书仅73行,为短篇钱谱。

第二步:grep -n 逐关键词扫描

对45个服饰关键词逐一grep,命中结果如下:

关键词 命中行号 命中次数
4 1
4,8,18,19,20 6
18 1
28 1
26 1

未命中关键词(40个): 衣、裳、冠、带、袍、裘、褐、巾、履、屦、袂、裾、襟、裙、幅、弁、冕、簪、珥、环、绮、罗、纱、绢、锦、绣、练、絮、麻、丝、绸、缎、缯、绫、纨、绡、绶、绂、黼、黻、鹖、帻、帷、幄、旗、旌、旆、纛

第三步:上下文提取与核验

对5个命中关键词逐条sed提取上下文,并回读原文核实:

  1. 帛(第4行):上下文确认为《食货志》引文"束于帛",帛指丝织品实物货币。
  2. 布(第4行):上下文确认为"布于布",布=布币,货币术语。→噪音
  3. 布(第8行):上下文确认为"流布四海",布=动词流布。→噪音
  4. 布(第18行):上下文含"布泉"(钱币专名×3)、"流曰布"(术语)、"妇人佩之"(佩饰)。布泉等→噪音;佩→有效
  5. 布(第19行):上下文确认为"盐米布交易",布=布匹织物。→有效
  6. 布(第20行):上下文含"五行大布"(钱币专名×2)、"布泉并行"(专名)。→噪音
  7. 佩(第18行):上下文确认为"妇人佩之,即生男也",佩=佩戴。→有效
  8. 绅(第28行):上下文确认为"扬州节度使李绅",绅=人名。→噪音
  9. 帐(第26行):上下文确认为"撒帐钱",帐=婚仪帷帐。→有效

第四步:噪音过滤决策

本书为钱币专书,噪音高发区为"布""帛"二词:

原文片段 关键词 判定 依据
"布于布" 噪音 前布=动词,后布=布币专名
"流行曰布" 噪音 货币术语
"流布四海"×2 噪音 动词"散播"义
"布泉"×3 噪音 钱币专名
"五行大布"×2 噪音 钱币专名
"李绅" 噪音 人名
"束于帛" 有效 帛=丝织品实物,货币语境但指丝帛本身
"妇人佩之" 有效 佩=佩戴/佩饰
"盐米布交易" 有效 布=布匹织物,实物交易媒介
"撒帐钱" 有效 帐=婚仪帷帐

第五步:输出文件生成

文件名 大小限制 内容
钱谱_总结.md ≤20KB 书目信息、过滤统计、有效条目释义、总结
钱谱_原文提取.md ≤20KB 有效原文(含上下文)+ 噪音备查
钱谱_日志.md ≤20KB 本处理日志

统计

备注

《钱谱》为钱币专科文献,服饰内容极度稀少。全书无一核心服饰品类(衣裳冠履袍裘裙等)的记载,所有服饰信息均为钱币叙述中的附带提及。其中"布"字出现6次,5次为钱币术语噪音,仅1次("盐米布交易")为织物本义,充分说明了钱币专书中"布"字的高噪音特征。"帛""佩""帐"各1次命中均经确认为有效服饰信息。