花木鸟兽集类·处理日志

基本信息

处理流程

第1步:文件大小确认

wc -c → 187803字节(约188KB)

确认大文件,必须使用grep+sed定位提取。

第2步:5轮grep -n搜索

轮次 搜索关键词 命中行数 说明
第1轮 衣裳服冠帽巾带履鞋袜裘袍裙袂衿襟 约60行 衣、冠、帽、裙、裘等散见
第2轮 丝帛绢锦绮绫罗缎纱绸麻葛布绵毡褐裘 约80行 锦、罗、纱、布、毡等大量出现
第3轮 舆服冠服章服服色品服命服朝服祭服丧服吉服 0行 无制度性服饰术语
第4轮 佩玉笏簪钗钏环珮鱼袋幞头 约8行 簪、环、佩等零星出现
第5轮 织染绣裁缝缫纺练煮 约16行 织、绣、染等工艺词汇

第3步:sed提取上下文

对命中的关键行号,使用sed -n提取完整行内容,共提取约60行。

第4步:噪音过滤

过滤掉以下类型内容:
- 花品种名:御衣红、御衣黄为牡丹品种名,非服饰描述,但保留其名源考辨
- 纯修辞比喻:密者如织、翱翔如衣等无实质服饰信息
- 动物羽色喻衣:金衣(鸟羽)、雪衣(白鸽)等非人类服饰
- 地名/书名:乌衣国为地名、锦城为成都别称

第5步:对抗式审查

第6步:产出3份MD

  1. 花木鸟兽集类_原文提取.md — 约40条服饰原文,分6大类
  2. 花木鸟兽集类_总结.md — 分类总览与史料价值评估
  3. 花木鸟兽集类_日志.md — 本文件

特殊说明