黔苗竹枝词 — 整理日志

任务名称:txt服饰逐本整理——《黔苗竹枝词》
执行时间:2026-03-05


一、任务流程

步骤 操作 说明
1 检查输入文件 确认文件路径 /home/z/my-project/upload/词集/词集/黔苗竹枝词.txt 存在,共153行
2 grep关键词提取 使用rg(ripgrep)以服饰关键词正则匹配,带行号输出,命中约40余行
3 读取全文结构 分段读取全文件(仅读取结构,未整本载入LLM上下文),确认竹枝词体例:每族一首/数首诗+注
4 按主题分类 将命中内容归为六大主题:头饰发饰、衣袍披挂、裙裳下装、织绣染工艺、佩饰银器、履足与武装
5 撰写三份MD 分别写入原文提取.md、总结.md、日志.md

二、关键发现

  1. 全书体例:竹枝词体,每族一首至数首诗,诗后附注,注中详记服饰形制。诗文与注文互参,服饰信息集中在注文。

  2. 服色定族名:黑苗、青苗、红苗、白苗等族名直接来源于服色,是全书最显著的服饰特征。

  3. 裙制两大类型
    - 通裙(贯头筒裙):南平獠"横布二幅穿中贯其首"
    - 桶裙(围腰筒裙):花犭乞犭老"以幅布围腰旁无襞绩"

  4. 蜡染工艺记录(白苗,L55):先用蜡绘花於布→染之→去蜡显花,为早期蜡染工艺的珍贵文字记录。

  5. 九股苗铁制武装(L90):铁帽+铁铠+铁炼+铁片缠股,为全书最特殊的"服饰"记载,实为武备。

  6. 谷蔺布经济现象(L87):深山织成精密之布却不自衣,专供入市交易,说明纺织已从自用发展为商品生产。

  7. 犭农人以布层数标情场战绩(L146):髻上青花布每私一男加一层,积累至数十层为荣,服饰与性文化直接挂钩。


三、踩坑记录

  1. 生僻字OCR问题:原文中"犭乞犭老""犭羊犷""犭农"等民族名为OCR扫描,"犭"旁字常缺笔画或乱码,整理时保留原字不变,不加臆测。

  2. 注文断句困难:古籍无标点,注文常无断句(如L16"冠乌熊皮若注旄以金银络额被毛皮韦行著履"),需结合上下文推断断句位置,整理时在简注中给出合理句读。

  3. 诗文与注文对应:部分注文跨行,grep单行匹配可能丢失上下文。处理方式:先grep定位行号,再手动对照诗注对应关系,确保不误配。

  4. "衣"字泛用:部分"衣"字为动词(穿衣)而非名词(衣服),如L41"皆衣黑"中"衣"为动词。分类时注意区分,但原文提取中仍予收录,因动词用法同样反映服饰信息。


四、审核结果

审核项 结果
是否仅处理《黔苗竹枝词》 ✅ 是
是否避免整本TXT载入LLM ✅ 是,仅grep+分段读取
服饰关键词是否全面覆盖 ✅ 覆盖六大主题,40余处命中
原文提取是否带行号 ✅ 是
关键词是否加粗 ✅ 是
每篇MD是否≤20KB ✅ 是
主题分类是否合理 ✅ 六类:头饰/衣袍/裙裳/织绣/佩饰/履足
竹枝词民俗特点是否体现 ✅ 重点关注民族服饰描写与民俗关联

五、输出文件

文件 路径
总结 /home/z/my-project/upload/词集output/黔苗竹枝词/黔苗竹枝词_总结.md
日志 /home/z/my-project/upload/词集output/黔苗竹枝词/黔苗竹枝词_日志.md
原文提取 /home/z/my-project/upload/词集output/黔苗竹枝词/黔苗竹枝词_原文提取.md