黔苗竹枝词 — 整理日志
任务名称:txt服饰逐本整理——《黔苗竹枝词》
执行时间:2026-03-05
一、任务流程
| 步骤 | 操作 | 说明 |
|---|---|---|
| 1 | 检查输入文件 | 确认文件路径 /home/z/my-project/upload/词集/词集/黔苗竹枝词.txt 存在,共153行 |
| 2 | grep关键词提取 | 使用rg(ripgrep)以服饰关键词正则匹配,带行号输出,命中约40余行 |
| 3 | 读取全文结构 | 分段读取全文件(仅读取结构,未整本载入LLM上下文),确认竹枝词体例:每族一首/数首诗+注 |
| 4 | 按主题分类 | 将命中内容归为六大主题:头饰发饰、衣袍披挂、裙裳下装、织绣染工艺、佩饰银器、履足与武装 |
| 5 | 撰写三份MD | 分别写入原文提取.md、总结.md、日志.md |
二、关键发现
-
全书体例:竹枝词体,每族一首至数首诗,诗后附注,注中详记服饰形制。诗文与注文互参,服饰信息集中在注文。
-
服色定族名:黑苗、青苗、红苗、白苗等族名直接来源于服色,是全书最显著的服饰特征。
-
裙制两大类型:
- 通裙(贯头筒裙):南平獠"横布二幅穿中贯其首"
- 桶裙(围腰筒裙):花犭乞犭老"以幅布围腰旁无襞绩" -
蜡染工艺记录(白苗,L55):先用蜡绘花於布→染之→去蜡显花,为早期蜡染工艺的珍贵文字记录。
-
九股苗铁制武装(L90):铁帽+铁铠+铁炼+铁片缠股,为全书最特殊的"服饰"记载,实为武备。
-
谷蔺布经济现象(L87):深山织成精密之布却不自衣,专供入市交易,说明纺织已从自用发展为商品生产。
-
犭农人以布层数标情场战绩(L146):髻上青花布每私一男加一层,积累至数十层为荣,服饰与性文化直接挂钩。
三、踩坑记录
-
生僻字OCR问题:原文中"犭乞犭老""犭羊犷""犭农"等民族名为OCR扫描,"犭"旁字常缺笔画或乱码,整理时保留原字不变,不加臆测。
-
注文断句困难:古籍无标点,注文常无断句(如L16"冠乌熊皮若注旄以金银络额被毛皮韦行著履"),需结合上下文推断断句位置,整理时在简注中给出合理句读。
-
诗文与注文对应:部分注文跨行,grep单行匹配可能丢失上下文。处理方式:先grep定位行号,再手动对照诗注对应关系,确保不误配。
-
"衣"字泛用:部分"衣"字为动词(穿衣)而非名词(衣服),如L41"皆衣黑"中"衣"为动词。分类时注意区分,但原文提取中仍予收录,因动词用法同样反映服饰信息。
四、审核结果
| 审核项 | 结果 |
|---|---|
| 是否仅处理《黔苗竹枝词》 | ✅ 是 |
| 是否避免整本TXT载入LLM | ✅ 是,仅grep+分段读取 |
| 服饰关键词是否全面覆盖 | ✅ 覆盖六大主题,40余处命中 |
| 原文提取是否带行号 | ✅ 是 |
| 关键词是否加粗 | ✅ 是 |
| 每篇MD是否≤20KB | ✅ 是 |
| 主题分类是否合理 | ✅ 六类:头饰/衣袍/裙裳/织绣/佩饰/履足 |
| 竹枝词民俗特点是否体现 | ✅ 重点关注民族服饰描写与民俗关联 |
五、输出文件
| 文件 | 路径 |
|---|---|
| 总结 | /home/z/my-project/upload/词集output/黔苗竹枝词/黔苗竹枝词_总结.md |
| 日志 | /home/z/my-project/upload/词集output/黔苗竹枝词/黔苗竹枝词_日志.md |
| 原文提取 | /home/z/my-project/upload/词集output/黔苗竹枝词/黔苗竹枝词_原文提取.md |