春秋三传谳——服饰提取工作日志
基本信息
| 项目 | 内容 |
|---|---|
| 任务ID | batch5-5 |
| 书名 | 春秋三传谳 |
| 输入文件 | /home/z/my-project/春秋/春秋三传谳.txt |
| 输出目录 | /home/z/my-project/春秋output2/春秋三传谳/ |
| 文件总行数 | 3398行 |
| 执行时间 | 2025年 |
执行流程
第一步:创建输出目录,检查输入文件
mkdir -p /home/z/my-project/春秋output2/春秋三传谳/- 确认输入文件存在,3398行
第二步:多轮grep提取服饰相关行号
第一轮:制度类关键词(服色/舆服/冠服/章服/服制/服章)
- 命中:行1927(正朔服色)
- 命中:行1300(宫室车旗衣服)
- 命中:行3316(革制度衣服)
第二轮:衣冠类关键词(衣/裳/裘/弁/佩/冠/冕/袍/带/履/舄/巾/帽/绶/笏/黼/黻)
- 命中行号(去重后):354, 366, 367, 381, 383, 384, 388, 579, 587, 602, 641, 712, 728, 729, 740, 756, 789, 823, 824, 872, 935, 961, 1013, 1056, 1127, 1204, 1236, 1254, 1267, 1268, 1269, 1282, 1301, 1306, 1406, 1433, 1603, 1722, 1811, 1891, 1989, 2073, 2074, 2155, 2189, 2194, 2216, 2233, 2235, 2284, 2286, 2293, 2299, 2306, 2401, 2402, 2518, 2629, 2692, 2693, 2694, 2699, 2798, 2799, 2824, 2825, 2908, 2938, 3048, 3201, 3316, 3383, 3386
- 筛选后与服饰直接相关:354, 587, 641, 740, 789, 823, 824, 872, 935, 1013, 1127, 1254, 1269, 1406, 1811, 1891, 2073, 2155, 2216, 2401, 2402, 2518, 2692, 2694, 2798, 2799, 2824, 2825, 2908, 2938, 3048, 3316, 3386
- 排除:带(地带/地带义,非衣带)、冠(冠于地名/冠以国名等非服饰义)、裘(人名含"裘"者极少,本处"狐裘"为服饰义)、佩(多为人名/佩戴信物)
第三轮:材料类关键词(丝/帛/绢/锦/绮/绫/罗/缎/葛/麻/褐/纩/绵)
- 命中:行740(妾不衣帛)、行935(裳帛)、行1085(币锦)、行1406(冬不裘夏不葛)、行1433(葛人——国名非服饰)、行3201(以葛覆质)
- 排除:绵上(地名)、罗(人名/地名)
第四轮:颜色类关键词(紫袍/绯袍/绿袍/青衣/朱衣/玄衣/黄衣/白衣)
- 命中:行3048(缁衣纁裳——属颜色+服饰组合)
- 未命中:紫袍/绯袍/绿袍/青衣/朱衣/玄衣/黄衣/白衣均无匹配
第五轮:礼服类关键词(衮服/深衣/皮弁/玄冕/衮冕/鷩冕/毳冕/絺冕)
- 命中:行354(鷩冕衮冕)、行2938(皮弁聼朔)
第六轮:动作类关键词(赐服/赐紫/赐绯/加冠/加元服)
- 无直接匹配("加冠"相关内容在行823-824以"冠"字单独命中)
第七轮:纺织类关键词(蚕/桑/织/纺/染/绣)
- 命中:行641(织纴)、行827(桑林——非纺织义)、行1085(锦——已收录)、行1210(蚕室——地名)、行2155(绣质)、行2469(亲蚕)
- 排除:桑林(乐名)、蚕室(地名)、染指(非染色义)
第三步:精简提取原文片段
- 对筛选后的34处服饰相关行,逐一读取上下文(±3行)
- 排除伪命中(如"地带""冠以国名""桑林乐名""蚕室地名""染指"等)
- 最终确认有效服饰条目34处
第四步:撰写输出文件
- 春秋三传谳_原文提取.md:按十大主题分类整理,每条附原文、按语、行号
- 春秋三传谳_总结.md:含书籍概况、总体特征、核心主题分析、学术价值评估
- 春秋三传谳_日志.md:本文件
命中统计
| 轮次 | 关键词类别 | 初始命中 | 去伪后有效 |
|---|---|---|---|
| 1 | 制度类 | 3 | 3 |
| 2 | 衣冠类 | 75+ | 24 |
| 3 | 材料类 | 8 | 4 |
| 4 | 颜色类 | 1 | 1 |
| 5 | 礼服类 | 2 | 2 |
| 6 | 动作类 | 0 | 0 |
| 7 | 纺织类 | 6 | 3 |
| 合计 | 95+ | 34(去重后) |
伪命中典型
| 伪命中 | 行号 | 原因 |
|---|---|---|
| 带(地带) | 728 | "向带"为人名 |
| 冠(冠以国名) | 602 | "皆冠以赤狄"非服饰 |
| 桑(桑林) | 827 | "桑林"为乐舞名 |
| 蚕(蚕室) | 1210 | "蚕室"为地名 |
| 染(染指) | 545 | "染指于鼎"非染色义 |
| 葛(葛人) | 1433 | "葛人"为国名 |
| 裘(人名) | — | 本处无伪命中 |
质量控制
- [x] 严禁加载整本TXT进LLM上下文
- [x] 多轮grep提取行号
- [x] 每条原文附行号可溯源
- [x] 伪命中逐一排查
- [x] 原文提取MD < 20KB
- [x] 总结MD < 20KB