花间集 整理日志
任务信息
| 项目 | 内容 |
|---|---|
| 任务名称 | 词集-花间集 txt服饰逐本整理 |
| 输入文件 | /home/z/my-project/upload/词集/词集/花间集.txt |
| 输出目录 | /home/z/my-project/upload/词集output/花间集/ |
| 源文件行数 | 2563行 |
| 识别词牌组数 | 212 |
| 词牌种类 | 79种 |
| 词人数量 | 18人 |
文件结构分析
全文结构(行号范围,1-indexed)
| 区段 | 起始行 | 结束行 | 行数 |
|---|---|---|---|
| 封面/标题 | 1 | 1 | 1 |
| 目录概览 | 2 | 17 | 16 |
| 提要 | 19 | 21 | 3 |
| 花间集叙 | 22 | 24 | 3 |
| 详细目录 | 25 | 153 | 129 |
| 卷一(五十首) | 155 | 380 | 226 |
| 卷二(五十首) | 381 | 630 | 250 |
| 卷三(五十首) | 631 | 872 | 242 |
| 卷四(五十首) | 873 | 1104 | 232 |
| 卷五(五十首) | 1105 | 1344 | 240 |
| 卷六(五十一首) | 1345 | 1588 | 244 |
| 卷七(五十首) | 1589 | 1816 | 228 |
| 卷八(五十首) | 1817 | 2063 | 247 |
| 卷九(四十九首) | 2064 | 2311 | 248 |
| 卷十(五十首) | 2312 | 2551 | 240 |
| 跋 | 2552 | 2563 | 12 |
各卷词人分布
卷一(五十首)(行155–380):
- 温庭筠 50首
卷二(五十首)(行381–630):
- 温庭筠 16首
- 皇甫松 12首
- 韦庄 22首
卷三(五十首)(行631–872):
- 韦庄 26首
- 薛昭蕴 19首
- 牛峤 5首
卷四(五十首)(行873–1104):
- 牛峤 33首
- 张泌 23首
卷五(五十首)(行1105–1344):
- 张泌 4首
- 毛文锡 31首
- 牛希济 11首
- 欧阳炯 4首
卷六(五十一首)(行1345–1588):
- 欧阳炯 13首
- 和凝 20首
- 顾敻 18首
卷七(五十首)(行1589–1816):
- 顾敻 37首
- 孙光宪 13首
卷八(五十首)(行1817–2063):
- 孙光宪 48首
- 魏承斑 2首
卷九(四十九首)(行2064–2311):
- 魏承斑 13首
- 鹿虔扆 6首
- 阎选 8首
- 尹鹗 6首
- 毛熙震 16首
卷十(五十首)(行2312–2551):
- 毛熙震 13首
- 李洵 37首
整理过程
- 文件探查:
wc -l确认总行数2563行 - 结构定位:
rg -n定位各卷起始行号
- 卷一起始:第155行
- 卷十结束:第2551行
- 跋:第2552–2563行 - 分卷提取:使用
sed -n按行号范围截取各卷内容 - 编码处理:发现源文件使用
\r\n换行及\u3000(全角空格),预处理时统一转换 - 异体字发现:对比目录与词牌标题行,发现以下异体字差异:
- 目录作"薛待郎昭蕴",词牌标题行作"薛侍郎昭蕴"
- 目录作"毛司徒文钖",词牌标题行作"毛司徒文锡"
- 目录作"欧阳舍人烱",词牌标题行作"欧阳舍人炯"
- 目录作"顾敻",词牌标题行作"顾太尉敻" - 词牌解析:正则匹配词牌标题行格式,同时处理带作者署名和不带署名两种格式
- 作者识别:将官称映射为作者名,兼容异体字变体
- 原文整理:按卷→词牌→词作层级组织,保留原始分行格式
- 统计汇总:统计词牌种类、各作者作品数量等
整理结果
| 输出文件 | 内容说明 |
|---|---|
| 花间集_原文提取.md | 完整原文,按卷/词牌/作者层级整理,含提要、叙、跋 |
| 花间集_总结.md | 全书概览、词人统计、词牌统计、内容特色、文献价值 |
| 花间集_日志.md | 本文件,整理过程与结构分析记录 |
注意事项
- 原文中有少量缺字以"囗"表示,已保留
- "钖"与"锡"、"烱"与"炯"、"待"与"侍"为异体字,原文如此
- "承斑"即"承班"(魏承斑),原文如此
- 一人之词分散于不同卷中,此为原书体例
- 词牌名在不同卷中重复出现属正常,系不同作者的作品
- 每卷标题中的首数与实际词作数基本吻合(卷六为五十一首,卷九为四十九首)
- 顾敻在目录中仅题"顾敻",而词牌标题行中题"顾太尉敻",已统一归为顾敻