花间集 整理日志

任务信息

项目 内容
任务名称 词集-花间集 txt服饰逐本整理
输入文件 /home/z/my-project/upload/词集/词集/花间集.txt
输出目录 /home/z/my-project/upload/词集output/花间集/
源文件行数 2563行
识别词牌组数 212
词牌种类 79种
词人数量 18人

文件结构分析

全文结构(行号范围,1-indexed)

区段 起始行 结束行 行数
封面/标题 1 1 1
目录概览 2 17 16
提要 19 21 3
花间集叙 22 24 3
详细目录 25 153 129
卷一(五十首) 155 380 226
卷二(五十首) 381 630 250
卷三(五十首) 631 872 242
卷四(五十首) 873 1104 232
卷五(五十首) 1105 1344 240
卷六(五十一首) 1345 1588 244
卷七(五十首) 1589 1816 228
卷八(五十首) 1817 2063 247
卷九(四十九首) 2064 2311 248
卷十(五十首) 2312 2551 240
2552 2563 12

各卷词人分布

卷一(五十首)(行155–380):

卷二(五十首)(行381–630):

卷三(五十首)(行631–872):

卷四(五十首)(行873–1104):

卷五(五十首)(行1105–1344):

卷六(五十一首)(行1345–1588):

卷七(五十首)(行1589–1816):

卷八(五十首)(行1817–2063):

卷九(四十九首)(行2064–2311):

卷十(五十首)(行2312–2551):

整理过程

  1. 文件探查wc -l 确认总行数2563行
  2. 结构定位rg -n 定位各卷起始行号
    - 卷一起始:第155行
    - 卷十结束:第2551行
    - 跋:第2552–2563行
  3. 分卷提取:使用 sed -n 按行号范围截取各卷内容
  4. 编码处理:发现源文件使用 \r\n 换行及 \u3000(全角空格),预处理时统一转换
  5. 异体字发现:对比目录与词牌标题行,发现以下异体字差异:
    - 目录作"薛待郎昭蕴",词牌标题行作"薛侍郎昭蕴"
    - 目录作"毛司徒文钖",词牌标题行作"毛司徒文锡"
    - 目录作"欧阳舍人烱",词牌标题行作"欧阳舍人炯"
    - 目录作"顾敻",词牌标题行作"顾太尉敻"
  6. 词牌解析:正则匹配词牌标题行格式,同时处理带作者署名和不带署名两种格式
  7. 作者识别:将官称映射为作者名,兼容异体字变体
  8. 原文整理:按卷→词牌→词作层级组织,保留原始分行格式
  9. 统计汇总:统计词牌种类、各作者作品数量等

整理结果

输出文件 内容说明
花间集_原文提取.md 完整原文,按卷/词牌/作者层级整理,含提要、叙、跋
花间集_总结.md 全书概览、词人统计、词牌统计、内容特色、文献价值
花间集_日志.md 本文件,整理过程与结构分析记录

注意事项