白香词谱·整理日志

基本信息

项目 内容
原始文件 /home/z/my-project/upload/词集/词集/白香词谱.txt
输出目录 /home/z/my-project/upload/词集output/白香词谱/
处理日期 2026-03-05
任务批次 batch3-e

文本结构分析

文件概况

文本格式特征

  1. 每首词谱格式:
    - 标题行:序号+词牌名+副题+作者
    - 正文:词文行与平仄标注行交替出现
    - 词文行含原词文字
    - 平仄标注行含○●⊙△▲符号
    - 部分词文行后附格律说明(如ˇ换仄韵ˇ、ˇ叠句ˇ等)

  2. 目次部分(第6-108行):列出全部100调词牌名及作者

  3. 符号说明(第110-111行):ˇ○平声 ●仄声 ⊙可平可仄 △平韵 ▲仄韵ˇ

识别的问题

1. 缺字标记「ˇ」

原文大量使用「ˇ」标记,经推断多数为OCR识别缺失字:
- 书名:白ˇ词谱 → 白词谱
- 词牌名:长ˇ思 → 长思,ˇ见欢 → 见欢,桂枝ˇ → 桂枝
- 词文用字:ˇ多表示"香""相""思"等常见字

2. 拆字标记「【】」

3. 缺字标记「□」

原文部分字以□标记,表示原文缺字或无法辨认,如:
- 罗袖□残殷色可
- 杯深旋被ˇˇ□
- 手□红杏蕊
- 渐酒空金□

4. ˇ在词文中的多种含义

数据提取处理

处理策略

  1. 原文提取:逐首提取词文,跳过平仄标注行,保留词文原貌(含ˇ和□标记)
  2. 总结分析:统计词调数量、作者朝代、词调分类等
  3. 日志记录:完整记录处理过程和发现的问题

提取规则

处理结果

输出文件 内容
白香词谱_总结.md 全书总结分析
白香词谱_日志.md 处理日志(本文件)
白香词谱_原文提取.md 100首词的原文提取

质量检查

备注

本文件为《白香词谱》的逐本整理成果,原始电子文本存在较多OCR识别问题(以ˇ和□标记),建议后续进行人工校对。