白香词谱·整理日志
基本信息
| 项目 | 内容 |
|---|---|
| 原始文件 | /home/z/my-project/upload/词集/词集/白香词谱.txt |
| 输出目录 | /home/z/my-project/upload/词集output/白香词谱/ |
| 处理日期 | 2026-03-05 |
| 任务批次 | batch3-e |
文本结构分析
文件概况
- 总行数:3657行
- 内容构成:目次 + 符号说明 + 100首词谱正文
- 格式特点:词文与平仄标注交替排列
文本格式特征
-
每首词谱格式:
- 标题行:序号+词牌名+副题+作者
- 正文:词文行与平仄标注行交替出现
- 词文行含原词文字
- 平仄标注行含○●⊙△▲符号
- 部分词文行后附格律说明(如ˇ换仄韵ˇ、ˇ叠句ˇ等) -
目次部分(第6-108行):列出全部100调词牌名及作者
-
符号说明(第110-111行):ˇ○平声 ●仄声 ⊙可平可仄 △平韵 ▲仄韵ˇ
识别的问题
1. 缺字标记「ˇ」
原文大量使用「ˇ」标记,经推断多数为OCR识别缺失字:
- 书名:白ˇ词谱 → 白香词谱
- 词牌名:长ˇ思 → 长相思,ˇ见欢 → 相见欢,桂枝ˇ → 桂枝香等
- 词文用字:ˇ多表示"香""相""思"等常见字
2. 拆字标记「【】」
- 【王景】→ 璟(李璟,南唐中主)
- 【林下土】→ 埜(张埜)
- 【戋刀】→ 剪
3. 缺字标记「□」
原文部分字以□标记,表示原文缺字或无法辨认,如:
- 罗袖□残殷色可
- 杯深旋被ˇˇ□
- 手□红杏蕊
- 渐酒空金□
4. ˇ在词文中的多种含义
- 词牌名中的ˇ:替代缺失字
- 词文中的ˇ:同上
- 格律说明中的ˇ:如ˇ换仄韵ˇˇ叠句ˇ等,此处ˇ作为括号标记使用
数据提取处理
处理策略
- 原文提取:逐首提取词文,跳过平仄标注行,保留词文原貌(含ˇ和□标记)
- 总结分析:统计词调数量、作者朝代、词调分类等
- 日志记录:完整记录处理过程和发现的问题
提取规则
- 识别标题行:以中文数字序号开头,格式为"序号、词牌·副题 作者"
- 过滤平仄标注行:含有○●⊙△▲符号的行为标注行,不纳入原文提取
- 保留格律注释:如ˇ换仄韵ˇˇ叠句ˇ等,作为词文的一部分保留
- 保留缺字标记:ˇ和□保持原样
处理结果
| 输出文件 | 内容 |
|---|---|
| 白香词谱_总结.md | 全书总结分析 |
| 白香词谱_日志.md | 处理日志(本文件) |
| 白香词谱_原文提取.md | 100首词的原文提取 |
质量检查
- [x] 100首词全部提取
- [x] 标题信息完整(序号、词牌、副题、作者)
- [x] 平仄标注行已过滤
- [x] 缺字标记保持原样
- [x] 格律注释已保留
备注
本文件为《白香词谱》的逐本整理成果,原始电子文本存在较多OCR识别问题(以ˇ和□标记),建议后续进行人工校对。