白香词谱·整理日志

基本信息

项目	内容
原始文件	/home/z/my-project/upload/词集/词集/白香词谱.txt
输出目录	/home/z/my-project/upload/词集output/白香词谱/
处理日期	2026-03-05
任务批次	batch3-e

文本结构分析

文件概况

总行数：3657行
内容构成：目次 + 符号说明 + 100首词谱正文
格式特点：词文与平仄标注交替排列

文本格式特征

每首词谱格式：
- 标题行：序号＋词牌名＋副题＋作者
- 正文：词文行与平仄标注行交替出现
- 词文行含原词文字
- 平仄标注行含○●⊙△▲符号
- 部分词文行后附格律说明（如ˇ换仄韵ˇ、ˇ叠句ˇ等）
目次部分（第6-108行）：列出全部100调词牌名及作者
符号说明（第110-111行）：ˇ○平声　●仄声　⊙可平可仄 △平韵 ▲仄韵ˇ

识别的问题

1. 缺字标记「ˇ」

原文大量使用「ˇ」标记，经推断多数为OCR识别缺失字：
- 书名：白ˇ词谱 → 白香词谱
- 词牌名：长ˇ思 → 长相思，ˇ见欢 → 相见欢，桂枝ˇ → 桂枝香等
- 词文用字：ˇ多表示"香""相""思"等常见字

2. 拆字标记「【】」

【王景】→ 璟（李璟，南唐中主）
【林下土】→ 埜（张埜）
【戋刀】→ 剪

3. 缺字标记「□」

原文部分字以□标记，表示原文缺字或无法辨认，如：
- 罗袖□残殷色可
- 杯深旋被ˇˇ□
- 手□红杏蕊
- 渐酒空金□

4. ˇ在词文中的多种含义

词牌名中的ˇ：替代缺失字
词文中的ˇ：同上
格律说明中的ˇ：如ˇ换仄韵ˇˇ叠句ˇ等，此处ˇ作为括号标记使用

数据提取处理

处理策略

原文提取：逐首提取词文，跳过平仄标注行，保留词文原貌（含ˇ和□标记）
总结分析：统计词调数量、作者朝代、词调分类等
日志记录：完整记录处理过程和发现的问题

提取规则

识别标题行：以中文数字序号开头，格式为"序号、词牌·副题　　作者"
过滤平仄标注行：含有○●⊙△▲符号的行为标注行，不纳入原文提取
保留格律注释：如ˇ换仄韵ˇˇ叠句ˇ等，作为词文的一部分保留
保留缺字标记：ˇ和□保持原样

处理结果

输出文件	内容
白香词谱_总结.md	全书总结分析
白香词谱_日志.md	处理日志（本文件）
白香词谱_原文提取.md	100首词的原文提取

质量检查

[x] 100首词全部提取
[x] 标题信息完整（序号、词牌、副题、作者）
[x] 平仄标注行已过滤
[x] 缺字标记保持原样
[x] 格律注释已保留

备注

本文件为《白香词谱》的逐本整理成果，原始电子文本存在较多OCR识别问题（以ˇ和□标记），建议后续进行人工校对。