《序跋集萃》服饰内容提取 · 工作日志
时间:2026-05-09
任务:提取《序跋集萃》全部服饰相关内容,整理分类总结
操作流程
Step 1: 读取参考模板
```
读取 文总集output/文章正宗/原文提取.md
读取 文总集output/文章正宗/总结.md
读取 文总集output/文章正宗/日志.md
→ 确认三份MD输出格式
```
Step 2: 确认输入文件
```
输入文件路径 /home/z/my-project/upload/文总集/文总集/序跋集萃.txt 不存在
→ 从殆知阁GitHub仓库下载:frankslin/daizhigev20 data分支
→ git clone --sparse + git ls-tree 定位文件
→ 文件名序跋集萃.md(八进制编码 \345\272\217\350\267\213\351\233\206\350\220\203)
→ git show HEAD:集藏/文总集/序跋集萃.md 下载
→ 保存为 /home/z/my-project/upload/文总集/文总集/序跋集萃.txt
wc -l → 286行,101539字节(约99KB)
mkdir -p 文总集output/序跋集萃/ → 创建输出目录
```
Step 3: 多轮grep搜索(10轮50词)
| 轮次 | 关键词 | 匹配行数 |
|---|---|---|
| R1 | 衣(4) 冠(10) 冕(1) 裳(3) 裘(3) | |
| R2 | 袍(0) 褐(0) 裙(2) 衫(1) 襦(0) | |
| R3 | 绶(0) 佩(0) 笏(0) 履(0) 舄(1) | |
| R4 | 帻(0) 弁(0) 铠(0) 甲(8) 兜鍪(0) | |
| R5 | 帛(0) 绢(1) 缟(0) 纱(0) 锦(3) | |
| R6 | 绣(3) 黼(1) 黻(0) 衮(1) 章服(0) | |
| R7 | 带(5) 袂(1) 襟(2) 袖(4) 衽(3) | |
| R8 | 丝(6) 麻(1) 葛(2) 布衣(1) 绵(2) | |
| R9 | 朝服(0) 祭服(0) 丧服(0) 戎服(0) 法服(0) | |
| R10 | 深衣(0) 缁衣(0) 素衣(0) 朱衣(0) 青衣(0) |
总匹配行数:约65行(去重前)
R9-R10全部为零——朝服、祭服、丧服、戎服、法服、深衣、缁衣、素衣、朱衣、青衣均无匹配,说明全书完全缺乏制度性服饰内容。
Step 4: 补充搜索
对以下关键词执行grep -n精确提取:
- 箬笠(3) 蓑衣(3) 羊裘(2) 挂冠(3) 挂神武冠(1)
- 青衫(1) 盛服(1) 玳瑁之簪(1) 宫髻(1) 飞凫舄(1)
- 玉带(1) 裙裾(1) 舞裙(1) 绮罗(1) 黼藻(1) 衣钵(1)
- 冠时(1) 布衣旧(1) 轻裘缓带(1) 五彩新丝(1)
关键发现:
- 《序跋集萃》全书286行,服饰内容极为稀少
- 箬笠蓑衣为最典型的服饰意象,围绕张志和《渔父词》展开
- 挂冠为出现频率最高的服饰隐语(3次)
- 《花间集》序(行33)为服饰元素最密集的段落
- 吴激词中"宫髻堆鸦/青衫湿泪"为最精彩的亡国服饰对照
- 全书无任何制度性服饰论述
Step 5: 噪音过滤
噪音类别:
- "冠"10行中约5行为"冠之以序""冠诸篇首""冠时"等非服饰用法
- "甲"8行全部为天干"甲子""甲寅""甲辰"等纪年,无甲胄服饰
- "衣"4行中1行"布衣旧"为身份代称,3行为蓑衣/衣钵
- "带"5行中约3行为"带领""地带""带御器械"非服饰
- "裳"3行全部为人名"黄裳"
- "衮"1行为人名"费补之衮"
- "襟"2行为"襟抱"非服饰
- "袖"4行中约2行为"袖出词一编""袖手"非服饰
- "丝"6行中约5行为"丝竹""丝弦"非丝织服饰
- "葛"2行为人名"葛大川"
- "麻"1行为地名"麻桥"
- "绵"2行为"绵密"形容词
有效服饰段落估计:约25段
Step 6: 保存三份文件
- 文总集output/序跋集萃/原文提取.md
- 文总集output/序跋集萃/总结.md
- 文总集output/序跋集萃/日志.md(本文件)
关键发现
- 箬笠蓑衣为全书核心服饰意象:围绕张志和《渔父词》经苏轼、黄庭坚、元好问三度改写,成为隐逸美学的永恒符号
- 挂冠为最高频服饰隐语:3次出现,均指张元干辞官,以脱去官帽标志归隐
- 《花间集》序为服饰最密集段落:玳瑁之簪、绣幌、丽锦等,以服饰铺陈词学生态
- 吴激词为最精彩的亡国服饰描写:宫髻与青衫构成完整对照
- 全书完全缺乏制度性服饰:无衮冕、黼黻、朝服、祭服、章服、法服等
关键踩坑记录
- 输入文件不存在于指定路径,需从殆知阁GitHub仓库下载
- 文件名在git ls-tree中以八进制编码显示,需用python3解码确认
- "甲"8行全部为天干纪年,无一为甲胄服饰——与此前处理的文总集情况一致
- "裳"3行全部为人名"黄裳",非下裳之裳
- "衮"1行为人名"费补之衮",非衮冕之衮
- "葛""麻""绵"均为非服饰用法(人名/地名/形容词)
- R9-R10共10个关键词全部零匹配,为所有已处理文总集中最极端的情况
- 全书286行仅约25个有效服饰段落,服饰内容密度极低
文件大小
- 原文提取.md:待确认
- 总结.md:待确认
- 日志.md:待确认
审核结果
原文均从grep -n提取,有明确行号对应。《序跋集萃》为词集序跋汇编,服饰内容以文学意象为主,完全缺乏制度性论述。已据实整理,未灌水凑字。全书服饰内容极少,约25个有效段落,据实说明。