《隋炀帝海山记》服饰内容提取 · 日志

时间:2026-04-23 任务ID:batch3-5 书籍:《隋炀帝海山记》唐 佚名 输入文件:/home/z/my-project/upload/part4/隋炀帝海山记.txt 输出目录:/home/z/my-project/upload/4笔记output/隋炀帝海山记/


操作流程

Step 1: 读取参考文件

读取完成: - fushi-keywords.md(服饰关键词词库) - 参考/总结.md(《吕氏春秋》总结模板) - 参考/日志.md(《晋会要》日志模板) - 参考/原文提取.md(《天工开物》原文提取模板)

Step 2: 文本基本信息

文件大小:16,315 字节 行数:104 行 时代:唐 佚名撰 性质:传奇笔记小说

文件小于 500KB,但遵循规则仍以 grep 定位、sed 提取,不全文加载处理。

Step 3: 第1轮 grep —— 核心服饰词全搜

bash rg -n '衣|裳|冠|冕|袍|裘|带|佩|巾|帻|履|舄|笏|绶|幞头|裙|衫|袄|褐|绮|绫|罗|锦|绣|帛|绢|绸|缎|丝|棉|葛|麻|毡|帽|靴|鞋|袜|披|氅|褂|领|袖|袂|裾|襟|衽|裆|裤|褶|襦|襕|霞帔|首饰|簪|钗|钏|环|珮|鱼袋|鞍|鞯|辔|卤簿|仪仗|服色|章服|品服|朝服|公服|常服|吉服|丧服|祭服|戎服|赐服|赐紫|赐绯|蟒衣|飞鱼|斗牛|补服|弁|盔|胄|缨|步摇|胜|花钿|蔽膝|袴|屦|屐|蹀躞|缂丝|纹|黼|黻|法服|燕服|翟衣|袆衣|深衣' INPUT_FILE

命中行号:9, 15, 17, 23, 29, 31, 35, 37, 41, 46, 47, 52, 64, 77, 98, 102, 104

Step 4: 第2轮 grep —— 制度动作词

bash rg -n '赐服|赐紫|赐绯|赐蟒|赐鱼|赏衣|僭|逾制|违式|品色|冠礼|笄礼|敛衽|释服|加冠' INPUT_FILE

命中:0 行(全书无制度动作词直接命中)

Step 5: 第3轮扩展搜索

按需搜索补充词:

bash rg -n '珠|玉|金|朱|翠|彩|色' INPUT_FILE → 大量命中,但多属果品/花色/建筑 rg -n '衾|簟|帐|帘|幕|帷|伞|辇|舟|船|舆' INPUT_FILE → 辇/舟/伞/帘等命中 rg -n '赐|赏|禁|僭|逾|品|冠服' INPUT_FILE → 赐/乘舆/冠服 命中

Step 6: 逐条审查(应用排除规则表)

命中行 关键词 语境 判定
9 素衣 "覆酒污素衣" ✅ 保留
15 锦纹 "脱核锦纹桃" ❌ 桃品种
17 紫纹 "紫纹枣" ❌ 枣品种
23 缘纹 "缘纹李" ❌ 李品种
29 红纹 "红纹梅" ❌ 梅品种
31 紫纹 "紫纹荔枝" ❌ 荔枝品种
35 冠子 "冠子黄" ❌ 牡丹品种
37 绮明 "绮明十五" ❌ 院名
37 影纹 "影纹九" ❌ 院名
47 "环曲岸" ❌ 环绕义
52 带、绶 "修带不为歌舞绶" ✅ 保留(服饰比喻)
56 插鬓 "插鬓若相遮" ✅ 保留(发饰行为)
64 "众纹红" ❌ 水波纹
77 "锦帆斜" ✅ 保留(丝织品)
98 "履霜坚冰" ❌ 踩踏义
100 "又令赐死" ❌ 赐死非赐服
102 "蔽饰己过" ❌ 遮掩义
104 衣冠 "衣冠御内殿" ✅ 保留
104 薄衣 "薄衣小寒" ✅ 保留
104 絮袍裤 "宫人悉絮袍裤" ✅ 保留
104 "数千袍" ✅ 保留
104 "前曰赐公" ✅ 保留(赐服语境)
104 "戡进帛" ✅ 保留(丝帛实物)

最终有效条目:5大类 / 9个关键词命中

Step 7: 生成三篇 MD


关键发现

  1. 全书服饰内容极少:仅5条有效服饰信息,且4条集中在最后1行(第104行遇害场景)
  2. 无制度性服饰记载:无冠冕等级、品色制度、蚕桑纺织等系统性内容
  3. "赐絮袍裤"为核心段落:朱贵儿以赐袍质问叛军,服饰赐予成为忠义论据
  4. "进帛自绝"为全书最具戏剧性的服饰关联:丝帛从衣料变为凶器
  5. 大量果品名称误命中:锦纹桃、紫纹枣、冠子黄等果品花名含服饰词根,需严格排除

审核结果

对抗式学术审查

审查项 结果
是否有误将果品名当服饰的条目? ✅ 已全部排除(6条果品/花名误命中)
是否有将动词"履"误判为足服? ✅ 已排除"履霜坚冰"
"锦帆"是否算服饰? ⚠️ 锦帆非衣裳,但锦为丝织品,且锦帆为隋炀帝奢靡标志,保留并标注"非衣裳用途"
"戡进帛"是否算服饰? ⚠️ 帛用于自缢非制衣,但帛为丝织品类词,保留并标注"非衣裳用途"
"修带不为歌舞绶"是否算服饰? ⚠️ 为比喻用法,非写实服饰,保留并标注"服饰意象"
是否有遗漏关键词? ✅ 三轮搜索覆盖核心词+制度词+扩展词,遗漏风险极低
是否有伪造/推断性内容? ✅ 所有条目均标注行号,原文可复核查验