二妙集 服饰提取日志
任务:二妙集服饰内容逐轮提取
文件:/home/z/my-project/upload/诗集/诗集/二妙集.txt
大小:107,858字节 / 886行
输出目录:/home/z/my-project/upload/诗集output/二妙集/
执行时间:2026年
一、预检阶段
wc -c /home/z/my-project/upload/诗集/诗集/二妙集.txt
# 结果:107858 字节
wc -l /home/z/my-project/upload/诗集/诗集/二妙集.txt
# 结果:886 行
mkdir -p /home/z/my-project/upload/诗集output/二妙集/
# 目录创建成功
文件体积约108KB,886行。按铁律不整本载入LLM,采用grep逐轮提取+sed上下文方案。
二、第1轮检索——核心词
关键词:衣 裳 裘 冕 冕 弁 帻 巾 帽 佩 玉 带 绶 笏 舄 履 靴 袍 衫 裙 褶 袂 襟 领
rg -n "衣|裳|裘|冠|冕|弁|帻|巾|帽|佩|玉|带|绶|笏|舄|履|靴|袍|衫|裙|褶|袂|襟|领" 二妙集.txt
命中行数:约120行(含大量非服饰用法,如"玉堂""玉清""玉钩"等)
初筛有效行:约55行含服饰语义
问题记录:
- "玉"字误命中极多(玉堂、玉环、玉儿、玉骨、玉钩等均非服饰)
- "带"字大量为动词用法(带雄鸡、带减腰围、带烟霏等)
- "领"多为"统领"义,非衣领(如"领风光")
三、第2轮检索——材质
关键词:锦 绮 绢 帛 丝 缎 绫 罗 纱 缟 绸 葛 麻 褐 布 绵 茧
rg -n "锦|绮|绢|帛|丝|缎|绫|罗|纱|缟|绸|葛|麻|褐|布|绵|茧" 二妙集.txt
命中行数:约90行
初筛有效行:约18行含服饰材质语义
问题记录:
- "丝"字误命中极多(鬂丝、游丝、青丝、蛛丝等均非服饰材质)
- "锦"半数为"锦囊""锦鳞"等非服饰用法
- "罗"多出现在"罗幕""罗帷""罗韈"中,前二者为帐幕非衣
- "葛"在"葛衣""葛屦"中为有效服饰材质,但"诸葛"为误命
- "绵"出现于"绵蕝"(绵蕝之仪)为朝仪用物,属制度类
四、第3轮检索——色彩纹饰
关键词:紫 绯 朱 赭 青 绿 白 玄 黄 丹 素 绣 纹 章 黼 黻 华
rg -n "紫|绯|朱|赭|青|绿|白|玄|黄|丹|素|绣|纹|章|黼|黻" 二妙集.txt | rg -v "青山|青天|白头|白发|白云|白玉|黄金|黄花|黄河|青春|朱颜|紫阳|紫微|..."
命中行数:约80行(经二次过滤排除非服饰色彩词后)
初筛有效行:约10行含服饰色彩语义
关键发现:
- "纡紫怀黄"(行429)为品色服+印绶制度重要条目
- "绛领"(行380)为稀见的衣领色彩描写
- "绛巾"(行407)为头巾色彩实例
- "翠袖"(行361/684)为女性衣袖色彩
- "绣衣"(行122)为监察官服刺绣标识
问题记录:
- 绝大多数"青""白""黄""紫"为景物描写,非服饰色彩
- "素"多为"素来""素琴""素练"等非服饰义
- "绣"在"绣帐""绣毂"中为器物装饰,非服装刺绣
- "章台柳""章服"中"章"义不同,需区分
五、第4轮检索——制度
关键词:赐紫 赐绯 品色 舆服 章服 冠服 朝服 祭服 丧服 常服 加冠 衮 服赐
rg -n "赐紫|赐绯|品色|舆服|章服|冠服|朝服|祭服|丧服|常服|加冠|衮|服赐" 二妙集.txt
命中行数:2行
初筛有效行:2行
关键发现:
- 行94"加冠履":成人冠礼制度,为全集中唯一直接涉及冠礼的条目
- 行782"衮衮":经审查为"连续不断"义,非衮服,排除
制度词低命中率分析:《二妙集》为遗民诗集,作者不仕元朝,故主动回避品色服制度的正面书写,仅在典故中零星出现。此结果本身即具有学术意义——遗民服饰书写的"制度缺席"正是其政治态度的表达。
六、第5轮检索——配饰
关键词:簪 钗 钿 珰 珥 环 镯 鱼袋 幞头 云肩 霞帔 蔽膝 芾 韠 佩鱼
rg -n "簪|钗|钿|珰|珥|环|镯|鱼袋|幞头|云肩|霞帔|蔽膝|芾|韠|佩鱼" 二妙集.txt
命中行数:约15行
初筛有效行:8行
关键发现:
- "珥貂"(行220):珥本为耳饰,此为"插貂尾于冠旁",汉代侍中冠制
- "钗"(行393/677):发钗,均为女性头饰
- "金钿"(行401):金花头饰
- "翠环"(行677):翠玉手环/耳环
- "簪"(行623/690/707/757/794):簪缨/簪花,前者为官饰代称,后者为节令习俗
问题记录:
- "环"大量为"环堵""翠环(山)"等非配饰义
- "珰"未命中
- "幞头""云肩""霞帔""蔽膝""芾""韠""佩鱼"均未命中——证实此集不含正式礼服配饰描写
七、上下文提取
# 对55个有效行号执行sed提取完整行
for line in 50 94 105 110 114 122 135 155 187 207 214 220 236 239 249 254 257 280 284 289 290 305 307 317 322 333 340 342 344 361 366 380 388 393 395 401 403 407 429 433 451 459 461 463 466 468 474 480 506 530 535 551 599 614 617 621 623 658 668 674 677 682 684 685 735 773 779 784 786 789 807 820 836 879; do sed -n "${line}p" 二妙集.txt; done
八、对抗式学术审查
审查1:误收风险排查
| 嫌疑条目 | 行号 | 审查结论 |
|---|---|---|
| 绮语 | 94 | 排除。佛教用语"华丽言辞",非绮织物 |
| 衮衮 | 782 | 排除。形容词"连续不断",非衮服 |
| 玉堂金马 | 583/591 | 排除。官署代称,非玉饰 |
| 玉笏 | 322 | 排除。"玉防"为版本异文,原字不可确认为笏 |
| 朱轮皂盖 | 114 | 排除。车舆制度,归入车服而非服饰 |
| 绣帐 | 403 | 边缘。绣帐可为室内帷帐,与服饰关联弱,保留但标注 |
| 金阙 | 620/625 | 排除。宫门代称 |
| 素琴 | 599 | 排除。"素"为朴素义,非色彩 |
审查2:漏收风险评估
| 潜在漏收 | 评估 |
|---|---|
| "兠鍪"(行105) | 军用头盔,属甲胄类。虽非典型服饰,但与服饰制度相关,已收录 |
| "绵蕝"(行105) | 朝仪用物,属制度类,已收录 |
| "繐帷"(行207) | 丧礼帷帐,与丧服制度相关,属边缘条目,未收录 |
| "翠帷"(行399/672) | 室内帷帐,非服饰,未收录 |
审查3:分类合理性
- "菟裘"(行879)归入裘服类还是隐居类?→ 本义兔裘,已转义为退隐之所,标注语义演变
- "绣衣锦帽"是否为实际官服?→ 典故引用(元琇事),但保留了汉制御史绣衣的制度记忆
- "霓裳"三次出现是否重复?→ 各有不同语境(杨妃/舞曲/梅妆),不合并
审查4:学术可靠性自检
- ✅ 所有原文提取均带行号,可回溯验证
- ✅ 未添加任何原文不存在的内容
- ✅ 典故出处逐一标注
- ✅ 区分了实写与典故化用
- ⚠️ 部分条目(如綦弁)为比喻用法,非实际服饰描述,已在总结中标注
九、输出文件
| 文件名 | 内容 | 大小 |
|---|---|---|
| 二妙集_总结.md | 分类详述+学术价值评估 | <20KB |
| 二妙集_日志.md | 本文件,完整操作记录 | <20KB |
| 二妙集_原文提取.md | 65条原文带行号 | <20KB |
十、命令执行汇总
# 1. 文件预检
wc -c /home/z/my-project/upload/诗集/诗集/二妙集.txt # 107858
wc -l /home/z/my-project/upload/诗集/诗集/二妙集.txt # 886
# 2. 创建输出目录
mkdir -p /home/z/my-project/upload/诗集output/二妙集/
# 3. 第1轮:核心词
rg -n "衣|裳|裘|冠|冕|弁|帻|巾|帽|佩|玉|带|绶|笏|舄|履|靴|袍|衫|裙|褶|袂|襟|领" 二妙集.txt
# 4. 第2轮:材质
rg -n "锦|绮|绢|帛|丝|缎|绫|罗|纱|缟|绸|葛|麻|褐|布|绵|茧" 二妙集.txt
# 5. 第3轮:色彩纹饰(含二次过滤)
rg -n "紫|绯|朱|赭|青|绿|白|玄|黄|丹|素|绣|纹|章|黼|黻" 二妙集.txt | rg -v "青山|青天|白头|..."
# 6. 第4轮:制度
rg -n "赐紫|赐绯|品色|舆服|章服|冠服|朝服|祭服|丧服|常服|加冠|衮|服赐" 二妙集.txt
# 7. 第5轮:配饰
rg -n "簪|钗|钿|珰|珥|环|镯|鱼袋|幞头|云肩|霞帔|蔽膝|芾|韠|佩鱼" 二妙集.txt
# 8. 上下文提取
for line in 50 94 105 ... 879; do sed -n "${line}p" 二妙集.txt; done
# 9. 精确复核
rg -n "衣衾|加冠履|襃衣博带|綦弁|葛屦|緼袍|绣衣锦帽|..." 二妙集.txt
日志结束