操作日志——《三体唐诗》服饰内容提取

整理时间:2026-03-04
任务:对《三体唐诗》TXT执行服饰内容逐轮提取、筛选、整理
文件路径:/home/z/my-project/upload/诗集/诗集/三体唐诗.txt
输出目录:/home/z/my-project/upload/诗集output/三体唐诗/

Step 1:文件基本信息

wc -l /home/z/my-project/upload/诗集/诗集/三体唐诗.txt
wc -c /home/z/my-project/upload/诗集/诗集/三体唐诗.txt

结果:1126行 / 136,496字节(约133KB),属于中等体量文本,需分轮grep处理,不可整本载入LLM。


Step 2:第一轮grep——核心服饰词

for word in 衣 裳 裘 冕 冠 弁 帻 巾 帽 佩 玉 带 绶 笏 舄 履 靴 袍 衫 裙 褶 袂 襟 领; do
  grep -n "$word" "$FILE"
done

命中统计

关键词命中行数有效服饰条目
3818(大量"沾衣""湿衣""染衣"为泛指,已剔除)
22
11(翠云裘)
22(冕旒、露冕)
94(冠盖、冕旒、锦箨裁冠、加冠巾)
22(绛帻、赤帻)
94(紫纶巾、乌纱巾、华阳巾、巾舄)
33(佩声、劎佩、月佩)
484(玉钗、玉女裁春服等为有效条)
91(裙带上)
10("十笏"为量词非服饰)
11(巾舄)
21(珠履)
00
11(青袍)
00
22(茜裙、裙带)
00
11(掩袂)
10("春襟"为情感隐喻)
50(均为"领"作动词或地名)
00
00
00

关键发现:"衣"字命中38行,但大量为"沾衣""湿衣"等情感修辞用法,经人工筛选仅18行含有效服饰信息。


Step 3:第二轮grep——材质/织物词

for word in 锦 绮 绢 帛 丝 缎 绫 罗 纱 缟 绸 葛 麻 褐 布 绵 茧; do
  grep -n "$word" "$FILE"
done

命中统计

关键词命中行数有效服饰条目
114(锦袴、锦茵、锦箨裁冠、绣春云)
21(绮罗)
31(壊帛)
71(丝囊)
113(轻罗、红罗、绛罗)
21(乌纱巾)
70(均为地名/人名)
61(麻衣)
11(云褐)
123(布衣2处、赤布袴、賨布、蕉布)
30
绢/缎/绫/缟/绸/茧00

关键发现:"锦"命中11行,但"锦城""锦里""锦瑟""锦帆"等均为地名/物名,与服饰无关。"布"命中12行,"布衣"4次均为身份代称。


Step 4:第三轮grep——色彩/纹饰词

for word in 紫 绯 朱 赭 青 绿 白 玄 黄 丹 素 绣 纹 章 黼 黻 华; do
  grep -n "$word" "$FILE"
done

命中统计(仅列有有效服饰条目者):

关键词命中行数有效服饰条目
153(紫纶巾、赐紫衣、紫烟衣)
20("绯桃"为花名)
152(朱衣、朱缨)
521(青袍)
82(绣春云、绣衣)
890("白"多用作颜色修饰非服饰)
541(黄帕)
200
91(素面)
20(罗纹、水纹为纹理非服饰)
100

关键发现:色彩词命中量极大("青"52行、"白"89行、"黄"54行),但绝大多数为自然景物描写,与服饰相关者极少。此轮噪音率最高,凸显人工筛选的必要性。


Step 5:第四轮grep——制度/动作词

for word in 服 赐服 赐紫 赐绯 品色 舆服 章服 冠服 朝服 祭服 丧服 常服 加冠 衮; do
  grep -n "$word" "$FILE"
done

命中统计

关键词命中行数有效服饰条目
83(被服、赐紫衣、服䌫衣)
赐紫11(赐紫衣)
加冠11(加冠巾)
11(衮龙)
赐服/赐绯/品色/舆服/章服/冠服/朝服/祭服/丧服/常服00

关键发现:制度词命中率极低,说明本书所收唐诗以抒情写景为主,直接涉及服制术语者甚少。


Step 6:第五轮grep——配饰/器物词

for word in 簪 钗 钿 珰 珥 环 镯 鱼袋 幞头 云肩 霞帔 蔽膝 芾 韠 佩鱼; do
  grep -n "$word" "$FILE"
done

命中统计

关键词命中行数有效服饰条目
22(朝簪、簪星)
22(金钗、玉钗)
21(钿合、钿蝉为筝饰)
20(衔环为门饰、弱水环为地理)
珰/珥/镯/鱼袋/幞头/云肩/霞帔/蔽膝/芾/韠/佩鱼00

关键发现:配饰词命中率极低,"幞头""鱼袋""霞帔"等唐代典型配饰在本书中未见出现。


Step 7:上下文提取

对筛选后的关键行号执行 sed -n 'start,endp' 提取前后各5行上下文,共提取28个区段,涉及行号范围:

103-107, 117-120, 126-130, 138-142, 260-264, 299-302, 319-322, 338-342, 380-384, 396-400, 499-504, 505-510, 512-516, 569-573, 627-630, 636-640, 663-667, 697-701, 713-716, 816-822, 826-830, 937-941, 1059-1063, 1071-1075, 1076-1080, 1108-1113, 95-98, 512-516


Step 8:筛选与分类

经五轮grep+上下文提取+人工审阅,从原始命中行中筛选出有效服饰条目44条,按六类整理:

  1. 朝服与宫廷服饰(6条)
  2. 傩仪与祭祀服饰(1条)
  3. 道教与隐逸服饰(12条)
  4. 女性服饰与妆饰(8条)
  5. 身份服饰与制度(11条)
  6. 织物材质与仪仗(6条)

关键发现

  1. 全书中服饰信息密度最高的单条记录:行501王维《和贾至早朝大明宫》,一条诗含4项朝服制度要素。
  2. 注文价值高于正文:行105傩仪注文、行128女骑注文、行140赐紫衣注文均含正史级别的服饰制度信息,是本书服饰价值的主要来源。
  3. "布衣"意象泛化:4次出现均为身份隐喻,说明唐诗中"布衣"已完成从服饰实词到身份符号的语义转化。
  4. 道教服饰主题突出:本书道士服饰条目(12条)占全部有效条目的27%,远超其他类别,反映了唐代道教文化在唐诗中的渗透。

审核结果(对抗式学术审查)

审查项1:噪音排除是否充分?

结论:充分。 五轮grep原始命中总计约400+行,经筛选后仅44条有效,剔除率约89%。主要噪音来源:

审查项2:是否存在遗漏?

可能遗漏:部分泛指用法中可能隐含服饰信息,如"衣冠"(行501"万国衣冠拜冕旒")已收录,但"红袖"(行162"红袖尽")作为女性服饰借代未单独列出。此为有意取舍:红袖已固化为女性借代,服饰信息量有限。

审查项3:分类是否合理?

质疑与回应

审查项4:信息准确性?

核验结果

审查项5:总结是否过度解读?

自查:总结中"道教服饰是全书最突出的服饰主题"的判断基于条目数量统计(12/44≈27%),有数据支撑。但需注意本书为选本,条目分布受编选者周弼取舍影响,不等于唐诗整体中道教服饰的占比。