《全唐诗》服饰内容提取日志

基本信息


处理流程

步骤1:文件基本信息

wc -l /home/z/my-project/upload/诗集/诗集/全唐诗.txt
# 结果:188268 行
ls -lh /home/z/my-project/upload/诗集/诗集/全唐诗.txt
# 结果:13M
mkdir -p /home/z/my-project/upload/诗集output/全唐诗/

步骤2:第1轮grep — 核心服饰词统计

for kw in 衣 裘 冕 弁 帻 巾 帽 佩玉 带 绶 笏 舄 履 靴 袍 衫 裙 褶 袂 襟 领; do
  count=$(grep -c "$kw" 全唐诗.txt 2>/dev/null || echo 0)
  echo "$kw: $count"
done

结果

步骤3:第2轮grep — 材质词统计

for kw in 锦 绮 绢 帛 丝 缎 绫 罗 纱 缟 绸 葛 麻 褐 布 绵 茧; do
  count=$(grep -c "$kw" 全唐诗.txt 2>/dev/null || echo 0)
  echo "$kw: $count"
done

结果

步骤4:第3轮grep — 色彩纹饰词统计

for kw in 紫 绯 朱 赭 青 绿 白 玄 黄 丹 素 绣 纹 章 黼 黻 华; do
  count=$(grep -c "$kw" 全唐诗.txt 2>/dev/null || echo 0)
  echo "$kw: $count"
done

结果

步骤5:第4轮grep — 制度词统计

for kw in 赐服 赐紫 赐绯 品色 舆服 章服 冠服 朝服 祭服 丧服 常服 加冠 衮; do
  count=$(grep -c "$kw" 全唐诗.txt 2>/dev/null || echo 0)
  echo "$kw: $count"
done

结果

步骤6:第5轮grep — 配饰词统计

for kw in 簪 钗 钿 珰 珥 环 镯 鱼袋 幞头 云肩 霞帔 蔽膝 芾 韠 佩鱼; do
  count=$(grep -c "$kw" 全唐诗.txt 2>/dev/null || echo 0)
  echo "$kw: $count"
done

结果

步骤7:sed抽样提取上下文验证

共执行25次sed提取操作,关键验证记录如下:

编号提取命令目标结果
1sed -n '5350,5360p'赐紫衣上下文确认:王建《霓裳辞》"立地阶前赐紫衣"
2sed -n '93460,93475p'霞帔步摇冠确认:白居易《霓裳羽衣歌》详细舞服描写
3sed -n '22940,22955p'万国衣冠确认:王维"九天阊阖开宫殿,万国衣冠拜冕旒"
4sed -n '5585,5600p'狐襟貉袖确认:刘商《胡笳十八拍》胡服左衽描写
5sed -n '3820,3830p'被朝服确认:白居易"三十登宦途,五十被朝服"
6sed -n '87755,87770p'皮裘汉仪确认:白居易《缚戎人》胡汉服饰冲突
7sed -n '5098,5115p'荷叶罗裙确认:王昌龄"荷叶罗裙一色裁"
8sed -n '988,1000p'制袍字赐狄仁杰确认:武则天"敷政术,守清勤"(无服饰细节)
9sed -n '8080,8090p'褐为裘确认:张志和《渔父歌》"钓台渔父褐为裘"
10sed -n '28570,28580p'齐侯好紫衣确认:李华《杂诗》"齐侯好紫衣"
11sed -n '4410,4430p'遗簪堕珥确认:虞世南"遗簪堕珥解罗襦"
12sed -n '3640,3655p'绣裆襦确认:陆龟蒙"邻娃尽著绣裆襦"
13sed -n '6780,6790p'玳织鸳鸯履确认:李白"玳织鸳鸯履,金装翡翠簪"
14sed -n '1003,1010p'纤腰宜宝袜确认:徐贤妃"纤腰宜宝袜,红衫艳织成"
15sed -n '4583,4595p'妾有罗衣裳确认:孟郊"妾有罗衣裳,秦王在时作"
16sed -n '63560,63605p'赐紫罗襦确认:王建"御前新赐紫罗襦"
17sed -n '27350,27380p'加章服确认:刘长卿"同诸公袁郎中宴筵喜加章服"
18sed -n '94570,94585p'赐服章确认:白居易"闻行简恩赐章服"
19sed -n '6170,6185p'银鱼袋确认:李廓"倒插银鱼袋,行随金犊车"
20sed -n '62715,62730p'新授章服确认:王建"和蒋学士新授章服"
21sed -n '1315,1325p'角冠霞帔确认:徐氏"角冠霞帔事希夷"
22sed -n '55685,55705p'霞帔五帝坛确认:戎昱"霞帔初朝五帝坛"
23sed -n '92270,92285p'绯袍鱼袋确认:白居易"鹘衔瑞草绯袍鱼袋"
24sed -n '126115,126130p'蔽膝确认:温庭筠"斗鸡花蔽膝,骑马玉搔头"
25sed -n '165120,165135p'幞头确认:崔公佐客"破额幞头衫也穿"

步骤8:分类整理与审查


处理原则遵守情况

  1. ✅ 未整本载入LLM,全部通过grep+sed处理
  2. ✅ 服饰关键词由内置词库决定
  3. ✅ 三篇MD单篇不超20KB
  4. ✅ 据实撰写不灌水
  5. ✅ 做对抗式审查
  6. ✅ 日志记录命令
  7. ✅ 原文提取带行号
  8. ✅ 文件命名遵循规范