《敦煌歌辞总编》服饰内容提取日志

基本信息

  • 书名:敦煌歌辞总编
  • 输入文件:/home/z/my-project/upload/剧曲/剧曲/敦煌歌辞总编.txt
  • 输出目录:/home/z/my-project/upload/剧曲output/敦煌歌辞总编/
  • 总行数:5834行
  • 处理时间:2026-03-04

处理流程

第一步:总行数统计

wc -l 敦煌歌辞总编.txt → 5834行

第二步:关键词检索(共47个关键词)

以grep/ripgrep逐一检索,结果如下:

关键词 命中行数(去重前) 有效服饰条目 备注
~160行 ~80条 大量"征衣""罗衣""御衣""锦衣"等;需过滤"衣食""衣粮""垂衣理"等非服饰用法
~16行 ~6条 "罗裳""衣裳""汉衣裳"
~12行 ~6条 "碧罗冠""丝碧罗冠""凉罗冠子";需过滤"冠古"(非服饰)
~22行 ~8条 "罗带""犀腰带""裙带";需过滤"地带""带甲""面带"等
~6行 ~3条 "战袍""衲袍"
~8行 ~5条 "皮裘""羔子皮裘""衣轻裘""狐襟貉袖"
~6行 ~3条 "麻褐""缕褐""褐绫"
~8行 ~3条 "巾头匹帛""巾鹿古鞍""巾栉"
~4行 ~2条 "高头绣履""师履"
0行 0条 未命中
0行 0条 未命中
~2行 1条 "罗衣掩袂"
0行 0条 未命中
~10行 ~3条 "满衣襟""狐襟""襟襕";需过滤"连襟""襟怀"(非服饰)
~16行 ~10条 "石榴裙""绣裙""合欢裙带""金缕裙""衫裙"
0行 0条 未命中
0行 0条 未命中
0行 0条 未命中
~4行 ~2条 "簪缨""簪花"
0行 0条 未命中
~2行 1条 "摇玉佩"
~14行 ~2条 "玉环""环甲";需过滤"循环""轮回"等非服饰用法
~18行 ~8条 "绮罗""罗绮"
~120行 ~40条 命中最多,需大量过滤:阿罗汉/婆罗门/罗网/阎罗/偻罗/般若波罗蜜等非服饰用法
~12行 ~4条 "纱窗""紧纹纱""碧纱笼"
~4行 ~3条 "绫绢"
~6行 ~3条 "匹帛""竹帛""锦帛"
~40行 ~25条 "锦衣""锦帽""锦绣""锦帐""蜀锦花"等
~28行 ~15条 "绣裙""绣履""绣帏""绣画""绣舞衣"等
~14行 ~2条 "捣练";需过滤"现练现""练八斋"等非服饰用法
~4行 1条 "絮重更熏香"
~16行 0条 "布施""布鼓""布云端"等均为非服饰用法
~8行 ~2条 "麻褐";需过滤"如麻乱""担麻"等
多量 ~2条 大量为"青丝""丝竹""银丝"等非服饰用法,服饰义仅"银丝结"
0行 0条 未命中
0行 0条 未命中
0行 0条 未命中
~14行 ~7条 "绫罗""绫绢""褐绫""绵绫"
0行 0条 未命中
0行 0条 未命中
0行 0条 未命中
0行 0条 未命中
0行 0条 未命中
0行 0条 未命中
0行 0条 未命中
0行 0条 未命中
~2行 1条 "罗帷翠幕"
~16行 ~8条 "罗帐""锦帐""鸳鸯帐""鸾帐""毡帐""红罗帐"
0行 0条 未命中
~4行 ~2条 "白旗舞""卷旗旛"
~4行 ~2条 "双旌""龙旌"
0行 0条 未命中
0行 0条 未命中

第三步:噪音过滤

主要过滤规则:
1. "罗"字噪音:阿罗汉、婆罗门、罗网、阎罗、偻罗、般若波罗蜜、罗剎、罗什、那罗延、修多罗、罗列、罗机等均为佛教专名或非服饰用语,全部排除
2. "衣"字噪音:衣食(泛指生计)、衣粮(俸粮)、垂衣理(政治术语)、衣钵(法器义非服饰义)、衣裓(佛教器具)等视语境部分保留部分排除
3. "带"字噪音:面带、地带、带甲、带鳞等非服饰用法排除
4. "布"字噪音:布施、宣布、分布等全部非服饰用法
5. "环"字噪音:循环、轮回等非服饰用法排除
6. "丝"字噪音:青丝(头发)、丝竹(乐器)、金丝线等非服饰织物义排除
7. 重复内容:全书前后约半数内容重复,前半(行49-2835)与后半(行2967-5785)为副本,原文提取仅录前半行号

第四步:最终统计

  • 命中关键词:28个
  • 未命中关键词:19个(屦、绅、裾、弁、冕、珥、幅、纨、绡、绶、绂、黼、黻、鹖、帻、幄、绸、缎、缯、旆、纛)
  • 有效服饰条目:约80条(去重后)
  • 服饰类别:征衣寒衣、罗衣罗裳、裙、冠、裘、袍褐僧服、带佩履、锦绣、御衣、帷帐、旗旌、胡汉交融、丧葬衣饰共13类

输出文件

文件名 大小 说明
敦煌歌辞总编_总结.md ~5KB 服饰类型分析与文化特征总结
敦煌歌辞总编_原文提取.md ~15KB 按类别摘录原文,标注行号与歌辞编号
敦煌歌辞总编_日志.md ~6KB 本文件,记录处理流程

特别说明

  1. 本书为敦煌歌辞文献,服饰描写以民间闺情、边塞征衣、佛教僧服三大主题为主,缺乏宫廷礼服、礼仪冠服的系统性描写。
  2. "罗"字出现频率极高,但大量为佛教专名(阿罗汉、婆罗门等),经严格过滤后保留约40条服饰相关条目。
  3. 全书结构存在前后内容重复现象,原文提取以先出条目为准,后出者标注"(重出)"。
  4. "布"字虽属服饰关键词词库,但在本书中全部为"布施""宣布"等用法,无织布、布衣之义,故有效条目为0。