《敦煌歌辞总编》服饰内容提取日志
基本信息
- 书名:敦煌歌辞总编
- 输入文件:/home/z/my-project/upload/剧曲/剧曲/敦煌歌辞总编.txt
- 输出目录:/home/z/my-project/upload/剧曲output/敦煌歌辞总编/
- 总行数:5834行
- 处理时间:2026-03-04
处理流程
第一步:总行数统计
wc -l 敦煌歌辞总编.txt → 5834行
第二步:关键词检索(共47个关键词)
以grep/ripgrep逐一检索,结果如下:
| 关键词 | 命中行数(去重前) | 有效服饰条目 | 备注 |
|---|---|---|---|
| 衣 | ~160行 | ~80条 | 大量"征衣""罗衣""御衣""锦衣"等;需过滤"衣食""衣粮""垂衣理"等非服饰用法 |
| 裳 | ~16行 | ~6条 | "罗裳""衣裳""汉衣裳" |
| 冠 | ~12行 | ~6条 | "碧罗冠""丝碧罗冠""凉罗冠子";需过滤"冠古"(非服饰) |
| 带 | ~22行 | ~8条 | "罗带""犀腰带""裙带";需过滤"地带""带甲""面带"等 |
| 袍 | ~6行 | ~3条 | "战袍""衲袍" |
| 裘 | ~8行 | ~5条 | "皮裘""羔子皮裘""衣轻裘""狐襟貉袖" |
| 褐 | ~6行 | ~3条 | "麻褐""缕褐""褐绫" |
| 巾 | ~8行 | ~3条 | "巾头匹帛""巾鹿古鞍""巾栉" |
| 履 | ~4行 | ~2条 | "高头绣履""师履" |
| 屦 | 0行 | 0条 | 未命中 |
| 绅 | 0行 | 0条 | 未命中 |
| 袂 | ~2行 | 1条 | "罗衣掩袂" |
| 裾 | 0行 | 0条 | 未命中 |
| 襟 | ~10行 | ~3条 | "满衣襟""狐襟""襟襕";需过滤"连襟""襟怀"(非服饰) |
| 裙 | ~16行 | ~10条 | "石榴裙""绣裙""合欢裙带""金缕裙""衫裙" |
| 幅 | 0行 | 0条 | 未命中 |
| 弁 | 0行 | 0条 | 未命中 |
| 冕 | 0行 | 0条 | 未命中 |
| 簪 | ~4行 | ~2条 | "簪缨""簪花" |
| 珥 | 0行 | 0条 | 未命中 |
| 佩 | ~2行 | 1条 | "摇玉佩" |
| 环 | ~14行 | ~2条 | "玉环""环甲";需过滤"循环""轮回"等非服饰用法 |
| 绮 | ~18行 | ~8条 | "绮罗""罗绮" |
| 罗 | ~120行 | ~40条 | 命中最多,需大量过滤:阿罗汉/婆罗门/罗网/阎罗/偻罗/般若波罗蜜等非服饰用法 |
| 纱 | ~12行 | ~4条 | "纱窗""紧纹纱""碧纱笼" |
| 绢 | ~4行 | ~3条 | "绫绢" |
| 帛 | ~6行 | ~3条 | "匹帛""竹帛""锦帛" |
| 锦 | ~40行 | ~25条 | "锦衣""锦帽""锦绣""锦帐""蜀锦花"等 |
| 绣 | ~28行 | ~15条 | "绣裙""绣履""绣帏""绣画""绣舞衣"等 |
| 练 | ~14行 | ~2条 | "捣练";需过滤"现练现""练八斋"等非服饰用法 |
| 絮 | ~4行 | 1条 | "絮重更熏香" |
| 布 | ~16行 | 0条 | "布施""布鼓""布云端"等均为非服饰用法 |
| 麻 | ~8行 | ~2条 | "麻褐";需过滤"如麻乱""担麻"等 |
| 丝 | 多量 | ~2条 | 大量为"青丝""丝竹""银丝"等非服饰用法,服饰义仅"银丝结" |
| 绸 | 0行 | 0条 | 未命中 |
| 缎 | 0行 | 0条 | 未命中 |
| 缯 | 0行 | 0条 | 未命中 |
| 绫 | ~14行 | ~7条 | "绫罗""绫绢""褐绫""绵绫" |
| 纨 | 0行 | 0条 | 未命中 |
| 绡 | 0行 | 0条 | 未命中 |
| 绶 | 0行 | 0条 | 未命中 |
| 绂 | 0行 | 0条 | 未命中 |
| 黼 | 0行 | 0条 | 未命中 |
| 黻 | 0行 | 0条 | 未命中 |
| 鹖 | 0行 | 0条 | 未命中 |
| 帻 | 0行 | 0条 | 未命中 |
| 帷 | ~2行 | 1条 | "罗帷翠幕" |
| 帐 | ~16行 | ~8条 | "罗帐""锦帐""鸳鸯帐""鸾帐""毡帐""红罗帐" |
| 幄 | 0行 | 0条 | 未命中 |
| 旗 | ~4行 | ~2条 | "白旗舞""卷旗旛" |
| 旌 | ~4行 | ~2条 | "双旌""龙旌" |
| 旆 | 0行 | 0条 | 未命中 |
| 纛 | 0行 | 0条 | 未命中 |
第三步:噪音过滤
主要过滤规则:
1. "罗"字噪音:阿罗汉、婆罗门、罗网、阎罗、偻罗、般若波罗蜜、罗剎、罗什、那罗延、修多罗、罗列、罗机等均为佛教专名或非服饰用语,全部排除
2. "衣"字噪音:衣食(泛指生计)、衣粮(俸粮)、垂衣理(政治术语)、衣钵(法器义非服饰义)、衣裓(佛教器具)等视语境部分保留部分排除
3. "带"字噪音:面带、地带、带甲、带鳞等非服饰用法排除
4. "布"字噪音:布施、宣布、分布等全部非服饰用法
5. "环"字噪音:循环、轮回等非服饰用法排除
6. "丝"字噪音:青丝(头发)、丝竹(乐器)、金丝线等非服饰织物义排除
7. 重复内容:全书前后约半数内容重复,前半(行49-2835)与后半(行2967-5785)为副本,原文提取仅录前半行号
第四步:最终统计
- 命中关键词:28个
- 未命中关键词:19个(屦、绅、裾、弁、冕、珥、幅、纨、绡、绶、绂、黼、黻、鹖、帻、幄、绸、缎、缯、旆、纛)
- 有效服饰条目:约80条(去重后)
- 服饰类别:征衣寒衣、罗衣罗裳、裙、冠、裘、袍褐僧服、带佩履、锦绣、御衣、帷帐、旗旌、胡汉交融、丧葬衣饰共13类
输出文件
| 文件名 | 大小 | 说明 |
|---|---|---|
| 敦煌歌辞总编_总结.md | ~5KB | 服饰类型分析与文化特征总结 |
| 敦煌歌辞总编_原文提取.md | ~15KB | 按类别摘录原文,标注行号与歌辞编号 |
| 敦煌歌辞总编_日志.md | ~6KB | 本文件,记录处理流程 |
特别说明
- 本书为敦煌歌辞文献,服饰描写以民间闺情、边塞征衣、佛教僧服三大主题为主,缺乏宫廷礼服、礼仪冠服的系统性描写。
- "罗"字出现频率极高,但大量为佛教专名(阿罗汉、婆罗门等),经严格过滤后保留约40条服饰相关条目。
- 全书结构存在前后内容重复现象,原文提取以先出条目为准,后出者标注"(重出)"。
- "布"字虽属服饰关键词词库,但在本书中全部为"布施""宣布"等用法,无织布、布衣之义,故有效条目为0。