《清代燕都梨园史料续编》服饰提取日志
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 清代燕都梨园史料续编 |
| 辑者 | 张次溪 |
| 输入文件 | /home/z/my-project/upload/剧曲/剧曲/清代燕都梨园史料续编.txt |
| 输出目录 | /home/z/my-project/upload/剧曲output/清代燕都梨园史料续编/ |
| 总行数 | 2597行 |
处理流程
第1步:wc -l 查总行数
$ wc -l 清代燕都梨园史料续编.txt
2597 清代燕都梨园史料续编.txt
第2步:多轮grep -n提取服饰关键词行号
使用42个服饰关键词(衣、裳、冠、带、袍、裘、褐、巾、履、屦、绅、袂、裾、襟、裙、幅、弁、冕、簪、珥、佩、环、绮、罗、纱、绢、帛、锦、绣、练、絮、布、麻、丝、绸、缎、缯、绫、纨、绡、绶、绂、黼、黻、鹖、帻、帷、帐、幄、旗、旌、旆、纛)进行全文grep -n检索。
$ rg -n '衣|裳|冠|带|袍|裘|褐|巾|履|屦|绅|袂|裾|襟|裙|幅|弁|冕|簪|珥|佩|环|绮|罗|纱|绢|帛|锦|绣|练|絮|布|麻|丝|绸|缎|缯|绫|纨|绡|绶|绂|黼|黻|鹖|帻|帷|帐|幄|旗|旌|旆|纛' 清代燕都梨园史料续编.txt
命中行数:343行
第3步:精炼grep过滤噪音
对343行命中结果进行二次过滤,使用更精确的复合关键词(冠裳、衣冠、纱帽、蟒袍、箭衣、褶子、罗帽、青罗帽、靠、蟒、巾、帻、弁、裘、袍、锦衣、绣、衣裳、霓裳、罗裙、罗衣、纱窗、裙、缟素、幞头、帽、簪、珥、佩、环佩、绶带、黄袍、布靴、道帽、坎肩、套裤、围裙、背心、帽绒、袷衣、青帽、绢、帛、锦、缎、绸、绫、纨、绡、织、纛、旌、旗、帷、帐、幄):
$ rg -n '冠裳|衣冠|纱帽|蟒袍|箭衣|褶子|罗帽|青罗帽|靠|蟒|巾|帻|弁|裘|袍|锦衣|绣|衣裳|霓裳|罗裙|罗衣|纱窗|裙|缟素|幞头|帽|簪|珥|佩|环佩|绶带|黄袍|布靴|道帽|坎肩|套裤|围裙|背心|帽绒|袷衣|青帽|绢|帛|锦|缎|绸|绫|纨|绡|织|纛|旌|旗|帷|帐|幄' 清代燕都梨园史料续编.txt
命中行数:195行
第4步:人工审读过滤
对195行精炼命中逐条审读,剔除以下噪音类别:
| 噪音类别 | 说明 | 剔除数量 |
|---|---|---|
| 丝竹 | 指音乐,非服饰 | 约15条 |
| 锦囊/锦笺 | 书信容器,非衣物 | 约5条 |
| 旗亭 | 酒楼名,非旗帜 | 约8条 |
| 绮筵 | 宴席修辞,非织物 | 约6条 |
| 绣户/绣阁 | 建筑修辞,非刺绣 | 约3条 |
| 丝路/丝弦 | 非服饰用法 | 约4条 |
| 锦绣(喻文章) | 比喻修辞 | 约5条 |
| 帷幄(喻谋略) | 运筹帷幄,非帐幕 | 约3条 |
| 其他修辞用典 | 诗词集句中的织物名称为修辞 | 约20条 |
过滤后实质服饰内容:约70条
第5步:分类整理
将70条实质服饰内容按6类整理:
1. 戏曲行头与舞台服饰(13条)
2. 伶人日常服饰(8条)
3. 九皇堂祭祀服饰(3条,信息量大)
4. 面料与织物(25条)
5. 头饰与佩饰(10条)
6. 裘衣与其他(11条)
第6步:写入输出文件
三份输出文件:
| 文件名 | 大小 | 说明 |
|---|---|---|
| 清代燕都梨园史料续编_总结.md | ≤20KB | 分类总结与索引 |
| 清代燕都梨园史料续编_原文提取.md | ≤20KB | 原文逐条提取 |
| 清代燕都梨园史料续编_日志.md | ≤20KB | 本日志 |
噪音过滤说明
本书为梨园史料汇编,收录大量诗词题咏,其中织物名称(绡、绫、纨、绮等)频繁出现于修辞语境中。判断标准:
- 保留:直接描述服饰穿着、织物材质、佩饰形制的条目
- 保留:虽为修辞但含具体服饰信息的条目(如"吴绫半幅千行泪"反映了吴绫作为书画载体的用途)
- 剔除:纯修辞用典无服饰信息者(如"锦绣才多"仅喻才华)
- 剔除:关键词命中但与服饰无关者(如"丝竹"指音乐)
特殊发现
- 九皇堂祭祀服饰(行2473):详细记录了大老道穿"黄袍、布靴、青道帽",小老道穿"黄布坎肩、黄布套裤、黄布靴、黄围裙、青道帽",以及"七星纛""黄四方纛""黄幡"等旗帜制度,为清代梨园祭祀仪轨服饰的珍贵实录。
- 梅兰芳便装(行2065):记录梅兰芳"着青摹本细花袷衣,背心亦作青色,青帽绒顶",是极罕见的伶人便装实录。
- 谭鑫培行头系列:作者以戏迷视角详细记录谭鑫培各剧目行头,如"青罗帽,青箭,杏黄大带""冠合叶盔,黑三,红蟒""浅青巾"等,为京剧行头研究提供了第一手资料。
验证记录
- 所有提取原文均经
rg -n验证行号 - 总文件大小 ≤ 1M
- 单篇MD ≤ 20KB
- 未加载整本TXT至内存,使用流式grep+sed提取