御定骈字类编——服饰内容提取日志
基本信息
- 书名:御定骈字类编
- 输入文件:/home/z/my-project/upload/part4_extracted/御定骈字类编.txt
- 文件总行数:101,824行
- 输出目录:/home/z/my-project/upload/p4output/御定骈字类编/
提取方法
采用grep关键词搜索+sed精确定位提取,避免加载整本TXT。
10轮关键词搜索统计
| 轮次 | 关键词类别 | 关键词示例 | 命中行数 |
|---|---|---|---|
| 1 | 衣冠类 | 衣冠、衣裳、衣裘、衣袍、衣带、衣襟、衣袖 | 567 |
| 2 | 礼服/官服 | 衮衣、法服、朝服、祭服、公服、常服、吉服、凶服、丧服 | 326 |
| 3 | 锦绣服饰 | 锦衣、绣衣、罗衣、绮衣、紫衣、朱衣、青衣、绿衣、黄衣 | 543 |
| 4 | 冠冕类 | 冠冕、冠带、冠盖、弁冕、峨冠、博冠、貂冠 | 243 |
| 5 | 佩饰类 | 佩玉、佩环、珮玉、鸣珮、步摇、花钿、珠翠 | 198 |
| 6 | 绶带类 | 绶带、绅带、玉带、金带、犀带、束带、革带、大带 | 246 |
| 7 | 履舄类 | 珠履、丝履、麻履、赤舄、金舄、屦履、芒屩 | 112 |
| 8 | 袍裙类 | 裙裾、罗裙、锦裙、纱裙、绣裙、锦袍、紫袍、黄袍等 | 185 |
| 9 | 簪钗类 | 簪钗、金簪、玉簪、凤钗、金钗、翠钿、花钿 | 137 |
| 10 | 裘褐类 | 狐裘、貂裘、鹿裘、羊裘、裘褐、褐衣、布衣、缊袍 | 336 |
10轮合计命中:约2,893行(含重复交叉计数)
核心章节定位
通过目录结构分析,确定服饰内容核心章节为器物门卷148-150(冠弁衣裘袍衫钗钿佩环)及卷173-175(锦绣罗绮布帛),另采色门含颜色+服饰组合条目。
主要章节行号定位
| 章节 | 起始行 | 终止行 | 行数 |
|---|---|---|---|
| 器物门一(冠弁冕巾帻衣裘) | 59,293 | 59,595 | 303 |
| 器物门二(衮黼黻袍衫裾缨绶裳裙屦履) | 59,596 | 60,599 | 1,004 |
| 器物门三(钗钿簪珥环佩部分) | 60,099 | 60,390 | 292 |
| 器物门二十六(锦绣绨纨缇缬币帛) | 67,829 | 68,312 | 484 |
| 器物门二十七(罗绮纱绫縠缯纻练绢) | 68,313 | 68,892 | 580 |
| 器物门二十八(布缣絁缦緼纩絺绤褐毡绵) | 68,893 | 69,306 | 414 |
| 采色门(颜色+服饰条目) | 52,100 | 54,300 | 26条 |
核心章节合计:3,077行
散见服饰条目
在天地门、时令门、山水门等章节中亦散见服饰相关引用约2,248行,多为诗文中涉及服饰描写的条目。
提取过程
- wc -l:确认文件101,824行
- 目录分析:识别器物门卷148-175含服饰核心内容
- 10轮grep:按服饰关键词分类搜索,累计命中约2,893行
- sed定位:精确提取核心章节行号范围
- 条目解析:提取各章节内完整骈字条目及引文
- 采色门补充:提取颜色+服饰组合条目26条
- 精简审查:每个条目限600字,避免MD超限
- 撰写MD:分总结/日志/原文提取三份输出
统计汇总
- 器物门服饰条目总数:约2,826条(卷148-150 + 卷173-175)
- 采色门服饰条目:26条
- 散见服饰引用行:约2,248行
- 服饰相关总行数:约5,934行(占全书5.8%)
- 提取原文条目数:2854条(含所有器物门服饰章节条目)