《文苑英华》服饰内容提取 · 工作日志
时间:2026-05-09
操作流程
Step 1: 确认输入文件
- 输入:/tmp/daizhige_data/集藏/文总集/文苑英华.md
- 全书:56766行
- 输出:/home/z/my-project/upload/文总集output/文苑英华/
Step 2: 多轮grep搜索
| 关键词 | 匹配行数 |
|---|---|
| 甲 | 1391 |
| 履 | 966 |
| 丝 | 799 |
| 锦 | 666 |
| 佩 | 644 |
| 帛 | 451 |
| 绵 | 391 |
| 衮 | 368 |
| 冕 | 355 |
| 绶 | 345 |
| 绣 | 307 |
| 衣冠 | 267 |
| 裘 | 253 |
| 葛 | 233 |
| 麻 | 196 |
| 褐 | 172 |
| 袂 | 159 |
| 衣裳 | 131 |
| 金紫 | 127 |
| 袍 | 106 |
| 黼 | 103 |
| 绢 | 95 |
| 纱 | 87 |
| 簪 | 87 |
| 弁 | 86 |
| 布衣 | 84 |
| 舄 | 80 |
| 珥 | 80 |
| 裙 | 77 |
| 衫 | 66 |
| 黻 | 63 |
| 钗 | 61 |
| 笏 | 60 |
| 缟 | 59 |
| 冠带 | 41 |
| 黼黻 | 40 |
| 襦 | 32 |
| 缁衣 | 30 |
| 貂蝉 | 30 |
| 被褐 | 27 |
| 补衮 | 26 |
| 章服 | 26 |
| 帻 | 26 |
| 衮职 | 25 |
| 朝服 | 25 |
| 衽 | 25 |
| 介胄 | 23 |
| 左袵 | 21 |
| 冕服 | 20 |
| 朱衣 | 17 |
| 法服 | 15 |
| 绛纱 | 15 |
| 椎髻 | 14 |
| 赤绂 | 12 |
| 戎服 | 12 |
| 衮服 | 11 |
| 祭服 | 11 |
| 纮綖 | 11 |
| 衮冕 | 9 |
| 衣褐 | 9 |
| 衮龙 | 8 |
| 被发 | 8 |
| 绯衣 | 7 |
| 丧服 | 6 |
| 幅巾 | 6 |
| 铠 | 6 |
| 左衽 | 5 |
| 韦带 | 5 |
| 皮弁 | 5 |
| 冠缨 | 5 |
| 毡裘 | 4 |
| 赐服 | 4 |
| 旃裘 | 3 |
| 绛纱袍 | 3 |
| 衮阙 | 2 |
| 卉裳 | 2 |
| 深衣 | 2 |
| 九旒 | 2 |
| 紫袍 | 1 |
| 貂襜褕 | 1 |
总匹配行数:10053
有效服饰段落数:2338
收录段落数:100
Step 3: 噪音过滤
- Tier 1高价值复合词直接收录
- Tier 2单字需2个以上服饰词同现才收录
- 按优先级排序,收录最高分段落
Step 4: 分类整理
- 礼制与官阶服饰:52段
- 华夷服饰之辨:29段
- 官服与品阶:15段
- 戎服甲胄:4段
Step 5: 保存三份文件
- /home/z/my-project/upload/文总集output/文苑英华//原文提取.md
- /home/z/my-project/upload/文总集output/文苑英华//总结.md
- /home/z/my-project/upload/文总集output/文苑英华//日志.md
文件大小
- 原文提取.md:约18KB(19313字节)
- 总结.md:约3KB(3123字节)
- 日志.md:约0KB(0字节)
审核结果
原文均从grep -n搜索提取,有明确行号对应。《文苑英华》服饰内容约2338段有效段落,收录100段。已据实整理,未灌水凑字。