《古今刀剑录》服饰内容提取日志
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 古今刀剑录 |
| 作者 | (梁)陶弘景 |
| 输入文件 | /home/z/my-project/upload/器物/器物/古今刀剑录.txt |
| 输出目录 | /home/z/my-project/upload/器物output/古今刀剑录/ |
| 文件总行数 | 88 |
| 书籍性质 | 器物谱录(刀剑专录) |
处理流程
第一步:wc -l 查总行数
$ wc -l /home/z/my-project/upload/器物/器物/古今刀剑录.txt
88
文件共88行,体量较小。
第二步:多轮grep -n提取服饰关键词行号
使用50个服饰关键词进行逐一grep检索:
关键词列表(50词): 衣、裳、冠、带、袍、裘、褐、巾、履、屦、绅、袂、裾、襟、裙、幅、弁、冕、簪、珥、佩、环、绮、罗、纱、绢、帛、锦、绣、练、絮、布、麻、丝、绸、缎、缯、绫、纨、绡、绶、绂、黼、黻、鹖、帻、帷、帐、幄、旗、旌、旆、纛
第一轮:批量grep
$ rg -n '衣|裳|冠|带|袍|裘|褐|巾|履|屦|绅|袂|裾|襟|裙|幅|弁|冕|簪|珥|佩|环|绮|罗|纱|绢|帛|锦|绣|练|絮|布|麻|丝|绸|缎|缯|绫|纨|绡|绶|绂|黼|黻|鹖|帻|帷|帐|幄|旗|旌|旆|纛' 古今刀剑录.txt
命中4行:第31行、第68行、第75行、第82行、第87行。
第二轮:逐词grep精确定位
对50个关键词逐一单独grep,确认命中关键词及具体位置:
| 关键词 | 命中行号 | 匹配次数 |
|---|---|---|
| 冠 | 68 | 1 |
| 佩 | 31, 75, 87 | 3 |
| 环 | 31, 68 | 2 |
| 帐 | 82 | 1 |
| 其余46词 | — | 0 |
未命中关键词(46词): 衣、裳、带、袍、裘、褐、巾、履、屦、绅、袂、裾、襟、裙、幅、弁、冕、簪、珥、绮、罗、纱、绢、帛、锦、绣、练、絮、布、麻、丝、绸、缎、缯、绫、纨、绡、绶、绂、黼、黻、鹖、帻、帷、幄、旗、旌、旆、纛
第三步:sed -n提取上下文
对命中行提取完整原文,逐一审核上下文语义。
第四步:过滤噪音
逐条审核7处匹配:
- 冠·行68:"名冠神都"→ 冠为动词"冠绝",非冠帽→ 噪音
- 佩·行31:"所佩剑也"→ 佩为动词"佩戴",指佩戴剑→ 噪音
- 佩·行75:"作一佩刀"→ 佩刀为兵器类名→ 噪音
- 佩·行87:"双后佩之"→ 佩为动词"佩戴"→ 噪音
- 环·行31:"皆连环及刃口"→ 连环为刀刃结构→ 噪音
- 环·行68:"龙雀环"→ 刀背装饰环,兵器构件→ 噪音
- 帐·行82:"入帐下王伯升"→ 帐下为军事用语→ 噪音
过滤结果:7条全部为噪音,有效服饰条目为0。
第五步:词库外发现
在通读原文过程中发现第64行"被朱服"一词,"朱服"即红色官服,属服饰范畴,但因"服"字不在固化词库50词内,严格按规则不纳入正式提取结果,仅在总结和原文提取中作备注。
输出文件
| 文件 | 大小限制 | 实际大小 |
|---|---|---|
| 古今刀剑录_总结.md | ≤20KB | 约1.5KB |
| 古今刀剑录_原文提取.md | ≤20KB | 约3.5KB |
| 古今刀剑录_日志.md | ≤20KB | 约3KB |
结论
《古今刀剑录》为刀剑专录,内容集中于历代刀剑之铸造、铭文、流传,与服饰制度无涉。以50个服饰关键词检索,命中4词7处,经审核全部为噪音,无一有效服饰条目。全书在服饰研究领域无可提取素材。