《古今刀剑录》服饰内容提取日志

基本信息

项目 内容
书名 古今刀剑录
作者 (梁)陶弘景
输入文件 /home/z/my-project/upload/器物/器物/古今刀剑录.txt
输出目录 /home/z/my-project/upload/器物output/古今刀剑录/
文件总行数 88
书籍性质 器物谱录(刀剑专录)

处理流程

第一步:wc -l 查总行数

$ wc -l /home/z/my-project/upload/器物/器物/古今刀剑录.txt
88

文件共88行,体量较小。

第二步:多轮grep -n提取服饰关键词行号

使用50个服饰关键词进行逐一grep检索:

关键词列表(50词): 衣、裳、冠、带、袍、裘、褐、巾、履、屦、绅、袂、裾、襟、裙、幅、弁、冕、簪、珥、佩、环、绮、罗、纱、绢、帛、锦、绣、练、絮、布、麻、丝、绸、缎、缯、绫、纨、绡、绶、绂、黼、黻、鹖、帻、帷、帐、幄、旗、旌、旆、纛

第一轮:批量grep

$ rg -n '衣|裳|冠|带|袍|裘|褐|巾|履|屦|绅|袂|裾|襟|裙|幅|弁|冕|簪|珥|佩|环|绮|罗|纱|绢|帛|锦|绣|练|絮|布|麻|丝|绸|缎|缯|绫|纨|绡|绶|绂|黼|黻|鹖|帻|帷|帐|幄|旗|旌|旆|纛' 古今刀剑录.txt

命中4行:第31行、第68行、第75行、第82行、第87行。

第二轮:逐词grep精确定位

对50个关键词逐一单独grep,确认命中关键词及具体位置:

关键词 命中行号 匹配次数
68 1
31, 75, 87 3
31, 68 2
82 1
其余46词 0

未命中关键词(46词): 衣、裳、带、袍、裘、褐、巾、履、屦、绅、袂、裾、襟、裙、幅、弁、冕、簪、珥、绮、罗、纱、绢、帛、锦、绣、练、絮、布、麻、丝、绸、缎、缯、绫、纨、绡、绶、绂、黼、黻、鹖、帻、帷、幄、旗、旌、旆、纛

第三步:sed -n提取上下文

对命中行提取完整原文,逐一审核上下文语义。

第四步:过滤噪音

逐条审核7处匹配:

  1. 冠·行68:"名冠神都"→ 冠为动词"冠绝",非冠帽→ 噪音
  2. 佩·行31:"所佩剑也"→ 佩为动词"佩戴",指佩戴剑→ 噪音
  3. 佩·行75:"作一佩刀"→ 佩刀为兵器类名→ 噪音
  4. 佩·行87:"双后佩之"→ 佩为动词"佩戴"→ 噪音
  5. 环·行31:"皆连环及刃口"→ 连环为刀刃结构→ 噪音
  6. 环·行68:"龙雀环"→ 刀背装饰环,兵器构件→ 噪音
  7. 帐·行82:"入帐下王伯升"→ 帐下为军事用语→ 噪音

过滤结果:7条全部为噪音,有效服饰条目为0。

第五步:词库外发现

在通读原文过程中发现第64行"被朱服"一词,"朱服"即红色官服,属服饰范畴,但因"服"字不在固化词库50词内,严格按规则不纳入正式提取结果,仅在总结和原文提取中作备注。

输出文件

文件 大小限制 实际大小
古今刀剑录_总结.md ≤20KB 约1.5KB
古今刀剑录_原文提取.md ≤20KB 约3.5KB
古今刀剑录_日志.md ≤20KB 约3KB

结论

《古今刀剑录》为刀剑专录,内容集中于历代刀剑之铸造、铭文、流传,与服饰制度无涉。以50个服饰关键词检索,命中4词7处,经审核全部为噪音,无一有效服饰条目。全书在服饰研究领域无可提取素材。