《笺纸谱》服饰内容提取日志

基本信息

项目 内容
书名 笺纸谱
作者 (元)费着 撰
输入文件 /home/z/my-project/upload/器物/器物/笺纸谱.txt
输出目录 /home/z/my-project/upload/器物output/笺纸谱/
总行数 18行

处理流程记录

第一步:wc -l 统计

18 /home/z/my-project/upload/器物/器物/笺纸谱.txt

全书仅18行,篇幅短小。

第二步:多轮grep -n提取

使用44个服饰关键词逐一grep检索,原始命中结果如下:

关键词 命中行号 原始命中次数
6 1
6 1
6, 8, 12 3
6 2
8 2
8 1
8 1
12 1
10, 16, 18 3(噪音)
16 1(噪音)
10 1(噪音)

其余33个关键词(衣、裳、冠、带、袍、裘、褐、巾、屦、绅、袂、裾、襟、裙、弁、冕、簪、珥、佩、环、纱、绢、绣、练、絮、绸、缎、缯、纨、绡、绂、黼、黻、鹖、帻、帷、帐、幄、旗、旌、旆、纛)均无命中。

第三步:上下文提取

因全书仅18行,所有命中行已在第二步中完整获取,无需额外sed提取上下文。

第四步:噪音过滤

关键词 行号 原文片段 判定 理由
10 "霞光笺五百幅" 噪音 纸张计量单位,非服饰"幅"义
16 "广幅无粉者""狭幅有粉者" 噪音 指纸张幅面宽狭
18 "每幅方尺许" 噪音 纸张量词
16 "竹丝" 噪音 竹子细条,非丝织品
10 "严绶" 噪音 人名,唐代官员严绶

过滤后保留有效关键词7个:帛、履、布、麻、锦、绫、绮、罗(布出现于3行,锦出现2次)。

第五步:验证grep

对过滤后关键词重新验证:

rg -n '帛' 笺纸谱.txt  → 第6行命中
rg -n '履' 笺纸谱.txt  → 第6行命中
rg -n '布' 笺纸谱.txt  → 第6、8、12行命中
rg -n '麻' 笺纸谱.txt  → 第6行命中
rg -n '锦' 笺纸谱.txt  → 第8行命中
rg -n '绫' 笺纸谱.txt  → 第8行命中
rg -n '绮' 笺纸谱.txt  → 第8行命中
rg -n '罗' 笺纸谱.txt  → 第12行命中

均确认无误。

输出文件

文件名 大小限制 说明
笺纸谱_总结.md ≤20KB 服饰内容分析总结
笺纸谱_原文提取.md ≤20KB 含关键词原文摘录
笺纸谱_日志.md ≤20KB 本日志文件

结论

《笺纸谱》为造纸专书,全书18行,服饰相关内容甚少。7个有效关键词(帛、履、布、麻、锦、绫、绮、罗)均以"纺织材料或纹样"身份出现,涉及三类场景:缣帛作书写载体、废旧衣料(布、履、麻)作造纸原料、丝织纹样(绫、绮、罗、布纹)施于纸面装饰。全书无直接描述服饰穿着、制度、礼仪之内容。