《文房四谱》服饰提取日志
基本信息
| 项目 |
内容 |
| 书名 |
文房四谱 |
| 作者 |
北宋·苏易简 |
| 输入文件 |
/home/z/my-project/upload/器物/器物/文房四谱.txt |
| 输出目录 |
/home/z/my-project/upload/器物output/文房四谱/ |
| 总行数 |
832行 |
处理流程
第一步:wc -l 查总行数
wc -l 文房四谱.txt
832 文房四谱.txt
第二步:多轮 grep -n 提取服饰关键词行号
使用46个关键词逐轮检索,命令示例:
rg -n '衣' 文房四谱.txt
rg -n '裳' 文房四谱.txt
rg -n '冠' 文房四谱.txt
rg -n '带' 文房四谱.txt
rg -n '袍' 文房四谱.txt
rg -n '裘' 文房四谱.txt
rg -n '褐' 文房四谱.txt
rg -n '巾' 文房四谱.txt
rg -n '履|屦' 文房四谱.txt
rg -n '绅' 文房四谱.txt
rg -n '袂|裾|襟|裙|幅' 文房四谱.txt
rg -n '弁|冕|簪|珥' 文房四谱.txt
rg -n '佩|环|绮|罗|纱|绢|帛|锦|绣' 文房四谱.txt
rg -n '练|絮|布|麻|丝|绸|缎|缯|绫|纨|绡' 文房四谱.txt
rg -n '绶|绂|黼|黻|鹖|帻|帷|帐|幄|旗|旌|旆|纛' 文房四谱.txt
各关键词命中统计
| 关键词 |
命中行号 |
有效条目数 |
| 衣 |
21,41,43,101,151,188,191,231,337,433,436,600,601,638,686,753,776 |
14(排除"衣笔"等非服饰用法) |
| 裳 |
无命中 |
0 |
| 冠 |
21,313,337,690,758,832 |
1(仅"免冠"有效,其余为"首冠""冠羣彦""冠序"等非服饰义) |
| 带 |
95,399,729,765 |
3 |
| 袍 |
686 |
1 |
| 裘 |
无命中 |
0 |
| 褐 |
337,638 |
2 |
| 巾 |
37,351,556,561,817 |
1(仅"巾箱"间接相关) |
| 履 |
41 |
1 |
| 屦 |
无命中 |
0 |
| 绅 |
95,190,317,321,329,333 |
6 |
| 袂 |
436 |
1 |
| 裾 |
无命中 |
0 |
| 襟 |
809 |
0("冲襟"非服饰义) |
| 裙 |
347 |
1 |
| 幅 |
581,585,601,610,617,625,634,636,685,739 |
0(均为纸量词) |
| 弁 |
无命中 |
0 |
| 冕 |
无命中 |
0 |
| 簪 |
43,45,51,70,76,80,95,178 |
8 |
| 珥 |
无命中 |
0 |
| 佩 |
45,54,80,729,808 |
4 |
| 环 |
150,168 |
0(书法术语"为环必郁") |
| 绮 |
333,677 |
2 |
| 罗 |
585,611,630,642 |
3 |
| 纱 |
463,740 |
2 |
| 绢 |
120,539,616,721,736 |
5 |
| 帛 |
85,151,317,536,555,606 |
5 |
| 锦 |
21,317,333,407,504,512,799 |
7 |
| 绣 |
41 |
1 |
| 练 |
151,317,539 |
3 |
| 絮 |
536 |
1 |
| 布 |
231,534,558,585,603,690 |
3 |
| 麻 |
103,534,549,567,582,630,640,690,741 |
2 |
| 丝 |
151,168,251,255,317,795 |
3 |
| 绸 |
无命中 |
0 |
| 缎 |
无命中 |
0 |
| 缯 |
561,597,721 |
3 |
| 绫 |
407,630,673 |
3 |
| 纨 |
255,538,543 |
3 |
| 绡 |
无命中 |
0 |
| 绶 |
719,818 |
2 |
| 绂 |
21 |
1 |
| 黼 |
317 |
1 |
| 黻 |
317 |
1 |
| 鹖 |
无命中 |
0 |
| 帻 |
无命中 |
0 |
| 帷 |
463,603,808 |
3 |
| 帐 |
347,636,808 |
3 |
| 幄 |
无命中 |
0 |
| 旗 |
无命中 |
0 |
| 旌 |
无命中 |
0 |
| 旆 |
无命中 |
0 |
| 纛 |
无命中 |
0 |
第三步:sed -n 提取上下文
对关键行号使用 sed -n 提取原文,共提取关键行约40行。因本书行文为连续长句(单行可达700余字),无需额外扩展上下文行。
第四步:过滤噪音
以下命中被判定为噪音并剔除:
| 行号 |
关键词 |
剔除原因 |
| 101 |
衣 |
"衣青羊毫"为制笔术语,指裹笔心,非服饰 |
| 313 |
冠 |
"不取鸡之冠"为鸡冠比喻,非冠帽 |
| 690 |
冠 |
"髙士之首冠"为居首义,非冠帽 |
| 758 |
冠 |
"果冠羣彦"为居首义 |
| 832 |
冠 |
"冠序"为序言义 |
| 150 |
环 |
"圆不变谓之环"为书法比喻 |
| 168 |
环 |
"为环必郁"为书法笔法 |
| 809 |
襟 |
"冲襟"为胸怀义,非衣襟 |
| 各幅行 |
幅 |
均为纸的量词,非布幅 |
| 37 |
巾 |
"从又从巾"为说文解字分析字形 |
| 556 |
巾 |
"无氏下从巾"为说文解字分析字形 |
| 54 |
佩 |
"臣既不得佩承御刀"为职官制度,已归簪笔类 |
| 103 |
麻 |
"以麻纸裹柱根"为制笔用纸,非服饰 |
| 534 |
布 |
"敝布鱼网以为纸"为造纸原料 |
| 558 |
布 |
"布纸"为纸名 |
| 582 |
麻 |
"以麻为纸"为造纸原料 |
| 640 |
麻 |
"麻纸裹柱根"为制笔用纸 |
第五步:输出三份MD
- 文房四谱_总结.md:分类总结,含统计表格与重要发现
- 文房四谱_原文提取.md:按类别分条照录原文,关键词以【】标注
- 文房四谱_日志.md:本文件,记录完整处理流程
命中汇总
| 统计项 |
数量 |
| 关键词总检索数 |
46个 |
| 命中关键词数 |
30个 |
| 未命中关键词 |
裳、裘、屦、裾、弁、冕、珥、绸、缎、绡、鹖、帻、幄、旗、旌、旆、纛(共16个) |
| 原文提取有效条目 |
48条 |
| 涉及行号数 |
约40行(占总行数832行的4.8%) |
文件大小校验
| 文件 |
大小 |
| 文房四谱_总结.md |
<20KB |
| 文房四谱_原文提取.md |
<20KB |
| 文房四谱_日志.md |
<20KB |