《书传会选》服饰内容提取·日志

基本信息

提取过程

第一轮:基础关键词搜索(衣/裳/裘/弁/冕/服)

关键词命中行数行号
22行54,56,58,62,80,81,133,135,137,167,169,171,181,209,211,217,219,232,234,235,237,238
5行62,80,133,172,232
2行80,219
3行84,175,232
5行60,62,119,232,234
47行34,56,58,60,62,80,81,110,111,113,115,119,123,125,131,133,137,138,161,166,167,169,171,173,174,175,177,179,181,183,205,208,209,211,213,216,217,219,228,229,232,234,235,237,241,243,245

操作命令(Python脚本,因bash grep遇编码错误):

```python

with open('书传会选.txt', 'r', encoding='utf-8', errors='replace') as f:

lines = f.readlines()

keywords = ['衣', '裳', '裘', '弁', '冕', '服']

for kw in keywords:

hits = [i+1 for i, line in enumerate(lines) if kw in line]

print(f'{kw}: {len(hits)} hits, lines: {hits}')

```

第二轮:冠/带/佩/舄/芾/韨搜索

关键词命中行数行号备注
8行34,80,119,171,205,207,232,234行34冠篇首=编排义;行80冠石山=地名
0行无命中
12行56,62,80,82,84,119,121,161,166,213,243,247大多为"背音佩"音释或人名
0行无命中
0行无命中
0行无命中

第三轮:黼/黻/绣/衮/皮弁/章服搜索

关键词命中行数行号
2行62,232
1行62
2行62,232
5行60,62,80,119,232
皮弁0行
章服0行

第四轮:玄衣/黄裳/赤舄/采服/锡服/絺冕搜索

关键词命中行数行号
玄衣0行
黄裳0行
赤舄0行
采服0行
锡服0行
絺冕0行

第五轮:五服/五采/山龙/华虫/宗彝/藻火/粉米搜索

关键词命中行数行号备注
五服9行56,60,62,80,115,177,219,228,229行56=刑罚义;行62/80=地域义+服饰义混合
五采1行62服饰义
山龙1行62服饰义
华虫1行62服饰义
宗彝0行(注:原文用"宗彝"的异体字)
藻火1行62服饰义
粉米1行62服饰义

上下文提取操作

对关键行进行上下文提取,因行超长(最长达9942字符),采用Python定位关键词前后120-300字符的方式提取:

```python

CTX = 120 # 上下文字符数

for ln in key_lines:

line = lines[ln-1]

for kw in found_kws:

pos = line.find(kw)

s = max(0, pos - CTX)

e = min(len(line), pos + len(kw) + 180)

ctx = line[s:e].strip()

print(f'L{ln}[{kw}]: ...{ctx}...')

```

重点提取行:56, 58, 60, 62, 80, 119, 133, 171, 175, 219, 232, 234

噪声过滤

以下内容被判定为非服饰义并排除:

  1. 行34:服虔(人名)、"以序冠篇首"(编排用语)
  2. 行54:胤之舞衣——舞具,非常服
  3. 行56:五刑有服/五服三就——刑罚义
  4. 行58:奄衣检反——音释标注;"中土之民服从"——顺从义
  5. 行80:冠石山——地名
  6. 行82、84:背音佩——音释标注
  7. 行56"北如字又音佩"、行62"背音佩"——音释,非服饰义
  8. 行80"珠为服饰"——间接提及,非核心服饰制度
  9. 行175"尽弁"——事件描述,非服饰制度阐述

最终统计