增注唐策 服饰提取日志

基本信息

步骤一:文件统计

步骤二:五轮Grep检索

第1轮:核心词检索

第2轮:材质检索

第3轮:色彩纹饰检索

第4轮:制度检索

第5轮:配饰检索

步骤三:Sed提取

步骤四:筛选

  1. "服"作"服用/服从"解的用例(如"五刑有服""服前王之未服")
  2. "衣"作"穿着"动词解的用例(如"衣不曳地"保留,"人冻而后衣之"筛除——此为动词"穿衣")
  3. "华"作"浮华/华夏"解的用例
  4. "素"作"质朴"解的用例
  5. 色彩词非服饰语境者
  1. 服饰名词(冠、冕、袍、舄等)
  2. 服饰制度(车服、章服等)
  3. 纺织品名(绢、帛、缯、纩等)
  4. 服饰相关典故(衣弋绨、焚雉头裘等)

步骤五:分类整理

步骤六:输出

遇到的问题

  1. 文件编码问题:部分字节超出UTF-8范围,导致rg报错,改用兼容模式
  2. 单行极长:策论文本连续排列,单行可达数万字节,影响检索效率
  3. "服"字歧义:出现频率极高但多非服饰义,需逐条判断
  4. 注文与正文混排:增注以【崇曰】【李曰】等嵌入正文,提取时需区分