专利 基于预训练语言模型的镇街村居地址标准化方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211123853.5 (22)申请日 2022.09.15 (71)申请人长三角信息智能创新研究院地址 241000 安徽省芜湖市智慧城市协同创新中心 (72)发明人王智强　承孝敏　张名扬　丁梦婷　孔慧宇　 (74)专利代理机构北京润平知识产权代理有限公司 11283 专利代理师董杰 (51)Int.Cl. G06F 40/295(2020.01) G06N 20/00(2019.01) (54)发明名称基于预训练语言模型的镇街村居地址标准化方法 (57)摘要本发明公开了一种基于预训练语言模型的镇街村居地址标准化方法，所述方法包括：步骤 1、对原始地址数据进行清洗；步骤2、将步骤1中清洗好的地址送入训练好的Roberta ‑crf模型进行地址实体的抽取；步骤3、对于错误的地址使用基于交互式计算模型进行匹配出地址库内最语义上接近的地址。该方法相较于人工进行抽取地址更加省时省力，相较于基于规则的地址抽取方法更有普适性，相较于基于传统的机器学习进行命名实体任务准确率更高，相较于现有进行命名实体任务的预训练模型的推理速度更快。权利要求书1页说明书5页附图1页 CN 115470792 A 2022.12.13 CN 115470792 A 1.一种基于预训练语言模型的镇街村居地址标准化方法，其特征在于，所述方法包括：步骤1、对原始地址数据进行清洗；步骤2、将步骤1中清洗好的地址送入训练好的Rober ta‑crf模型进行地址实体的抽取；步骤3、对于错误的地址使用基于交互式计算模型进行匹配出地址库内最语义上接近的地址。 2.根据权利要求1所述的方法，其特征在于，步骤1中的数据清洗内容包括：步骤1.1、将字符全角转化为半角；步骤1.2、将地址内的空格去除；步骤1.3、替换特殊字符；步骤1.4、将地址中误用中文输入的数字转化为阿拉伯数字。 3.根据权利要求1所述的方法，其特征在于，步骤2中的Roberta模型在训练阶段 attention矩阵只保留了实体长度的部分。 4.根据权利要求1所述的方法，其特征在于，在步骤2中，使用预训练模型对地址分别按照地区、建筑物、单元与楼牌号进行抽取。 5.根据权利要求1所述的方法，其特征在于，在步骤2中根据文本数据集对self ‑ attention机制的共识改进，得到：其中， C为每个批次的平均长度， length(batch(X))代表这个批次的总长度， batch_ size为批次大小， N为每个地址的长度； Q为输入地址经过Embedding向量与随机初始化权重矩阵Wq相乘后的向量， KT为输入地址经过Embedding向量与随机初始化权重矩阵Wq相乘后的转置向量， qijkij是Q， K矩阵中对于i行j列的向量元素； attention每次计算仅计算每个批次最大的长度，将attention矩阵的计算时间复杂度缩短为O(cn)。 6.根据权利要求1所述的方法，其特征在于，步骤2中还将Roberta进行蒸馏使得 Roberta缩小。 7.根据权利要求1所述的方法，其特征在于，在步骤3中，将抽取后的地址按照小区、建筑物、单元与楼房号通过Esim进行地址匹配，按照阈值推荐库中最匹配的地址。权　利　要　求　书 1/1 页 2 CN 115470792 A 2基于预训练语言模型的镇街村居地址标准化方法技术领域 [0001]本发明涉及自然语言处理领域，具体地，涉及一种基于预训练语言模型的镇街村居地址标准化方法。背景技术 [0002]基层街道、乡镇、社区、行政村的人员的地址汇总与管理一直是基层治理工作的痛点和难点。县区及镇街各条块部门有大量需村居摸排、采集录入的任务。镇街村居需要将这些下发的任务按镇街、村居、网格等维度进行分派下发。如无法对人员进行归属镇街村居地址分配，则相关工作人员的具体排查、走访、调研等工作将无法正常开展。 [0003]针对这个问题采用标准地址库来解决，但是，现有的标准地址库在地址入库方面存在如下几个问题： [0004]1、不同网格、社区下的录入地址的标准不一致，会造成地址入库难。如有的单元和楼房号是用 ‑进行区分，而有的则以#进行区分。 [0005]2、地址本身存在问题，相关人员没审查，如某某村某某组xx号，缺少村元素。 [0006]3、人工进行抽取地址费时费力，基于规则的地址抽取方法设计的规则十分冗余且抽取方法不具有普适性。 [0007]4、基于传统的机器学习进行命名实体任务准确率不够，而现有进行命名实体任务的预训练模型的推理和训练速度都较慢。发明内容 [0008]本发明的目的是提供一种基于预训练语言模型的镇街村居地址标准化方法，该方法相较于人工进行抽取地址更加省时省力，相较于基于规则的地址抽取方法更有普适性，相较于基于传统的机器学习进行命名实体任务准确率更高，相较于现有进行命名实体任务的预训练模型的推理速度更快。 [0009]为了实现上述目的，本发明提供了一种基于预训练语言模型的镇街村居地址标准化方法，该方法包括： [0010]步骤1、对原始地址数据进行清洗； [0011]步骤2、将步骤1中清洗好的地址送入训练好的Roberta ‑crf模型进行地址实体的抽取； [0012]步骤3、对于错误的地址使用基于交互式计算模型进行匹配出地址库内最语义上接近的地址。 [0013]优选地，步骤1中的数据清洗内容包括： [0014]步骤1.1、将字符全角转化为半角； [0015]步骤1.2、将地址内的空格去除； [0016]步骤1.3、替换特殊字符； [0017]步骤1.4、将地址中误用中文输入的数字转化为阿拉伯数字。说　明　书 1/5 页 3 CN 115470792 A 3

专利 基于预训练语言模型的镇街村居地址标准化方法

专利基于预训练语言模型的镇街村居地址标准化方法