BPE分词算法的流程
BPE算法的核心主要分成三个部分:
词表构建
语料编码
语料解码
词表构建是BPE算法的核心,其是「根据训练语料」来构建BPE算法的词表。算法的整体步骤如下所示:
准备模型的训练语料
确定「期望的词表大小」
将训练语料中的所有单词拆分为字符序列,利用这些字符序列构建初始的词表
统计训练语料中每一个连续字节对出现的频率,「选择出现频率最高的字节对合并成新的subword,并更新词表」
重复第4步,直到词表大小达到我们设定的期望或者剩下的字节对出现频率最高为1
原创 | 2022-12-04 18:05:29 |浏览:1.6万
BPE分词算法的流程
BPE算法的核心主要分成三个部分:
词表构建
语料编码
语料解码
词表构建是BPE算法的核心,其是「根据训练语料」来构建BPE算法的词表。算法的整体步骤如下所示:
准备模型的训练语料
确定「期望的词表大小」
将训练语料中的所有单词拆分为字符序列,利用这些字符序列构建初始的词表
统计训练语料中每一个连续字节对出现的频率,「选择出现频率最高的字节对合并成新的subword,并更新词表」
重复第4步,直到词表大小达到我们设定的期望或者剩下的字节对出现频率最高为1
Copyright 2005-2020 www.kxting.com 版权所有 | 湘ICP备2023022655号
声明: 本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:47085,1089@qq.com