对图文进行重复检测,一般从图文的标题、正文、封面三个维度做重复检测,用到的方法有编辑距离(针对标题)、Simhash(针对标题和正文)、dHash(针对封面)等。
Google去年推出的BERT向量,相比Word2vec,包含更多的上下文,效果会更好一些,比如可以将整个正文输入得到BERT向量,比较两个BERT向量的距离。若存量文章很多的话,还需要借助Facebook开源的Faiss进行向量TopN距离召回。
原创 | 2022-12-05 11:14:11 |浏览:1.6万
对图文进行重复检测,一般从图文的标题、正文、封面三个维度做重复检测,用到的方法有编辑距离(针对标题)、Simhash(针对标题和正文)、dHash(针对封面)等。
Google去年推出的BERT向量,相比Word2vec,包含更多的上下文,效果会更好一些,比如可以将整个正文输入得到BERT向量,比较两个BERT向量的距离。若存量文章很多的话,还需要借助Facebook开源的Faiss进行向量TopN距离召回。
Copyright 2005-2020 www.kxting.com 版权所有 | 湘ICP备2023022655号
声明: 本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:47085,1089@qq.com