shield:一个以文本类算法为基础,结合场景的风险防控系统_小红书shield算法资源-CSDN文库

网站介绍:资源浏览查阅22次。shield:一个以文本类算法为基础,结合场景的风险防控系统,盾一个以文本类算法为基础,结合场景的风险防控系统。简介风险控制系统有很多应用场景,某些反垃圾邮件,新闻风控,广告反作弊等等,此处引入从文本角度入手,介绍一些风控系统的常用方法文本预先将文本分割为首要分词标准化去掉标点符号,可以使用正则表达式,全角转半角等长度过小的词,某些单字全部转换为小写字母去掉终止词简单的名词替换词性标注分词的同时可以进行词性标注的工作,某些场景下可能只需要保留动词或者名词,形容词可能就没那么重要。可以使用一些现有的语法表进行替换,后续可以使用Word2vec来挖掘近义词。1.文本匹配没错,这是最简单的方法了,我们需要通过词包管理系统管理违禁词,主要包括:政治人物词包,色情词包等。匹配,如果命中词包的话说明这些文本就是有问题的,需要做相应的处理措施。这种方式的缺点很明显:效率平均值无法及时应对文本的变异和变化提高文本匹配效率可以使更多下载资源、学习资料请访问CSDN文库频道