分分彩群

qq个性签名  qq伤感签名  qq情侣签名  qq搞笑签名  非主流签名 

您现在所的位置: 首页 - 个性头像 - 女生头像 - 正文

美女头像这么多,腾讯云安全用大数据告诉你哪个是骗子(3)正文

类别:女生头像 | 点击: | 日期:2019-05-03

对于增量的训练,其实集聚的原则是来自于对存量样本的学习,因为刚刚提到,存量只要在乎准确率,但是对效率不是那么看中,对存量稍微慢一点没有关系,但会形成大量基础的样本,基于基础样本可以对新增进行训练,我们也可以根据存量数据形成新增数据多维矩阵,包括有字典变换矩阵以及小类的列表,进而进入到处理。在这个过程当中,我们可以通过降维的方式让文本进行持续的演变,通过定义我们整个库的大小,同时更改一个时间窗口,来更新我们用于预测的库,从而提升本身我们匹配的效率,最后达到我们所需要的效果。这个过程完成以后,目前达到的一个情况是,现在对于存量的处理,我们大概准确率在99.8%,对新增的处理大概我们的准确率会在99.7%左右,大概会差0.1个百分点。

对所有的内容数据进行处理完以后,下一步就是对于风险管理这块的处理。在这个过程当中,其实也经过了几代的策略。在最开始的时候,我们其实是希望去使用逻辑回归进行这样相应处理的过程,使用逻辑函数来表示属于目标类别的概率,并且使用一个随机梯度下降的方式去进行优化的求解。好处主要是,由于业界基准的模型能够预测出目标的概率、高效、易使用和容易解释,但这个模型的缺点也是非常明显的,最大的一个问题是在于覆盖率较差,而且对于多特征或特征比较缺失的场景下,这个模型的效果并不是最好的。

同时,他也会有一个问题,对于这种非线性特征超空间的划分能力,本身并不足,而且更大的一个问题存在于供给,直接导致这样随机设立的模型不是最佳的处理方案。

接下来我们会考虑到,因为现在的数据源多样,各个数据源的数据特征都不太一样,属性也不太统一,离散和连续其实是并存的,整个查询不一致,又是非线性分布,而且特征维度较高的情况下,单独使用性能都很差,人工规则又很难覆盖,所以我们需要使用随机分离的模型来训练。整个模型是从训练子集当中进行采样,同时从各特征集也进行采样,最后建立一个决策树,进行自动选择,最终形成一个分裂的二叉树,采用投票的方式进行分类。这个分类迭代了以后,可以较好提升检测的性能,但依然不是一个完美的状态。

我们有一个更高的要求,因为我们对精度有更高的要求,针对于误差,我们在学习的时候由于有更好的精准,标签数字也在增加,这个时候我们需要采用新的方法,所以我们有了第三个阶段,基于残差的阶段去做了这样的动作。

基于残差的思路,我们建立了一个弱学习器,通过迭代训练集成了一个boosting的分析器来进行学习,优点是在大数据集下分类性能最好,而且适用于非线性特征和多特征的类型。这个是不是完整的呢?其实最后还是不完整的。由于腾讯社交网络的业务多样化,以及腾讯云上客户应用场景的多样化,这个时候我们需要在各个场景去进行一个定制化建模的时候,人力成本会变得越来越高,最后我们的解决思想是采用神经网络进行模型设计,最后基于迁移学习,进行实地的迁移或目标领域的特征。优点是一套方案可以多处复用,适合于标签数据偏少的情况。

美女头像这么多,腾讯云安全用大数据告诉你哪个是骗子

最终我们会在这个模型上输出一个框架,这个框架是我们现在在风险控制领域出来的基础架构,最底层是我们的画像数据层,包括基于我刚刚讲的几个算法形成画像数据、设备指纹数据以及知识图谱。在云数据上,我们保留了终端数据、身份数据以及恶意内容的数据。在算法这一层,对于像迁移学习、boosting等算法纳入到基础的算法层,这一层主要是基于内容这一块的,比如像传统的图像识别以及语音识别等等算法,可能还有第三块,就是最右边灰色的这一段。灰色的这一段刚刚没有重点介绍,因为灰色这一段是属于泛安全这一块。因为左右,其实蓝色跟绿色这一段跟安全更相关,灰色这一段是为了我们在图计算当中能够更好地去识别相似群体用的。

比如像这里,灰色第三段,像Look Alike的算法,一般是在广告系统里用得比较多,但是在安全领域用的时候,依然可以在相似当中进行扩展,这就形成了算法层,最终我们会形成服务层的模型,以便向金融、内容以及市场领域进行应用,最终我们形成了这样一个统一的框架。

这个框架的数据现在除了在腾讯用,在电商、直播、移动以及O2O等多个行业其实也都会应用。

美女头像这么多,腾讯云安全用大数据告诉你哪个是骗子

我这里画了一页图,就是战斗才刚刚开始。我们虽然用了很多对抗,实际上我们来看准确率跟覆盖率,其实效果还不错,但对手也在演进,不是说开始在一成不变的状态。上午的时候,其实各位已经看过了这样一个验证码的平台,我今天把这个平台再进一步放一放。

美女头像这么多,腾讯云安全用大数据告诉你哪个是骗子

这是基于神经网络搭建的黑产验证码破解平台,这个平台的开发者是一位博士,他其实主要是做的中国现在验证码的识别。这个平台是基于现在很流行的一个深度学习的模型,叫caffe,基于这个模型搭建,搭建完了以后大概是花了50几台服务器去进行深度训练。在这个平台里面,最终积累了差不多1万左右字符的样本,大概积累了5000万左右的学习样本,对中国目前市面上所有的验证码进行破解。目前依据这个平台上来看,它在2017年的上半年,也就是前6个月,这个平台上一共发生了259亿次的验证码破解,破解的成功率在95%以上。也就是现在中国市面上所有的验证码全部可以破掉,不管你怎么对抗。

大家可以看到,我这个图右边有个用户,就是用户ID,这是我们测试的情况,用户ID3532,识别量36万条,准确率96.95%,是用这个平台搭建出来的。框架就是你进来的时候有一个验证码的分发,然后是数字加字母的识别,最终进行分布式的学习,通过识别结果优选,然后进行一个结果的输出。

但这不是这个平台的真相,平台更深的真相是,大家都知道,所有的验证码都是图片,所以这个平台在这个系统之前还搭建了一个OCR的模块去完成整个识别。为什么要做这件事情?目标就是简化,为了防止图像需要进行二次的预处理,所以自己先搭了一个OCR的模块,把图片先预处理一遍,最后进入平台。换句话说,你只要给他OCR就可以完成。我们在进步,我们的对手也在进步,对抗是越来越激烈了,这块其实学无止境,我们有了初步的这种研究,但是战斗仍将继续下去,也希望后面能有机会跟各位再继续进行一些相应的交流跟沟通,我今天的分享就到这里。

以上为演讲全文。下面是问答环节。

雷锋网:上午说有一个验证码的抗击,我想知道验证码抗击的准确率是怎么样算出来的?如果说你没有识别出是坏人,你认为他是好人,你怎么知道他是坏人?

顶一下
(0)
0%
踩一下
(0)
0%
网友评论     无需注册 即可发布评论留言
主页小编 :如果你认为本站不错,请大家把(主页)告诉给你的朋友哦!
匿名评论
Copyright © 2013-2019 HHYYWZ.分分彩群 版权所有