APP下载

LinkedIn以机器学习侦测不适当的个人档案内容

消息来源:baojiabao.com 作者: 发布时间:2024-05-15

报价宝综合消息LinkedIn以机器学习侦测不适当的个人档案内容
图片来源: 

LinkedIn

LinkedIn揭露自家处理猥亵与非法服务广告等,不当个人档案内容的方法。官方提到,他们一直在开发各种安全系统,阻止假账号、防止滥用以及避免用户受虚假个人资料欺骗,他们以自动系统侦测并打击违反服务条款的行为,而不当个人档案内容便是其中一部分。

LinkedIn起初使用黑名单方法,建立一组违反服务条款的单词和短语,当系统发现账户的个人档案,含有其中任何一个不适当的单词和短语时,便将账户标记为诈欺账号,并从LinkedIn中移除。

但这个方法有一些缺点,首先是不可扩展性,因为这个方法需要手动调整黑名单列表,评估阻挡词句需要非常的小心,且许多单词适当与不适当的用法,跟上下文有关,LinkedIn表示,像是外送茶(Escort)这个词常用在卖淫上,但是也可用作医疗护送(Medical Escort)。

另外,黑名单方法的可维护性不好,要名单追踪整体的效能很简单,但是根据列表追踪每个词就不是一件容易的事,需要大量的时间确保系统的稳定性。LinkedIn需要非常确定账户的不合法性,才能删除账号,但由于以上原因,像是上下文影响字义的情况,管理员需要花费许多心力判断,因而限制了LinkedIn可以处理的账户数量。

为了提高侦测效率,LinkedIn决定使用机器学习方法,模型使用卷积神经网络(CNN),LinkedIn提到,CNN可以简单地处理像是Escort这种要依据上下文判断字义的案例。训练的资料集分为适当与不适当,不适当资料集大部分的资料来源,是以黑名单方法捕捉的,一小部分则是成员回报并经过人工审核。适当的资料集则直接从6.6亿个会员中抽样。

但由于资料集中不良的样本太少,可能会使训练产生偏见,LinkedIn提到,适当资料集中的合法资料,有一大部分是因为受黑名单的限制,当没有仔细调整训练资料集,则模型可能会模仿过去黑名单系统的行为。

以Escort作为例子,不适当使用Escort的个人档案数量,只是6.6亿个会员基础中的一小部分,当Escort适当使用的案例被降采样,而不适当使用Escort的案例采样数量不变,则会使训练资料集看起来,像是Escort不当使用的案例比适当使用的案例还要多,但是以实际全球会员个人档案来看,情况恰巧相反。针对这个问题,LinkedIn表示,他们找出各种产生伪阳性的问题词汇,并搜寻正常使用这些词汇的会员档案,经手动标示放进适当资料集中。

目前这个模型被用来侦测平台上滥用账户,除了评估新账户之外,也会用来辨识不适当内容的旧账户,LinkedIn提到,他们会扩充训练资料集,来扩增可辨识的内容范围。

2020-01-21 13:53:00

相关文章