LinkedIn以机器学习侦测不适当的个人档案内容最新消息

LinkedIn以机器学习侦测不适当的个人档案内容

消息来源:baojiabao.com 作者: 发布时间：2024-05-15

报价宝综合消息LinkedIn以机器学习侦测不适当的个人档案内容

图片来源:

LinkedIn揭露自家处理猥亵与非法服务广告等，不当个人档案内容的方法。官方提到，他们一直在开发各种安全系统，阻止假账号、防止滥用以及避免用户受虚假个人资料欺骗，他们以自动系统侦测并打击违反服务条款的行为，而不当个人档案内容便是其中一部分。

LinkedIn起初使用黑名单方法，建立一组违反服务条款的单词和短语，当系统发现账户的个人档案，含有其中任何一个不适当的单词和短语时，便将账户标记为诈欺账号，并从LinkedIn中移除。

但这个方法有一些缺点，首先是不可扩展性，因为这个方法需要手动调整黑名单列表，评估阻挡词句需要非常的小心，且许多单词适当与不适当的用法，跟上下文有关，LinkedIn表示，像是外送茶（Escort）这个词常用在卖淫上，但是也可用作医疗护送（Medical Escort）。

另外，黑名单方法的可维护性不好，要名单追踪整体的效能很简单，但是根据列表追踪每个词就不是一件容易的事，需要大量的时间确保系统的稳定性。LinkedIn需要非常确定账户的不合法性，才能删除账号，但由于以上原因，像是上下文影响字义的情况，管理员需要花费许多心力判断，因而限制了LinkedIn可以处理的账户数量。

为了提高侦测效率，LinkedIn决定使用机器学习方法，模型使用卷积神经网络（CNN），LinkedIn提到，CNN可以简单地处理像是Escort这种要依据上下文判断字义的案例。训练的资料集分为适当与不适当，不适当资料集大部分的资料来源，是以黑名单方法捕捉的，一小部分则是成员回报并经过人工审核。适当的资料集则直接从6.6亿个会员中抽样。

但由于资料集中不良的样本太少，可能会使训练产生偏见，LinkedIn提到，适当资料集中的合法资料，有一大部分是因为受黑名单的限制，当没有仔细调整训练资料集，则模型可能会模仿过去黑名单系统的行为。

以Escort作为例子，不适当使用Escort的个人档案数量，只是6.6亿个会员基础中的一小部分，当Escort适当使用的案例被降采样，而不适当使用Escort的案例采样数量不变，则会使训练资料集看起来，像是Escort不当使用的案例比适当使用的案例还要多，但是以实际全球会员个人档案来看，情况恰巧相反。针对这个问题，LinkedIn表示，他们找出各种产生伪阳性的问题词汇，并搜寻正常使用这些词汇的会员档案，经手动标示放进适当资料集中。

目前这个模型被用来侦测平台上滥用账户，除了评估新账户之外，也会用来辨识不适当内容的旧账户，LinkedIn提到，他们会扩充训练资料集，来扩增可辨识的内容范围。

2020-01-21 13:53:00