狗哨是评论中的编码语言,对大多数读者看起来无辜,但对特定内群体却带有隐藏的仇恨、政治或歧视意义。
在社交媒体审核中,狗哨指的是一个词、短语、数字、表情序列或符号,对普通读者看起来无害,但对特定社区却有隐藏的意义——通常是仇恨、歧视或政治极端。狗哨被故意设计用来规避基于关键词的审核:字面文本不包含任何被标记的词,但对理解代码的人来说,意义显然是敌对的。狗哨随着审核系统的跟进而迅速演变,造成编码语言与检测之间的不断军备竞赛。
品牌评论区中的狗哨尤其危险,因为它们创造了一个品牌审核团队可能无法识别的敌对环境。常见模式包括:与仇恨团体相关的数字代码、携带编码意义的表情序列、看似中立的短语实际上是敌对模因,以及作为编码攻击的历史参考。由于字面文本是无害的,基于关键词的过滤器无效。
狗哨检测需要理解文化背景的AI,而不仅仅是关键词。关键词过滤器无法捕捉到狗哨,因为单个词并没有被标记——敌意在于组合、上下文和文化代码。FeedGuardians的分类器经过不断更新的多语言和亚文化中已知狗哨模式的数据集训练,并每周重新训练,以跟上新兴代码。
一系列特定的表情符号——单独看似无辜——在骚扰社区中被理解为歧视性侮辱。该序列在创作者的评论区中反复出现。关键词过滤器无法捕捉到它,因为没有单词。只有上下文感知的AI才能识别这种模式。
不能。狗哨专门设计用来绕过关键词过滤器。单个词或符号是无害的——敌意在于编码的含义。只有理解文化背景和模式演变的AI才能检测到狗哨。
分类器每周根据来自仇恨监测组织、新兴编码语言模式、平台透明度报告和我们自己的跨客户检测数据进行重新训练。新狗哨通常在出现后的1-2周内可被检测到。