骚扰管理器目前可以与Twitter的API合作,将修改选项--如隐藏Twitter回复和静音或屏蔽账户--与批量过滤和报告系统结合起来。Perspective根据威胁、侮辱和亵渎等元素,检查信息的语言"毒性"水平。它将信息分为仪表板上的队列,用户可以分批处理这些信息,而不是通过Twitter的默认审核工具单独处理。他们可以选择在处理时模糊信息的文本,因此他们不需要阅读每一条信息,而且除了使用自动生成的队列外,他们还可以搜索关键词。

Harassment_Manager_UI_Home.webp

帖子中描述的骚扰管理器仪表板的图片

骚扰管理器还允许用户下载一个包含辱骂信息的独立报告;这可以为社交媒体账号的主人创造了基于文件的线索,如果是直接威胁等非法内容,则可以直接为执法部门取证提供帮助。然而,目前还没有一个独立的应用程序用户可以下载。相反,开发者可以自由地基于这个过滤器API建立包含其功能的应用程序,使用它的服务将由汤森路透基金会等合作伙伴推出。

Jigsaw在妇女节正式宣布了Harassment Manager,它把这个工具说成是与面临性别虐待的女记者特别相关,强调了来自"拥有大量Twitter存在的记者和活动家"以及国际妇女媒体基金会和保护记者委员会等非营利组织的投入。在Medium的一篇文章中,该团队表示,它希望开发者能够为其他有风险的社交媒体用户量身定制。"我们希望这项技术能够为那些在网上面临骚扰的人提供资源,特别是女记者、活动家、政治家和其他公众人物,他们在网上遭遇不少恶意的内容。"帖子写道。

Harassment_Manager_UI_Edit_Report_Details.webp

拼图的骚扰管理器中的报告选项的屏幕截图

Google之前已经利用Perspective进行了自动审核。2019年,它发布了一个名为Tune的浏览器扩展,让社交媒体用户避免看到有害的攻击性信息,许多评论平台(包括Vox Media的Coral)都使用它来补充人工审核。但是,正如我们在发布Perspective和Tune时注意到的那样,语言分析模型在历史上远非完美。它有时会对讽刺性的内容进行错误分类,或者未能检测出辱骂性的信息,而且拼图式的人工智能可能会无意中将"盲人"或"聋子"等不一定是负面的词汇与毒性联系起来,这种拼图法本身也被批评为一种有毒的工作场所文化,尽管Google已经对这种说法提出异议。

然而,与Twitter和Instagram等服务的人工智能控制不同,骚扰管理器并不是一个平台方的控制功能。它显然是一个分类工具,用于帮助管理有时规模巨大的社交媒体反馈,这可能与远在新闻领域之外的人有关--即使他们现在还不能使用它。

请登陆后查看
本内容须登陆后才可以看见(点我即可快速登录)