Divinfomeme：用于检测模因有意散布虚假信息的多模式数据集

论文标题

Divinfomeme：用于检测模因有意散布虚假信息的多模式数据集

DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally Spreading Out Disinformation

论文作者

Qu, Jingnong, Li, Liunian Harold, Zhao, Jieyu, Dev, Sunipa, Chang, Kai-Wei

论文摘要

在社交媒体上，虚假信息已成为一个严重的问题。尤其是，鉴于它们的简短格式，视觉吸引力和幽默的性质，模因在在线社区之间的传播中具有重要优势，使它们成为传播虚假信息的有效工具。我们提出了Diainfomeme，以帮助检测虚假信息模因。该数据集包含从Reddit开采的模因，其中涵盖了三个当前的主题：Covid-19-大流行，黑人生命物质运动和素食主义者/素食主义。数据集提出了多个独特的挑战：有限的数据和标签失衡，对外部知识的依赖，多模式推理，布局依赖性和OCR的噪声。我们在此数据集上测试了多个广泛使用的单峰和多模式模型。实验表明，对于当前型号而言，改进的空间仍然很大。

Disinformation has become a serious problem on social media. In particular, given their short format, visual attraction, and humorous nature, memes have a significant advantage in dissemination among online communities, making them an effective vehicle for the spread of disinformation. We present DisinfoMeme to help detect disinformation memes. The dataset contains memes mined from Reddit covering three current topics: the COVID-19 pandemic, the Black Lives Matter movement, and veganism/vegetarianism. The dataset poses multiple unique challenges: limited data and label imbalance, reliance on external knowledge, multimodal reasoning, layout dependency, and noise from OCR. We test multiple widely-used unimodal and multimodal models on this dataset. The experiments show that the room for improvement is still huge for current models.

下载PDF全文

下载文献需遵守相关版权规定

论文标题