Ny teknologi markerer et gennembrud i kampen mod onlinechikane af kvinder
I det første projekt af sin slags på dansk har ITU-forskere indsamlet, klassificeret og kategoriseret kvindehadsk indhold på sociale medier. Det kan få stor betydning i kampen mod onlinechikane af kvinder.
Leon DerczynskiForskningInstitut for Datalogialgoritmersociale mediersprogteknologi
Skrevet 28. juli 2021 08:10 af Theis Duelund Jensen
I løbet af de sidste ti måneder har forskere fra IT-Universitetet i København arbejdet sig gennem et ocean af hadesprog i opslag på sociale medier for at kategorisere onlinemisogyni. Resultatet er et omfattende datasæt over kvindehadsk indhold, der bl.a. kan hjælpe sociale medier med at opsnappe og moderere hadefulde indlæg og beskeder på nettet.
Projektet er ledet af forskningsassistent ved datalogi Philine Zeinert, lektor ved datalogi Leon Derczynski og Villum Fellow Nanna Inie alle fra ITU. De opsigtsvækkende resultater præsenteres sidst på måneden ved ACL-IJCNLP 2021-konferencen og foreligger allerede som artikel under titlen ”Annotating Online Misogyny”.
Neosexisme benægter præmissen
Forskerholdet har i forbindelse med projektet indsamlet titusindvis af brugerindlæg fra tre sociale medier – Facebook, Twitter og Reddit – og med hjælp fra et hold kommentatorer, som har været med til at klassificere dataene, har holdet udarbejdet en såkaldt codebook, der fungerer som en nøgle til at forstå, hvordan chikanechikane opererer sprogligt på nettet.
”Da vi indledte projektet, fandtes der så vidt vi ved, kun to lignende datasæt, der ikke var engelsksprogede: et på spansk og et på italiensk. Vi fandt en håndfuld engelsksprogede taksonomier, der virker som en rettesnor, man kan klassificere materialet efter, men de var udarbejdet på begrænsede mængder data,” siger Philine Zeinert, der er hovedforfatter på projektet. Ikke desto mindre gav de tidligere studier værdifuld indsigt:
”Den måde dataene var fordelt mellem kategorierne på afslørede store forskelle de tre sprogområder imellem. Det var den indledende konklusion, der fik os til at overveje, om en lokal sammenhæng spiller ind, når man måler på kvindehadske ytringer online”.
Ved hjælp af dataanalyse opdagede holdet en misogynikategori, som ikke hidtil er påvist andre steder. Med et begreb lånt fra samfundsvidenskaben kan de i dag konkludere, at såkaldt ”neosexisme” er blandt de mest udbredte former for misogyni i dansk onlinesammenhæng.
”Først nærstuderede vi misogyn hadesprog i dansk sammenhæng, så kombinerede vi eksisterende kategoriseringsmetoder, og så kunne vi tilføje neosexisme,” siger Philine Zeinert. ”Neosexisme ses, når en person angriber selve præmissen, at diskrimination er en erfaring med grundlag i virkeligheden, eller bruger et stråmandsargument for at styre uden om emnet”.
I føromtalte codebook finder man virkelige udsagn som ”Kan I pege på forskning der viser at barslen er grunden til at mødrene går glip af forfremmelser?”, der er et eksempel på benægtelse af sexisme som en virkelig erfaring. Et udsagn som ”Klassisk. Hvis det er en ulempe for kvinder er det samfundets skyld. Hvis mænd, så må det jo være deres egen. Sexisme trives godt på den feministiske fløj” er et eksempel på brugen af en stråmand.
”Vi kan ikke sige, at neosexisme overordnet set er den mest udbredte form for onlinemisogyni i en dansk sammenhæng, men det er den mest udbredte form i den betragtelige mængde data, vi har indsamlet,” siger Philine Zeinert.
Til kamp med data mod onlinesexisme
Ifølge en undersøgelse foretaget af Amnesty International i 2017 har op mod hver fjerde kvinde været udsat for chikane og hadesprog på nettet. En ny undersøgelse foretaget af Megafon på vegne af TV2 viser, at 68 procent af danskerne bevidst undgår diskussioner på nettet pga. den aggressive tone, der præger debatten. Sidste år indgik Facebook et forlig med moderatorer, der havde til opgave at identificere og censurere chikane og stødende indhold på det sociale medies platform, fordi den konstante eksponering for hadesprog og stødende indhold førte til sygdomsforløb med PTSD og depression for flere af dem. Der er med andre et stort behov for et system, der automatisk kan opsnappe onlinechikane og hadesprog.
”Der er tre forudsætninger for at opfange kvidenhadsk hadesprog online: Man skal vide, hvad man leder efter, man skal have eksempler på det, man leder efter, og man skal have en model, der er trænet ved hjælp af de eksempler. Den første har vi opnået ved at skabe et nøjagtigt klassifikationssystem, der kategoriserer kvindehadsk hadesprog. Den anden præsenterer vi i form af et datasæt bestående af 2.000 nøje klassificerede eksempler ud af et samlet datasæt på 28.000. Den tredje, vores model, fungerer så effektivt, at den allerede automatisk opfanger 85 procent af ikke tidligere set kvindehadsk indhold,” forklarer medforfatter til studiet Leon Derczynski.
“Der er pt. mange verden over, som arbejder på at dæmme op for hadesprog online. Problemet er, at der er alt for meget data til, at mennesker kan løse opgaven alene. Sproget er levende, og der opstår hele tiden nye hadesprogmønstre og koder, der hurtigt udbredes. For at opfange den type indhold på nettet automatisk har vi brug for at udvikle digitale redskaber,” siger Philine Zeinert. ”Det er vores mål med nærværende projekt at præsentere en universel, teoretisk funderet måde at gøre det på”.
Theis Duelund Jensen, presseansvarlig, +45 25 55 04 47, thej@itu.dk