Dhananjay Bhagat / Pranali Dhawas
Hate Speech und Belästigung sind in der Online-Kommunikation weit verbreitet, was auf die Freiheit und Anonymität der Nutzer und die fehlende Regulierung durch soziale Medien zurückzuführen ist. Aus diesem Grund sind Cyber-Trolling und Mobbing ein großes Problem in einer Gesellschaft. Um dieses Problem zu überwinden, können wir die Fähigkeit des maschinellen Lernens zur Erkennung von Hassreden nutzen, um gemeinsame Eigenschaften von themenübergreifenden Datensätzen zu erfassen und dieses Wissen zu übertragen, um spezifische Manifestationen von Hassreden mithilfe von NLP, ML und Analyse zu erkennen. Unser Hauptziel ist es, dieses hochentwickelte und effiziente Modell auf Textdaten anzuwenden, um optimale und genaue Ergebnisse zu erzielen. Wir verwenden verschiedene Techniken des maschinellen Lernens und des tiefen Lernens, einschließlich multimodaler Ansätze. Wir verwenden einen Datensatz, der in themenspezifische Kategorien wie Misogynie, Sexismus, Rassismus, Fremdenfeindlichkeit und Homophobie unterteilt ist. Das Trainieren eines Modells auf einer Kombination von mehreren (Trainingssätzen aus mehreren) themenspezifischen Datensätzen ist effektiver als das Trainieren eines Modells auf einem atopisch-generischen Datensatz. Die Datensätze können aus verschiedenen Quellen wie YouTubeAPI, Twitter API, Web-Scraping oder aus verschiedenen Regierungsquellen stammen. Unser Ziel ist es, eine Vorverarbeitung und explorative Datenanalyse der gesammelten Daten durchzuführen und daraus Schlussfolgerungen zu ziehen,