Humboldt-Universität zu Berlin | Institut für deutsche Sprache und Linguistik | Sommersemester 2020 | LV "Einführung in NLP mit Python" (Thomas Krause)
- Lorena Ciutacu
- Damyan Lissitchkov
Sentimentanalyse von Produkt-Bewertungen
Sentimentanalyse ist eine Methode des Textmining, die es ermöglicht, die Valenz eines Textes zu erkennen und zu klassifizieren. Ziel unseres Projektes ist es, eine Sentimenanalyse von Produktbewertungen durchzuführen, um die schriftlich ausgedrückten Meinungen der Kunden als positiv/negativ zu klassifizieren. Wir analysieren deutschsprachige Bewertungen von Kleidungen und Kaffees. Die Herausforderung dieser Aufgabe besteht darin, dass die Tools für Sentimentanalyse vorwiegend auf die englische Sprache trainiert sind und nicht einfach auf Deutsch übertragen werden können. Dafür verwenden wir verschieden Libraries und vergleichen ihre Leistung bzw. Genauigkeit für deutsche Texte.
In diesem Projekt benutzen wir die folgende Datasets:
Erstens haben wir eine Text- bzw. Sentimentanalyse von deutschen Kaffeebewertungen mit VADER und TextBlob durchgeführt.
Zweitens haben wir englische und deutsche Kleidungsbewertungen (übersetzte Bewertungen) mit SpaCy verarbeitet, dann zwei Machine Learning Modelle für die Klassifizierung von Sentiment-Scores verwendet und folgende Genauigkeit Werte erreicht:
- Logistic Regression: 95,65% auf English bzw. 86,53% auf Deutsch
- Support Vector Classifier: 86,46% auf English
- NLTK (VADER)
- TextBlob
- SpaCy
- Sentiment Wortschatz