Spieletests und Wertungen

by Boris Schneider-Johne,
published on

Ich lebe ja nach der Devise "Nix bereuen". Aber dann darf ich sagen, daß es mich wurmt, mit Power Play und PC Player die "100er Wertung" eingeführt zu haben. Dazu hatte ich 2009 einen langen Rant geschrieben, den ich für die neue Webseite erhalten habe. Und meine geschätzte Kollegin Petra Fröhlich schrieb darauf eine Replik, die ich hier gerne verlinke: "Keine Wertung, keine Eier". Aus der Tatsache, daß ich diesen einen Text von dreisechzig.net gerettet habe, kann man erahnen, daß sich meine Meinung nicht wesentlich geändert hat.

Der Spieletest ist tot (von 2009)

…er weiß es nur noch nicht.

Einige Leute, die ich kenne, verdienen ihr Geld damit, Spiele zu “testen”. Einige davon haben es sogar von mir gelernt, denn ich hab das früher mal selber gemacht. Sorry, Jungs (und Mädels). Es ist nicht persönlich gemeint.

Die Art und Weise, in der Spiele “getestet und bewertet” werden, ist mir schon seit 1995/96 suspekt (Kenner erinnern sich jetzt sofort an “5 Sterne”), aber inzwischen scheint dies immer mehr Menschen klar zu sein – nur den meisten Zeitschriften (und Webseiten) noch nicht, die weiterhin so tun, als könnte man auf ein Spiel eine Zahl draufkleben. Und sich danach wundern, daß niemand ihre Druckwerke am Kiosk mehr kaufen mag.

Die europäische Geschichte der Spieletests beginnt so zum 1983 herum, als jeden Monat nicht nur Dutzende neuer Spiele für Sinclair Spectrum und C 64, sondern auch Heimcomputer-Magazine erscheinen, die diese Spiele “testen”. Die Macher der Zeitschriften “Crash” und “Zzap 64″ etablierten dabei die “Prozent-Wertung”. Ein Spiel erhielt danach zwischen 0 und 100% je nach gefühlter Qualität.

Dann kamen Lenhardt & Schneider, machten Power Play, übernahmen die Prozent-Wertung als tolle Idee, und das Schicksal nahm seinen Lauf.

Konnte man damals aus der Kombination von jugendlichem Leichtsinn (beide “Tester” unter 20 Lenzen) und der allgemeinen Beschränktheit des Themas Videospiel (so viele unterschiedliche Konzepte gab es damals auch wieder nicht, sehr viele Spiele waren sich sehr ähnlich) mit dieser Wertung ordentlich hantieren, so ist doch heutzutage die Wertung ein böser Anachronismus, der abgeschafft gehört. Man kann zwei Side-Scrolling-Shooter mit gutem Willem miteinander vergleichen und dem einen 40 und dem anderen 80 Prozent geben, basierend auf technischer Qualität und der Flugbahn der Gegner. Bei storygetriebenen 3D-Shootern, die noch dazu auf zehntausend verschiedenen Hardware-Kombinationen laufen müssen (jaja, die PCs), ist das schlicht und einfach unmöglich.

Wertungskasten – fangen wir mit dem Allerschlimmsten an.

Viele der Medien versuchen, dem Wahnsinn Methode zu verleihen. Guckt man in eine Computer-Bild-Spiele, findet man ernsthaft Wertungskästen wie diesen:

Für den, der nicht regelmäßig die CBS liest: Das hab ich mir NICHT ausgedacht. Das steht da so, Seite für Seite. Für die Nicht-Mathematiker unter uns: Da ein Wert, der mit 5% (einem Zwanzigstel) in die Wertung eingeht, auf ein Fünfzigstel genau angegeben wird (3,3 von einem Bereich von 1,0 bis 6,0), kann die Computer-Bild-Spiele-Redaktion also tatsächlich Spiele mit einer Präzision von 1 zu 1000 messen (der Output hat immerhin noch 500 Stufen, von 1,00 bis 6,00). (Wenn man für den Vergleich die 2% bei den Texten und die voll angegebene Präzision von 4,00 (statt nur 4) heranziehen würde, wären wir bei 1:25000. Ja, Fünfundzwanzigtausend). Umgekehrt gerechnet: Ein perfektes Spiel (alles 1,0) mit ein paar Tippfehlern (Note: 1,5) wird in der Wertung auf 1,01 ((98*1 + 2*1,5)/100) abgewertet. Gut zu wissen! Das beeinflußt meine Kaufentscheidung enorm!

Ich frage mich manchmal, ob die Redakteure, die diese Kästen ausfüllen sollen, bei der Arbeit hysterisch kichern oder leise weinen, wenn sie sich des gehobenen Schwachsinns solcher Wertungen bewußt sind.

Wie man sein eigenes System ad absurdum führt

Auf den ersten Blick scheint Gamepro einen Ausgleich gefunden zu haben: Ja, es gibt die doofe Hunderter-Wertung. Aber eine Auswahl von Redakteuren gibt dem Spiel eine private Wertung im 10er-System, und die sind wirklich unabhängig und müssen nichts mit der 100er-Wertung zu tun haben. Ein guter Kompromiß. Oder?

Ich beantworte das nur mit dem Resident-Evil-5-Test aus Ausgabe 3/09. Auf Seite 19 geben Henry und Markus 9 von 10 Punkten. Schade nur, daß auf Seite 3 erzählt wird, wie Bernd und nur Bernd in Hamburg an zwei Tagen das Spiel gespielt hat. Logische Schlußfolgerungen zur Validität der persönlichen Meinung und überhaupt der ganzen Wertung, wenn nur ein Mensch das Spiel gespielt hat, überlasse ich dem geneigten Leser. Markus Schwerdtel hat mir gleich in einer E-Mail geschrieben, daß diese Geschichte längst aufgeklärt ist: Andere Redakteure hätten in München die ersten drei Kapitel spielen können, der Auserwählte Bernd in Hamburg aber das ganze Spiel. Ich halte das System aus all den anderen Gründen drum herum trotzdem für mangelhaft.

Es mangelt an Dynamik

Egal ob 100, 500 oder “nur” 10er-System. Schon seit Jahren fand ich es nicht gut, inzwischen sogar absichtlich irreführend, Spiele mit einer Zahl bewerten zu wollen. Dazu haben sich Computer- und Videospiele zu sehr weiterentwickelt. Der eine oder andere Spielefan empfindet sein Medium als packender, mitreißender oder weiterentwickelter als Film, Musik oder Buch. Nur: Die Leute, die sich wirklich intensiv mit Film, Musik oder Buch beschäftigen, berufliche Kritiker, geben entweder gar keine Zahlenwertung oder beschränken sich auf Systeme mit maximal 5 bis 10 Stufen.

Außerdem nutzen Sie die Dynamik ihrer Systeme aus. Da gibt es für einen als grottig schlecht empfundenen Film schon mal Null Punkte, oder einen halben. Die durchschnittliche Wertung von Xbox 360 und PS3 Videospielen in den diversen Zeitschriften schwankt zwischen 70 und 80 (alle Tests der letzten sechs Monate des Jahres 2008). Das kritischste Magazin in Deutschland wertet im Schnitt nicht schlechter als 72, das unkritischste liegt im Schnitt (!) über 80. (Daten von www.gamepress.de, auf die ich beruflich Zugriff habe, aber die ich hier nicht im einzelnen wiedergeben darf). Wertungen für Wii-Spiele sind im Schnitt ein paar Prozentpunkte schlechter, aber pendeln auch nicht um die 50%.

Das System mit den 100er-Wertungen ist also mathematisch gesehen schon mal völlig kaputt, wenn eh der Durchschnitt eine 75 kriegt. Oder, um die PC Games (die kommt gleich noch dran) zu zitieren: “Wertung < 50: Mangelhaft. Buchstäblich mangelhafte Spiele gefährden Ihre gute Laune. Selbst zum Budget-Tarif nicht zu empfehlen”.

Der Spreeblick hat das vor vielen Monaten im Rahmen der erweiterten Zehner-Skala (wenn man ne Kommastelle dranhängt, sind es eh wieder Hundert) mal durchgespielt: http://www.spreeblick.com/2008/06/25/warum-spielewertungen-mit-10er-skala-keinen-sinn-machen/ Fazit: du brauchst eine 100er-Skala, weil du ansonsten ja gar keine Unterscheidungsmerkmale für das Mittelfeld hast.

Die Zeitachse

Eines der ulkigsten, für mich inkonsequentesten Bewertungssysteme hat die PC Games. Die haben eine sogenannte “Motivationskurve” eingeführt, bei dem der Tester in regelmässigen Abständen (Level, Runde oder Zeitabstand) von 1 bis 10 bewertet, wie gut er unterhalten wurde. Daraus wird dann eine Durchschnittswertung gebildet und diese Kurve im Heft abgebildet. Aber statt einfach zu sagen “Der Tester sagt halt, wieviel Spaß es ihm gemacht hat” kommt vorab eine Litanei von Dingen, die positiven oder negativen Einfluß auf diese Kurve haben kann. Ich zitiere in Auszügen (die Erklärung nimmt im Heft eine klein bedruckte viertel Seite ein):

Mit vielen Punkten bewerten wir: Glaubwürdige Spielwelt – STOP! Ok, das schließt dann ja schon mal alle Fantasy-Spiele, alle Action-Spiele, ach eigentlich alles aus weil, bitte schön, glaubwürdig ist so ziemlich keine Spielewelt. Magische Momente – Sprich, alles was wir nicht beschreiben können, aber dann doch irgendwie Spaß gemacht hat.

Abzüge gibt es für: Technische Mängel …Erhebliche Spielunterbrechungen / Ladezeiten … nicht genau erklärte Spielfunktionen Seltsam – offensichtlich kann man ganz konkret aufzählen, was keinen Spaß macht. Aber nicht, was eigentlich Spaß macht. Prima, das bringt uns gleich zum nächsten Punkt. Etwas Geduld, nach der nächsten Überschrift wird es lustig!

Der Haken ist, daß diese Motivationskurve, ein Meßbalken für subjektiven Spaß, wieder als objektive Wertung verkauft wird. Daß ein Durchhänger in Level 4 die Gesamtwertung drücken muß. Daß die Spieldauer hier wohl eine Rolle spielt, aber eine sehr undifferenzierte. Daß der Spaß bei Multiplayer-Spielen im wesentlichen von den Mitspielern abhängt. Daß schon mal in den Illustrationen und Beschreibungen zu dieser Kurve 90% des Spieleplots verraten werden. Und so weiter. Aber um es kurz zu machen – hier wird die Illusion erzeugt, man könne individuellen Spaß messen und dann in eine allgemein gültige Wertung pressen.

Bitte bewerten Sie Spielspaß. Jetzt!

Natürlich läuft alles auf die Frage hinaus, wie man Spaß bewerten kann. Zählen wir mal ein paar Dinge auf, die Spaß machen: Fernsehen gucken, Fußball spielen (mit einem Ball, nicht mit einem Controller), Sex, Achterbahn fahren, schön Essen gehen, Stricken, Aerobic, Briefmarken sammeln, eine Wanderung durch die Alpen, PHP Programmierung und CSS Stylesheets.

Und ich wette das schon alleine in dieser Aufzählung der Eine oder Andere gesagt hat “Das macht mir nun wirklich keinen Spaß”. Ist ja nicht jeder gerne Achterbahn-Fahrer.

Nun haben es die Achterbahn-Fans unter uns noch recht leicht, denn wir haben ein relativ begrenztes Gebiet mit physikalischen Kriterien: Wie schnell, lang, kurvig ist die Bahn, wann wirken welche G-Kräfte? Alles messbar mit Instrumenten. Daraus kann man eine Form von Wertung für die Bahn errechnen. Damit nimmt man sogar die gleichen Kritierien wie der Konstrukteur: Damit die Achterbahn Spaß macht, muß da noch ein Looping rein. Rollercoaster Tycoon halt, der macht das genau so.

Nur: Die Achterbahn, die mir persönlich am meisten Spaß macht, ist eine recht langweilige Achterbahn. Aber “Space Mountain“ im Disneyland (Kalifornien) ist

a) im Dunkeln mit einem

b) komplett durchgezogenen Weltraum-Motiv schon in der Warteschlange welches

c) tolle optische Effekte während der Fahrt bietet während

d) eine auf den Lauf des Wagens perfekt synchronisierte Musik die Fahrt zu einem Tanz auf Schienen macht.

Als pure Achterbahn ist Space Mountain langweilig, als multisensorisches Erlebnis aber eine Wucht in Tüten. Und schon ist die Vergleichbarkeit hin. Ist das jetzt bezogen auf den Silver Star im Europa Park eine 4 (viel zu langsam) oder eine 10 (geile Musik, absolut im Takt mit jeder Kurve)?

Schon mit dem Thema Achterbahn habe ich die Möglichkeit einer objektiven Bewertung von “Spaß” mit Zahlen mal eben so zerstört. Was mir erspart, hier jugendfrei den Beweis mit dem Thema Sex antreten zu müssen.

Und weil es so wichtig ist, hier für alle zum Ausdrucken und an die Wand kleben:

Spaß kann man nicht mit einer allgemeingültigen Zahl bewerten, denn der “Spaß” einer Situation wird von jedem Menschen anders empfunden. Wir sind alle Individuen.

Also, rammen wir jetzt bitte dem Bewerten eines “Spielspaßes” endgültig den Holzpflock durch das kalte, schon lange nichts mehr fühlende Herz.

Casual Games machen vielen Leuten Spaß!

Hier ist das dreckige kleine Geheimnis der Spieletester: Die sogenannten Casual Games. “Puzzle Arcade” auf Xbox Live ist ein für viele Leute zweifelhaftes Vergnügen (selbst ich halte ein echtes Puzzle mit Teilen aus Pappe für sinnvoller). Aber ich kenne einen Redakteur einer Spielezeitschrift, die nur Hardcore-Spieler bedient, der das tagelang gespielt hat. Tagelang! Obwohl hundert andere Xbox Spiele in seiner Reichweite lagen. Gestandene Ego-Shooter-Recken spielen heimlich auf dem Iphone nette kleine 99-Cent-Spiele, die sie aber im Heft als PC Produkt hemmungslos verreißen würden.

Die “Tests” zu Casual Games wie “Interpol” auf Xbox Live Arcade fallen in zwei Lager, ok drei.

  1. Ich versteh das nicht wirklich und will keinem auf die Füße treten, deswegen geb ich mal 50 und mach den Test so klein wie möglich (das ist nicht wirklich ein Test, daher zählt es eigentlich nicht).
  2. Die technische Umsetzung ist absolut beschissen, das Bild ist unscharf, die Lupe funktioniert nicht, so macht das keinen Spaß, Wertung: 30 (das laß ich so gerne gelten – das ist eine absolut gerechtfertigte Kritik)
  3. Es ist sterbenslangweilig, Gegenstände in Bildern zu suchen, das ist höchstens was für Kleinkinder, Wertung: 20

Spieletester Nummer Drei sollte sich schleunigst einen neuen Job suchen. Denn diese “Hidden Object” Spiele sind sind vier Jahren ein absolutes Phänomen im Casual Gaming Markt. Woche für Woche kommen ein bis zwei neue Titel in dieser Kategorie. Es gibt inzwischen Reihen mit Sequels zu Hits aus diesem Genre. Das gäbe es nicht, wenn sich diese Spiele in den Online-Portalen nicht wie geschnitten Brot verkaufen würden. Hidden Object Spiele sind das Moorhuhn dieses Jahrzehnts. Da haben hunderttausende von Erwachsenen, keinesfalls Kleinkinder, Spaß mit!

Wenn Tester Nummer Drei geschrieben hätte: “Ich finde das langweilig, wer wie ich nur auf Shooter steht, sollte das besser nicht downloaden,” könnte man ja noch gnädig sein. Aber aus dem eigenen begrenzten Geschmack abzuleiten, dem Entwickler mit der 20 mal so richtig eins vor den Latz knallen zu dürfen?

Ich liebe Hidden Object Spiele. Sie machen mir einen Heidenspaß. Ich habe sie aber zwei Jahre lang nicht angerührt, weil entweder gar keiner darüber berichtet hat oder aber nur abfällige Kommentare zu lesen waren. Bis heute kenne ich keinen “Test”, der diese Spiele vernünftig “beschreibt”, nicht nur auf einer technischen Ebene sondern auf der, wie man sich beim Spielen dieser Produkte fühlt und warum man einfach nicht aufhören kann, zu spielen.

Womit wir bei Metacritic wären

Computer sind große Datenverarbeitungsmaschinen. Sie nehmen Zahlen, kauen sie nach Programm durch und spucken unemotional ein Ergebnis aus. Und weil das heutzutage alles ganz einfach ist, gibt es “Metacritic”. Wer das nicht kennt: Das ist eine Webseite, die einfach alle verfügbaren Spieletests einsammelt, den Durchschnittswert aller Test-Bewertungen errechnet und damit eine “objektive Qualität” vorgaukelt.

Im Zeitalter der schnellen Datenverarbeitung ist sowas wie Metacritic natürlich unvermeidbar, aber das macht es nicht besser. Denn Metacritic ist ein Zerrbild von Zerrbildern. Der Input sind “Testberichte”, die allerdings alle auf völlig unterschiedlichen Kritieren, Methoden und anderen meinungsbildenden Maßnahmen basieren. Da Metacritic sich nur die Zahl, aber nicht den Text, die Intention, den Hintergrund zu eigen macht, ist der Input schlicht und einfach Müll. Dem kommt Metacritic angeblich mit einem Algorithmus entgegen, der bestimmte Tests mehr oder weniger in seiner Durchschnittsberechnung gewichtet, aber dieser Algorithmus ist geheim. Input unbrauchbar, Algorithmus unbekannt – aber das Ergebnis wird auf einmal als “Urteil” akzeptiert?

Nun gibt es aber diese ominöse angebliche “Durchschnittswertung” und logischerweise muß es ein Hersteller darauf anlegen, diese zu “optimieren”. Ich habe hier eine ganz klare Meinung: Da es sich hier um eine unlautere Methode handelt, ein Produkt auf eine Zahl von 1 bis 100 zu reduzieren, darf ich als Hersteller auch alles legale versuchen, diesen Prozess zu beeinflussen und die Zahl möglichst hoch erscheinen zu lassen.

Wie schon an anderer Stelle beschrieben, startet der Metacritic-Wert oft hoch, weil in der Regel besonders positive Tests früher erscheinen. Dann sinkt er langsam, während Tests mit weniger guten Noten eintrudeln und den Schnitt drücken, wie man so schön sagt. Nun gibt es aber definitiv Medien, die es inzwischen drauf ansetzen, “Kontrapunkte” zu geben. Wenn einem an Spiel A was nicht gefällt, es aber auf Metacritic aber gerade mit 93% da steht, kann man keine 84 mehr geben, jetzt muß es eine 79 sein um a) diese völlig überzogene Metacritic-Wertung mal ein wenig runterzuholen und b) um seinen Lesern erneut zu beweisen, daß man das einzig kritische, ungekaufte Organ der Spieletestwelt ist. Absurd? Keinesfalls – diese negative Rückkopplung gibt es tatsächlich bei einigen Medien respektive einzelnen “Testern”, die sich nicht nur als Ritter der Spielekäufer, sondern auch als Retter der Durchschnittswertung sehen. Und natürlich sind die Leute, die ihren eigenen Test ein bisschen schlechter machen, um den Schnitt auszugleichen, edel, hilfreich und gut, während die Industrie, die sich die ersten Testpartner so aussucht, daß der Metacritic Wert am Anfang weiter oben steht, fiese manipulative Schweine sind. Fakt ist: Da wollen zwei Seiten eine Webseite austricksen, die aus mangelhaftem Datenmaterial ein “Ergebnis” vortäuscht, was gar keins ist.

Ich kann Metacritic nicht abschaffen – ich nutze es sogar, wenn es von Vorteil für mich oder meinen Arbeitgeber ist (machen andere ja auch). Aber mögen muß ich es deswegen noch lange nicht und für meinen privaten Spieleeinkauf ist Metacritic nicht mal im Ansatz ein Kriterium.

Und wehe, man hat eine andere Meinung!

Eine meiner Lieblingszeitschriften, “Edge” aus England, schreibt schöne Reviews, analysiert oft treffend, was an Spielen gut und was schlecht ist und nimmt Spiele im allgemeinen Ernst. So auch Killzone 2, welches Edge detalliert auseinander genommen hat, die Action und Spielmechanik lobt, den Multiplayer gut findet, aber am Ende des Tages sich über eine der generischsten Stories seit Jahren aufregt. Sehr detailliert geschrieben.

Der Haken: Unter dem Artikel steht nun mal eine Wertung, die ist 7 von 10.

Da aber das halbe Internet und diverse Zeitschriften die 90er haben prasseln lassen und Edge mit seiner 7 relativ alleine da steht, fliegen in Internet-Foren die Fetzen. Und gefühlte 95% aller Kommentar-Schreiber sind der Meinung, die von Edge haben keine Ahnung, sondern sind “Fucking Idiots” die nicht wissen wir man Spiele testet, weil “ichhabeaucheinewebseite.com” schließlich 90 Punkte gegeben hat. Da liest man “ihr habt keine Ahnung”, dabei ist es vom Text her einer der detailliertesten Reviews zu diesem Spiel, der Vergleiche mit anderen Titeln absolut schlüssig recherchiert.

Wäre ich noch Journalist einer hochauflagigen Spielezeitschrift (ha!), wäre ich in diesen Augenblicken geneigt zu sagen: Wißt Ihr was? Wir schreiben gar keine Texte mehr in unserem Heft. Wir machen Screenshots, den Pressetext des Herstellers und eine unkontroverse Wertung. Denn mehr wollen viele Heftkäufer wirklich nicht wissen!

Was die Magazine falsch machen

Wenn ich eine Spielezeitschrift machen würde, müßten die Wertungen rausfliegen und durch was ganz anderes ersetzt werden. Denn seit zehn Jahren haben die Zeitschriften kein “Wertungsmonopol” mehr, da im Internet jeder Hinz und Kunz eine Wertung abgeben kann – und dann kommt mit Metacritic auch noch die große Durchschnittswertung. Danach hat die “83%”, die man unter seinen Artikel geklebt hat, gar keinen Wert mehr, sondern ist nur noch eine Zahl von vielen.

Dummerweise hat man sich aber ein Publikum rangezüchtet, das nur auf diesen Wert schaut. Das Internet kann sich um die Leute, die die Zahlen sehen wollen, viel besser, aktueller und unprofessioneller kümmern. Denn die Journalisten, die nicht nur Elektronen verschicken, sondern echtes Papier bedrucken wollen, sollten doch an sich selbst den Anspruch haben, was besseres abzuliefern als die ganzen Webseiten. Was besseres – das ist in jedem Fall nicht noch eine Zahl und noch ein komplizierter Wertungskasten. Das ist Text und Bild, vielleicht auch Audio und Video.

Ist es nicht traurig, wenn ich hier sagen muß, daß für mich der eine Spielekritiker, der mich regelmässig unterhält und informiert, Ben Croshaw von Zero Punctuation ist? Der im Alleingang eine “neue” Form von Spielkritik erfunden hat, die trotzdem mehr über Spiele aussagt als jede Testtabelle, die ich auf Papier oder im Web finden kann. Kann nicht jemand in Deutschland 25 Jahre nach Lenhardt & Schneider statt eines neuen Wertungskastens mal eine neue Textform oder so was erfinden? (Tatsächlich gibt es da was: Das Videoformat von Heinrich Lenhardt und Jörg Langer, bei dem die beiden ihre erste Stunde mit einem neuen Spiel dokumentieren und danach nur noch die Frage beantworten: “Würde ich weiterspielen?” Leider machen die beiden das nicht regelmäßig genug).

Meine Bitte an den Spielejournalisten

Werdet vom “Tester” zum “Kritiker”. Schreibt eure Meinung. Erzählt, was das Spiel mit Euch angestellt hat. Welche Emotionen es auslöst, wie euer Bauch und euer Kopf reagierten. Beschreibt die Technik, in Relation zur Handlung, aber nicht als lange Frameratenoptimierungswüste. Steht dazu, daß es sich um eine Meinung handelt, nicht um eine “objektive Wertung”.

Meinungen sind prima. Kritiken sind toll, wenn sie denn was erzählen statt aufzuzählen. Eine Spielablauf- und Technik-Beschreibung mit einer Zahl darunter ist sterbenslangweilig und, ehrlich gesagt, auch einfach zu machen. Dafür muß man sich nicht anstrengen, das kann jeder Hinz und Kunz im Internet auch und dafür gibt ein Leser heutzutage kein Geld mehr aus.

Bitte begrabt den “Spieletest”. Er wird dem vielschichtigen Medium Computerspiel schon lange nicht mehr gerecht.