WordPress ist flexibel, mächtig und auf unglaublich vielen Websites im Einsatz. Gleichzeitig hält sich ein Vorurteil seit Jahren hartnäckig: WordPress sei automatisch langsam. Genau das wollte ich nicht mit Bauchgefühl, sondern mit echten Felddaten prüfen.
Für diese Benchmark-Studie habe ich deutschsprachige WordPress-Websites ausgewertet und mir angeschaut, wie gut sie bei den Core Web Vitals abschneiden.. Dabei geht es nicht nur um eine allgemeine Passrate. Spannend wird es vor allem dann, wenn man genauer hinschaut: Welche Website-Kategorien schneiden besser ab? Wo wird es schwächer? Und welche einfachen Strukturmerkmale fallen bei langsameren Seiten besonders auf?
Das Ergebnis ist deutlich differenzierter, als viele pauschale Aussagen vermuten lassen.
Kurzantwort
Deutschsprachige WordPress-Websites schneiden im mobilen CrUX-Sample besser ab, als der Ruf von WordPress oft vermuten lässt — aber eben nicht gleich gut. In meiner Auswertung bestehen 65,7 % der vollständig messbaren Websites alle drei Core Web Vitals. Gleichzeitig zeigen sich klare Unterschiede zwischen den Website-Kategorien und bei einfachen Strukturmerkmalen. Besonders auffällig ist im aktuellen Sample die Skriptmenge: Je skriptreicher die Zielseiten, desto schlechter fallen LCP und CWV-Bestandensquote aus.
Inhaltsverzeichnis
- 1 Kurzfassung
- 2 Die Studie auf einen Blick
- 3 Warum diese Studie interessant ist
- 4 Die wichtigsten Ergebnisse auf einen Blick
- 5 Was genau wurde hier ĂĽberhaupt ausgewertet?
- 6 Von der Stichprobe zur auswertbaren CrUX-Basis
- 7 Wie viele WordPress-Websites die Core Web Vitals bestehen
- 8 Welche Website-Kategorien besser oder schlechter abschneiden
- 9 LCP, INP und CLS im Kategorienvergleich
- 9.1 Auf einen Blick: Welche Metrik trennt die Kategorien am stärksten?
- 9.2 LCP: Hier gehen die Kategorien am stärksten auseinander
- 9.3 LCP nach Kategorie
- 9.4 INP: Unterschiede ja, aber deutlich kleiner
- 9.5 Was das praktisch bedeutet
- 9.6 CLS: Im Median ziemlich eng beieinander
- 9.7 Kurz gesagt
- 9.8 Was man aus diesem Vergleich wirklich mitnehmen kann
- 9.9 Kurzfazit zu LCP, INP und CLS
- 10 Welche Strukturmerkmale im Sample mit schwächerer Performance einhergehen
- 10.1 Kurz eingeordnet: Worauf ich hier schaue
- 10.2 Skript-Quartile: Hier wird der Unterschied richtig deutlich
- 10.3 Skript-Quartile im direkten Vergleich
- 10.4 Was man daraus mitnehmen kann
- 10.5 Zwischenfazit Skripte
- 10.6 Bild-Quartile: Auch sichtbar, aber deutlich schwächer
- 10.7 Bild-Quartile im direkten Vergleich
- 10.8 Was das praktisch heiĂźt
- 10.9 Zwischenfazit Bilder
- 10.10 Iframes: Ebenfalls schlechtere Werte, aber nicht der Haupttreiber
- 10.11 Iframe-Vergleich
- 10.12 Wie ich das einordnen wĂĽrde
- 10.13 Die drei Struktur-Befunde im direkten Vergleich
- 10.14 Kurzfazit zu den Strukturmerkmalen
- 11 Was Du als WordPress-Betreiber daraus praktisch mitnehmen kannst
- 12 Grenzen der Studie
- 13 Fazit
- 14 FAQ zur WordPress-Benchmark-Studie
Kurzfassung
- Die bereinigte Studienbasis umfasst 859 deutschsprachige WordPress-Websites.
- FĂĽr 602 Websites liegen mobile CrUX-Origin-Daten vor.
- Für 557 Websites sind LCP, INP und CLS vollständig messbar.
- 366 von 557 vollständig messbaren Websites bestehen alle drei Core Web Vitals.
- Das entspricht einer CWV-Bestandensquote von 65,7 %.
- Unter den regulär auswertbaren Kategorien schneiden Blogs / Magazine / News am besten ab, B2B am schwächsten.
- Der stärkste technische Zusatzbefund zeigt sich bei der Skriptmenge.
Die Studie auf einen Blick
| Kennzahl | Wert |
|---|---|
| Bereinigte Studienfälle | 859 |
| Websites mit mobilen CrUX-Origin-Daten | 602 |
| Vollständig messbare Fälle | 557 |
| Websites, die alle drei CWV bestehen | 366 |
| CWV-Bestandensquote im vollständigen Sample | 65,7 % |
Das ist die wichtigste Einordnung direkt am Anfang: Die Studie bewertet nicht pauschal alle deutschsprachigen WordPress-Websites, sondern das vollständig messbare mobile CrUX-Sample. Genau dadurch werden die Aussagen belastbarer.
Warum diese Studie interessant ist
Über WordPress-Performance wird viel gesprochen, aber oft erstaunlich unsauber. Mal wird eine einzelne Seite mit PageSpeed Insights getestet, mal wird ein schlechtes Beispiel verallgemeinert, mal wird WordPress selbst zum Problem erklärt, obwohl die eigentlichen Ursachen ganz woanders liegen.
Genau deshalb wollte ich einen Schritt zurückgehen und mir nicht nur Einzeltests anschauen, sondern ein größeres Bild. Also nicht: Wie schnell ist diese eine WordPress-Seite? Sondern: Wie schneiden deutschsprachige WordPress-Websites im mobilen Feld-Sample insgesamt ab?
Noch interessanter wird es dann im zweiten Schritt. Denn selbst wenn man eine Gesamtquote kennt, bleibt die entscheidende Frage offen: Wo genau unterscheiden sich die Websites? Zwischen Magazin, Shop, B2B-Seite und Vereinsauftritt? Oder eher bei Dingen wie Skriptmenge, Bildlast und eingebetteten Inhalten?
Genau da wird die Studie nĂĽtzlich. Sie zeigt nicht nur eine allgemeine Passrate, sondern verbindet drei Ebenen miteinander:
- die CrUX-Gesamtbasis
- den Vergleich der Website-Kategorien
- und einfache Strukturmerkmale der Zielseiten
Die wichtigsten Ergebnisse auf einen Blick
Nach Kurzantwort, Kurzfassung und Überblickstabelle lässt sich der Kern der Studie auf drei Punkte verdichten:
- 65,7 % der vollständig messbaren Websites bestehen alle drei Core Web Vitals.
- Zwischen den Website-Kategorien zeigen sich sichtbare Unterschiede.
- Der deutlichste technische Zusatzbefund zeigt sich bei der Skriptmenge.
Damit ist das Grundbild gesetzt. Jetzt schauen wir uns an, wie die Datengrundlage zustande kommt und wo die Unterschiede im Sample konkret sichtbar werden.
Was genau wurde hier ĂĽberhaupt ausgewertet?
Bevor wir in die Kategorien und Metriken einsteigen, kurz die saubere Einordnung: Grundlage der Studie ist eine manuell bereinigte Stichprobe deutschsprachiger WordPress-Websites. Die Hauptauswertung basiert auf mobilen CrUX-Origin-Daten. Also nicht auf einzelnen Lighthouse-Screenshots, sondern auf echten Felddaten.
Wichtig ist außerdem diese Regel: Eine Website gilt in dieser Auswertung nur dann als „bestanden“, wenn alle drei Core Web Vitals vollständig vorliegen und gleichzeitig die Schwellenwerte eingehalten werden. Teilweise fehlende Antworten (partial) oder nicht verfügbare Datensätze (not_found) werden nicht als „nicht bestanden“ gezählt.
Das macht die Studie strenger, aber auch sauberer.
Methodik in 30 Sekunden
- Grundlage ist eine bereinigte Stichprobe deutschsprachiger WordPress-Websites.
- Hauptbasis sind mobile CrUX-Origin-Daten.
- Eine Website zählt nur dann als „bestanden“, wenn LCP, INP und CLS vollständig vorliegen.
partialundnot_foundwerden nicht als Fail gezählt.- Strukturmerkmale wie
script_count,img_countundiframe_countwerden deskriptiv, nicht kausal interpretiert.
Core Web Vitals in dieser Studie
| Metrik | Wofür sie steht | Grenzwert für „gut“ |
|---|---|---|
| LCP | Ladezeit des wichtigsten sichtbaren Inhalts | ≤ 2,5 s |
| INP | Reaktionsfähigkeit der Seite | ≤ 200 ms |
| CLS | visuelle Stabilität des Layouts | ≤ 0,1 |
Von der Stichprobe zur auswertbaren CrUX-Basis
Nicht jede Website aus der bereinigten Liste taucht automatisch mit vollständigen CrUX-Daten in der Hauptauswertung auf. Genau deshalb ist der Funnel am Anfang so wichtig.
Aus den 859 Studienfällen liefern 602 Websites mobile CrUX-Origin-Daten. Für die eigentliche CWV-Hauptauswertung reicht das aber noch nicht automatisch aus. Denn dafür müssen alle drei Core Web Vitals vollständig vorliegen. Genau dadurch reduziert sich die belastbare Hauptbasis auf 557 Websites.
Das ist kein Schwachpunkt der Studie, sondern Teil ihrer methodischen Ehrlichkeit. Die Auswertung tut gerade nicht so, als lägen für alle Websites identische Daten vor. Stattdessen zeigt sie offen, wie viele Fälle überhaupt in CrUX auftauchen und wie viele davon wirklich vollständig messbar sind.
Und genau auf dieser Basis schauen wir uns jetzt an, wie viele WordPress-Websites die Core Web Vitals tatsächlich bestehen.
Wie viele WordPress-Websites die Core Web Vitals bestehen
Jetzt zur Kernfrage: Wie viele der vollständig messbaren Websites bestehen mobil alle drei Core Web Vitals gleichzeitig?
Im aktuellen Sample liegen für 557 Websites vollständige mobile CrUX-Origin-Daten zu LCP, INP und CLS vor. Von diesen 557 Websites bestehen 366 alle drei Core Web Vitals. Das entspricht einer CWV-Bestandensquote von 65,7 %. Umgekehrt verfehlen 191 Websites mindestens eine der drei Metriken.
Das ist ein guter Wert? Ein schlechter? Die ehrliche Antwort lautet: beides greift zu kurz.
Denn diese Zahl zeigt vor allem eins: WordPress-Websites sind im mobilen Feld-Sample weder pauschal schlecht noch automatisch gut. Erst wenn man sich die Website-Kategorien und die Strukturmerkmale anschaut, wird sichtbar, wo die Unterschiede wirklich liegen.
Bis hierhin kennen wir also das Gesamtbild. Jetzt wird es spannender:
Welche Arten von WordPress-Websites schneiden besser oder schlechter ab?
Welche Website-Kategorien besser oder schlechter abschneiden
Die Gesamtquote von 65,7 % ist ein guter Startpunkt. Wirklich spannend wird es aber erst dann, wenn man sich anschaut, welche Arten von WordPress-Websites im Sample besser oder schlechter abschneiden.
Denn natĂĽrlich bringt nicht jede Website dieselben Voraussetzungen mit. Ein Magazin funktioniert anders als ein Shop. Eine B2B-Seite hat andere Anforderungen als ein Vereinsauftritt. Und genau das sieht man auch in den Daten.
Die Kategorien im direkten Vergleich
| Kategorie | CWV-Bestandensquote |
|---|---|
| Blogs / Magazine / News | 69,3 % |
| Unternehmensseiten | 67,1 % |
| andere | 66,7 % |
| Shops / E-Commerce | 63,6 % |
| Vereine / Bildung / Organisationen | 59,8 % |
| B2B | 56,2 % |
Auf den ersten Blick liegen diese Werte vielleicht gar nicht so weit auseinander. Wenn man genauer hinschaut, sieht man aber trotzdem ein klares Muster: Blogs / Magazine / News schneiden im aktuellen Sample am besten ab, B2B am schwächsten.
Die Spannweite zwischen beiden Kategorien liegt bei rund 13 Prozentpunkten. Das ist genug, um mehr zu sein als bloĂź ein bisschen statistisches Rauschen.
Was man daraus mitnehmen kann
Das Ergebnis heiĂźt natĂĽrlich nicht, dass jede B2B-Website automatisch langsam ist oder jedes Magazin automatisch schnell. Aber es zeigt: Die Website-Kategorie macht im Sample einen sichtbaren Unterschied.
Das ist auch logisch.
- Ein redaktionell geprägtes Magazin hat oft einen anderen Aufbau als eine B2B-Seite mit Formularen, Tools, Integrationen oder komplexeren Conversion-Elementen.
- Ein Shop bringt andere technische Lasten mit als ein Vereinsauftritt.
- Und eine klassische Unternehmensseite ist oft schlanker als ein funktional dichter B2B-Auftritt.
Genau deshalb ist dieser Vergleich so interessant. Er zeigt nicht nur, wer vorne und wer hinten liegt, sondern auch, dass WordPress-Performance stark vom Typ der Website abhängt.
Die Gesamtquote allein reicht also nicht
Wenn man nur auf den Gesamtwert schaut, könnte man schnell sagen:
„Okay, rund zwei Drittel bestehen — klingt ordentlich.“
Das stimmt auch. Aber erst der Kategorienvergleich macht sichtbar, wie ungleich das Feld eigentlich verteilt ist.
Mit anderen Worten: WordPress-Websites schneiden nicht einfach pauschal „gut“ oder „schlecht“ ab. Sie schneiden je nach Seitentyp unterschiedlich ab.
Und genau deshalb lohnt sich im nächsten Schritt der Blick auf die einzelnen Metriken. Denn die nächste Frage lautet:
Woher kommen diese Unterschiede eigentlich?
Vor allem beim LCP, beim INP oder eher beim CLS?
Kurzfazit zu den Kategorien
Wenn Du Deine eigene Website einordnen willst, dann ist das hier die wichtigste Erkenntnis aus diesem Abschnitt:
Nicht jede WordPress-Website startet mit denselben technischen Voraussetzungen.
Schon auf Kategorie-Ebene zeigen sich im mobilen Feld-Sample klare Unterschiede bei der CWV-Bestandensquote.
Bis hierhin wissen wir also:
Die Kategorien unterscheiden sich sichtbar.
Jetzt schauen wir uns an, welche der drei Core Web Vitals diese Unterschiede besonders stark treiben — also LCP, INP und CLS im direkten Kategorienvergleich.
LCP, INP und CLS im Kategorienvergleich
Die CWV-Bestandensquote zeigt schon ziemlich klar:
Die Kategorien unterscheiden sich.
Aber damit ist noch nicht beantwortet, woher diese Unterschiede eigentlich kommen.
Genau deshalb lohnt sich jetzt der Blick auf die drei einzelnen Core Web Vitals:
- LCP zeigt, wie schnell der wichtigste sichtbare Inhalt lädt.
- INP sagt etwas über die Reaktionsfähigkeit der Seite aus.
- CLS zeigt, wie stabil das Layout bleibt.
Und genau hier wird es interessant:
Die Kategorien unterscheiden sich nicht bei allen drei Metriken gleich stark.
Auf einen Blick: Welche Metrik trennt die Kategorien am stärksten?
| Metrik | Auffälligkeit im Kategorienvergleich |
|---|---|
| LCP | deutlichste Unterschiede |
| INP | Unterschiede vorhanden, aber kleiner |
| CLS | im Median insgesamt enges Feld |
Das ist wichtig, weil damit schnell klar wird:
Wenn Du verstehen willst, warum bestimmte Kategorien im Sample besser oder schlechter abschneiden, musst Du zuerst auf den LCP schauen.
LCP: Hier gehen die Kategorien am stärksten auseinander
Beim Largest Contentful Paint sieht man die klarste Trennlinie.
Blogs / Magazine / News erreichen im aktuellen Sample den besten Median-LCP mit 1,53 Sekunden.
B2B liegt mit 1,95 Sekunden am anderen Ende des Feldes.
Die Spannweite beträgt damit rund 0,41 Sekunden.
Das klingt auf den ersten Blick vielleicht nicht riesig. FĂĽr eine Kennzahl wie den LCP ist das aber deutlich genug, um im Kategorienvergleich wirklich aufzufallen.
LCP nach Kategorie
| Kategorie | Median-LCP |
|---|---|
| Blogs / Magazine / News | 1,53 s |
| andere | 1,68 s |
| Vereine / Bildung / Organisationen | 1,74 s |
| Shops / E-Commerce | 1,90 s |
| Unternehmensseiten | 1,94 s |
| B2B | 1,95 s |
Der wichtigste Punkt hier ist nicht, dass jede einzelne Website dieser Kategorien exakt so funktioniert. Der wichtige Punkt ist:
Im aktuellen Sample trennt der LCP die Website-Kategorien am deutlichsten.
Mit anderen Worten:
Wenn Kategorien im mobilen Feld-Sample unterschiedlich abschneiden, dann zeigt sich das vor allem beim Laden des wichtigsten sichtbaren Inhalts.
INP: Unterschiede ja, aber deutlich kleiner
Beim Interaction to Next Paint (INP) bleiben Unterschiede zwischen den Kategorien sichtbar, aber sie fallen spĂĽrbar kleiner aus als beim LCP.
Die beste regulär auswertbare Kategorie erreicht einen Median von 94 Millisekunden, die schwächste liegt bei 127 Millisekunden. Die Spannweite beträgt also rund 33 Millisekunden.
Das ist nicht nichts. Aber es ist eben auch nicht die gleiche Größenordnung wie beim LCP.
Was das praktisch bedeutet
INP ergänzt den Gesamtbefund sinnvoll, ist aber im Kategorienvergleich nicht die stärkste Trennlinie.
Die Reaktionsfähigkeit unterscheidet sich im Sample also durchaus zwischen den Website-Typen — nur eben weniger deutlich als das Ladeverhalten.
Oder einfacher gesagt:
Beim INP gibt es Unterschiede.
Beim LCP fallen sie klarer aus.
CLS: Im Median ziemlich eng beieinander
Beim Cumulative Layout Shift (CLS) wird das Feld noch kompakter.
Mehrere regulär auswertbare Kategorien liegen im Median bei 0,00, andere bei 0,01. Das heißt nicht, dass CLS auf einzelnen Websites unwichtig wäre. Es heißt nur: Im Kategorienvergleich ist diese Metrik deutlich enger zusammengedrängt.
Genau deshalb ist CLS in dieser Studie eher die ergänzende dritte Perspektive — nicht die Metrik, die die Kategorien am stärksten voneinander trennt.
Kurz gesagt
- LCP liefert die deutlichste Trennung
- INP zeigt ebenfalls Unterschiede
- CLS bleibt im Median insgesamt enger
Das ist fĂĽr die LeserfĂĽhrung im Artikel wichtig, weil Du dadurch nicht alle drei Metriken gleich stark gewichten musst.
Der eigentlich groĂźe Kategorien-Unterschied liegt hier klar beim LCP.
Was man aus diesem Vergleich wirklich mitnehmen kann
Wenn man alle drei Metriken nebeneinanderlegt, ergibt sich ein ziemlich klares Bild:
- Die Website-Kategorien unterscheiden sich sichtbar
- diese Unterschiede zeigen sich vor allem beim LCP
- beim INP sind sie kleiner
- beim CLS sind die Mediane insgesamt enger beieinander
Das ist eine wichtige Zwischenstation im Artikel. Denn jetzt wissen wir nicht nur, dass sich die Kategorien unterscheiden, sondern auch, wo diese Unterschiede am ehesten sichtbar werden.
Und genau damit kommt der spannendste nächste Schritt:
Wenn nicht nur die Kategorie, sondern auch die technische Struktur eine Rolle spielt — welche einfachen Seitenmerkmale gehen dann besonders deutlich mit schwächeren Werten einher?
Kurzfazit zu LCP, INP und CLS
Wenn Du aus diesem Abschnitt nur eine Sache mitnehmen willst, dann diese:
Der LCP ist im aktuellen Sample die Metrik, die die Website-Kategorien am stärksten voneinander trennt.
Genau deshalb wird es im nächsten Abschnitt so spannend. Denn dort geht es nicht mehr nur um Seitentypen, sondern um einfache technische Muster wie:
- Skriptmenge
- Bildmenge
- Iframe-Nutzung
Welche Strukturmerkmale im Sample mit schwächerer Performance einhergehen
Der Kategorienvergleich war schon spannend. Aber an dieser Stelle wird der Artikel aus meiner Sicht erst richtig nĂĽtzlich.
Denn die nächste Frage lautet nicht mehr nur:
Welche Art von WordPress-Website schneidet besser oder schlechter ab?
Sondern:
Welche einfachen Seitenmerkmale fallen bei schwächeren Werten besonders auf?
Genau dafĂĽr habe ich mir drei sehr einfache Strukturmerkmale angeschaut:
- die Skriptmenge
- die Bildmenge
- und die Frage, ob auf der Zielseite iframes eingebunden sind
Wichtig ist mir dabei die saubere Einordnung:
Das hier ist keine Kausalitäts-Analyse. Ich zeige also nicht, dass ein einzelnes Merkmal automatisch „schuld“ ist. Ich zeige, welche Muster im Sample gemeinsam mit schwächeren Werten auftreten. Genau dafür ist dieser Block gedacht.
Kurz eingeordnet: Worauf ich hier schaue
| Strukturmerkmal | Was wurde verglichen? | WofĂĽr ist das interessant? |
|---|---|---|
| Skriptmenge | skriptärmstes Viertel vs. skriptreichstes Viertel | zeigt, ob technische Last mit LCP/CWV zusammenhängt |
| Bildmenge | bildärmstes Viertel vs. bildreichstes Viertel | zeigt, ob bildreiche Seiten im Sample schlechter abschneiden |
| Iframes | ohne iframe vs. mindestens ein iframe | zeigt, ob eingebettete Inhalte mit schwächeren Werten einhergehen |
Innerhalb der vollständigen CrUX-Basis liegen für 554 Websites verwertbare Strukturwerte vor. Drei Fälle aus der vollständigen CrUX-Basis konnten im HTML-Strukturlauf nicht erfolgreich verarbeitet werden und fehlen deshalb in diesem Teilblock.
Skript-Quartile: Hier wird der Unterschied richtig deutlich
Wenn man sich in dieser Studie nur einen technischen Zusatzbefund merken will, dann diesen:
Die Skriptmenge ist im aktuellen Sample der stärkste der drei betrachteten Strukturindikatoren.
DafĂĽr habe ich die Zielseiten in vier gleich groĂźe Gruppen unterteilt:
- Q1 = skriptärmstes Viertel
- Q4 = skriptreichstes Viertel
Und genau zwischen diesen beiden Gruppen wird es sehr deutlich.
Skript-Quartile im direkten Vergleich
| Gruppe | Median-LCP | CWV-Bestandensquote |
|---|---|---|
| Q1 – skriptärmstes Viertel | 1,34 s | 76,3 % |
| Q4 – skriptreichstes Viertel | 2,17 s | 42,8 % |
Das heiĂźt im Klartext:
- Beim Median-LCP liegt der Abstand zwischen Q1 und Q4 bei 0,83 Sekunden.
- Bei der CWV-Bestandensquote liegt die Differenz bei 33,5 Prozentpunkten.
Das ist kein kleiner Ausschlag mehr. Das ist im aktuellen Sample ein deutlich sichtbarer Unterschied.
Was man daraus mitnehmen kann
Das heißt natürlich nicht, dass man einfach nur genug Skripte löschen muss und sofort alles gut wird. So simpel ist Performance nie.
Aber es heiĂźt sehr wohl:
Wenn eine Zielseite stark skriptlastig ist, dann lohnt sich hier im aktuellen Sample der erste kritische Blick besonders.
Oder anders gesagt:
Zwischen dem skriptärmsten und dem skriptreichsten Viertel zeigt sich der stärkste Performance-Unterschied der ganzen Struktur-Auswertung.
Zwischenfazit Skripte
Wenn ich die Struktur-Befunde priorisieren mĂĽsste, dann wĂĽrde ich sagen:
- Skriptmenge zuerst anschauen
- danach Bilder
- danach iframes
Denn genau bei den Skripten ist der Abstand im Sample am größten.
Bild-Quartile: Auch sichtbar, aber deutlich schwächer
Auch bei der Bildmenge zeigt sich ein Muster. Es ist nur nicht so stark wie bei den Skripten.
DafĂĽr wurden wieder zwei Extreme verglichen:
- Q1 = bildärmstes Viertel
- Q4 = bildreichstes Viertel
Bild-Quartile im direkten Vergleich
| Gruppe | Median-LCP | CWV-Bestandensquote |
|---|---|---|
| Q1 – bildärmstes Viertel | 1,60 s | 70,5 % |
| Q4 – bildreichstes Viertel | 1,77 s | 59,4 % |
Damit ergibt sich:
- ein Unterschied von 0,17 Sekunden beim Median-LCP
- und eine Differenz von 11,1 Prozentpunkten bei der CWV-Bestandensquote
Das ist sichtbar. Aber im Vergleich zu den Skript-Quartilen eben deutlich kleiner.
Was das praktisch heiĂźt
Für mich ist das ein typischer „ja, aber“-Befund:
- Ja, bildreiche Seiten schneiden im Sample schwächer ab.
- Aber: Der Unterschied ist deutlich kleiner als bei der Skriptmenge.
Das passt auch gut zur Praxis. Bilder sind natürlich relevant, vor allem für den LCP. Aber die reine Bildmenge scheint in dieser Auswertung nicht der stärkste Hebel zu sein.
Zwischenfazit Bilder
Wenn Du an einer Seite arbeitest, die viele Bilder enthält, solltest Du das Thema natürlich ernst nehmen.
Aber nach diesen Daten wĂĽrde ich sagen:
Die Bildmenge ist wichtig, aber im aktuellen Sample klar nicht so auffällig wie die Skriptmenge.
Iframes: Ebenfalls schlechtere Werte, aber nicht der Haupttreiber
Als drittes Strukturmerkmal habe ich geschaut, ob sich Seiten ohne iframe von Seiten mit mindestens einem iframe unterscheiden.
Das Ergebnis ist ebenfalls sichtbar, aber auch hier kleiner als bei den Skripten.
Iframe-Vergleich
| Gruppe | Median-LCP | CWV-Bestandensquote |
|---|---|---|
| ohne iframe | 1,66 s | 67,9 % |
| mindestens ein iframe | 1,89 s | 60,4 % |
Daraus ergibt sich:
- 0,23 Sekunden Abstand beim Median-LCP
- 7,6 Prozentpunkte Unterschied bei der CWV-Bestandensquote
Wie ich das einordnen wĂĽrde
Auch hier gilt: Das ist keine BeweisfĂĽhrung, dass iframes automatisch schlechte Werte verursachen.
Aber es zeigt schon recht klar:
Seiten mit eingebetteten Inhalten schneiden im aktuellen Sample tendenziell schwächer ab als Seiten ohne iframe.
Das ist aus der Praxis auch nicht völlig überraschend. Eingebettete Inhalte bringen oft zusätzliche Last, externe Ressourcen oder verzögertes Nachladen mit. Nur: Im direkten Vergleich bleibt der Abstand eben kleiner als bei der Skriptmenge.
Die drei Struktur-Befunde im direkten Vergleich
Wenn man alle drei Strukturmerkmale nebeneinanderlegt, ergibt sich ein ziemlich klares Bild:
| Strukturmerkmal | LCP-Unterschied | Unterschied bei der CWV-Bestandensquote | Einordnung |
|---|---|---|---|
| Skriptmenge (Q1 vs. Q4) | 0,83 s | 33,5 Prozentpunkte | stärkster Befund |
| Bildmenge (Q1 vs. Q4) | 0,17 s | 11,1 Prozentpunkte | sichtbar, aber klar schwächer |
| Iframe (nein vs. ja) | 0,23 s | 7,6 Prozentpunkte | ergänzender Befund |
Das ist fĂĽr mich der eigentliche Mehrwert dieses Abschnitts.
Denn damit lässt sich nicht nur sagen, dass Strukturmerkmale eine Rolle spielen, sondern auch welcher Befund im Sample wirklich heraussticht.
Und das ist ganz klar die Skriptmenge.
Kurzfazit zu den Strukturmerkmalen
Wenn Du aus diesem ganzen Abschnitt nur drei Dinge mitnehmen willst, dann diese:
- Viele Skripte gehen im aktuellen Sample am deutlichsten mit schwächeren Werten einher.
- Viele Bilder zeigen ebenfalls Unterschiede, aber kleiner.
- Iframes sind auch ein erkennbarer Faktor, aber nicht der stärkste Hebel.
Oder noch kĂĽrzer:
Der klarste technische Zusatzbefund dieser Studie liegt bei der Skriptmenge.
Damit haben wir jetzt zwei Ebenen sauber zusammen:
- Website-Kategorien
- einfache technische Strukturmerkmale
Im nächsten Schritt geht es deshalb um die Frage:
Was kann man daraus als WordPress-Betreiber praktisch mitnehmen — ohne aus den Daten vorschnell falsche Schlussfolgerungen zu ziehen?
Was Du als WordPress-Betreiber daraus praktisch mitnehmen kannst
Die Studie liefert keine Patentrezepte. Aber sie zeigt ziemlich gut, wo sich ein genauer Blick besonders lohnt.
Und genau das ist fĂĽr mich der eigentliche Nutzwert dieses Artikels:
Du bekommst hier keine pauschale Aussage wie „WordPress ist langsam“ oder „mit Plugin X wird alles gut“. Stattdessen siehst Du, an welchen Stellen sich im Sample die deutlichsten Unterschiede zeigen — und genau daraus kannst Du für Deine eigene Website eine sinnvolle Reihenfolge ableiten.
Das ist fĂĽr mich die wichtigste praktische Erkenntnis
Wenn ich die Ergebnisse ganz brutal auf einen Alltagssatz herunterbrechen müsste, dann wäre es dieser:
Nicht jede WordPress-Website hat dieselben Voraussetzungen — und nicht jeder technische Hebel ist gleich stark.
Das sieht man schon beim Kategorienvergleich. Ein Magazin, ein Shop, eine B2B-Seite oder ein Vereinsauftritt bringen völlig unterschiedliche Anforderungen mit. Und genau deshalb ist es wenig sinnvoll, jede Website mit derselben Schablone zu bewerten.
Was Du aus der Studie konkret mitnehmen kannst
- Vergleiche Deine Website zuerst mit der passenden Kategorie.
Ein redaktionelles Magazin tickt anders als ein Shop oder eine B2B-Seite. - Schau besonders kritisch auf die Skriptmenge.
Im aktuellen Sample ist das der deutlichste technische Zusatzbefund. - Bilder und iframes sind ebenfalls relevant.
Sie fallen aber klar weniger stark ins Gewicht als die Skriptmenge. - Nutze die Studie als Orientierung, nicht als Urteil.
Die Daten zeigen Muster im Sample — keine Schuldigen.
Die wichtigste Priorisierung fĂĽr die Praxis
Wenn Du an einer Website arbeitest, die bei den Core Web Vitals schwächelt, würde ich nach diesen Daten grob so priorisieren:
| PrĂĽfpunkt | Warum er wichtig ist |
|---|---|
| Skriptmenge | stärkster Zusammenhang mit schwächerem LCP und niedrigerer CWV-Passrate |
| Bildlast | sichtbar relevant, aber schwächer als Skripte |
| Iframes / Einbettungen | ebenfalls auffällig, aber eher ergänzend |
Das heiĂźt nicht, dass Bilder oder iframes unwichtig sind. Es heiĂźt nur:
Wenn Du nicht weiĂźt, wo Du anfangen sollst, dann schau zuerst auf die Skriptlast der Zielseite.
Was diese Studie ausdrĂĽcklich nicht macht
Diese Studie ersetzt keine technische Detailanalyse Deiner konkreten Website. Sie sagt Dir also nicht automatisch:
- welches Plugin raus muss,
- welches Theme schuld ist,
- oder welche einzelne Datei Dein Problem verursacht.
Aber sie hilft Dir sehr wohl dabei, die wahrscheinlichsten Problemzonen zuerst zu prĂĽfen. Und genau das ist im Alltag oft viel wert.
Mini-Checkliste fĂĽr die Praxis
Wenn Du aus diesem Abschnitt nur etwas ganz Konkretes mitnehmen willst, dann diese Reihenfolge:
- Passt meine Website eher zu Magazin, Shop, B2B oder Unternehmensseite?
- Wie skriptlastig ist meine Zielseite?
- Wie viele große Bilder und wie viele Einbettungen sind wirklich nötig?
- Schaue ich nur auf den Score — oder auch auf LCP, INP und CLS einzeln?
- Verwechsle ich gerade Korrelation mit Ursache?
Grenzen der Studie
So spannend die Ergebnisse auch sind: Ganz ohne Einordnung sollte man sie nicht lesen.
Denn das hier ist keine Vollerhebung des kompletten deutschsprachigen WordPress-Kosmos, sondern eine Benchmark-Studie auf Basis eines bereinigten Samples. Genau deshalb finde ich es wichtig, die Grenzen offen zu benennen — nicht, weil die Studie dadurch schwächer wird, sondern weil sie dadurch glaubwürdiger wird.
Die wichtigsten Grenzen auf einen Blick
| Punkt | Was das konkret bedeutet |
|---|---|
| Keine Vollerhebung | Die Studie bildet nicht alle deutschsprachigen WordPress-Websites vollständig ab. |
| CrUX-Verfügbarkeit ist Teil der Stichprobe | Nicht jede Website liefert mobile CrUX-Origin-Daten, und nicht jeder Treffer ist vollständig. |
| Strukturmerkmale sind grobe Indikatoren | script_count, img_count und iframe_count zeigen Muster, ersetzen aber keine Tiefenanalyse. |
| Keine Kausalbeweise | Die Studie zeigt Zusammenhänge im Sample, keine eindeutigen Ursache-Wirkungs-Beziehungen. |
| Kleine Teilgruppen | Kategorien wie Community sind aktuell zu klein fĂĽr belastbare Hauptaussagen. |
Was Du daraus ableiten solltest
FĂĽr mich ist der entscheidende Punkt:
Die Studie zeigt belastbare Muster — aber keine absolute Wahrheit über jede einzelne WordPress-Website.
Das gilt besonders für den Strukturteil. Viele Skripte, viele Bilder oder ein iframe können im Sample mit schwächeren Werten einhergehen. Daraus folgt aber nicht automatisch, dass ein einzelnes Merkmal direkt für eine schlechte Performance verantwortlich ist. Genau deshalb formuliere ich die Ergebnisse bewusst als Beobachtungen im Sample und nicht als harte Kausalbehauptungen.
Warum das trotzdem wertvoll ist
Gerade diese saubere Begrenzung macht die Studie aus meiner Sicht stärker, nicht schwächer.
Denn sie behauptet nicht zu viel. Sie zeigt klar:
- worauf die Aussagen beruhen,
- wo die Datenbasis enger wird,
- und welche Muster sich trotzdem deutlich genug zeigen, um daraus sinnvolle SchlĂĽsse zu ziehen.
Das ist am Ende vertrauenswürdiger als ein Artikel, der so tut, als könne er mit ein paar Diagrammen gleich das gesamte WordPress-Web endgültig erklären.
Fazit
Wenn man die Ergebnisse auf das Wesentliche herunterbricht, dann bleibt für mich vor allem eins hängen:
WordPress ist im mobilen Feld-Sample weder pauschal langsam noch automatisch gut.
Die Wahrheit liegt — wenig überraschend — dazwischen. Und sie ist deutlich spannender als jedes einfache Vorurteil.
Die drei wichtigsten Punkte aus der Studie
- 65,7 % der vollständig messbaren Websites bestehen im aktuellen Sample alle drei Core Web Vitals.
- Die Website-Kategorie macht einen sichtbaren Unterschied.
- Der deutlichste technische Zusatzbefund zeigt sich bei der Skriptmenge.
Gerade diese Kombination macht die Studie aus meiner Sicht interessant. Sie bleibt nicht bei einer allgemeinen Passrate stehen, sondern verbindet drei Ebenen:
- eine transparente CrUX-Basis
- einen Vergleich der Website-Kategorien
- und einfache Strukturmerkmale mit praktischem Erkenntniswert
Mein eigentliches Kernfazit
Wenn Du aus dem ganzen Artikel nur eine Aussage mitnehmen willst, dann diese:
💡 Der stärkste technische Warnhinweis im aktuellen Sample liegt bei der Skriptmenge.
Nicht, weil viele Skripte automatisch alles ruinieren.
Sondern weil genau dort der klarste Abstand zwischen stärkeren und schwächeren Seiten sichtbar wird — sowohl beim Median-LCP als auch bei der CWV-Bestandensquote.
Was ich an Deiner Stelle aus dem Artikel mitnehmen wĂĽrde
- Lass Dich nicht von pauschalen WordPress-Urteilen verrĂĽckt machen.
- Ordne Deine Website zuerst richtig ein.
- Schau dann auf die einzelnen Metriken statt nur auf einen Score.
- Und wenn Du nach dem ersten groĂźen Hebel suchst, dann prĂĽfe die Skriptlast Deiner Zielseite.
Denn genau dort zeigt sich im aktuellen Sample der deutlichste Unterschied.
Schlussgedanke
Die Studie soll keine endgĂĽltige Wahrheit ĂĽber WordPress liefern.
Aber sie zeigt ziemlich gut, wo sich die großen Unterschiede im Sample abzeichnen — und genau das macht sie nützlich.
Für mich ist das die eigentliche Stärke dieses Benchmark-Artikels:
Er sagt nicht nur, wie viele Websites bestehen. Er zeigt auch, wo die Unterschiede liegen und wo Du in der Praxis zuerst hinschauen solltest.
Datensatz zum Download
Wenn Du Dir die Auswertung genauer ansehen möchtest: Den bereinigten Datensatz zur Studie stelle ich als Download bereit. Er enthält die für den Benchmark relevanten Kategorien, CrUX-Werte und Strukturmerkmale in einer öffentlichen Version.
FAQ zur WordPress-Benchmark-Studie
Wie viele WordPress-Websites bestehen in der Studie alle drei Core Web Vitals?
Im vollständigen mobilen CrUX-Sample bestehen 366 von 557 Websites alle drei Core Web Vitals. Das entspricht einer CWV-Bestandensquote von 65,7 %.
Welche Website-Kategorie schneidet im Sample am besten ab?
Unter den regulär auswertbaren Kategorien liegt Blogs / Magazine / News mit 69,3 % CWV-Bestandensquote vorn.
Welche Kategorie schneidet am schwächsten ab?
Im aktuellen Sample liegt B2B mit 56,2 % am Ende der regulär auswertbaren Kategorien.
Beweist die Studie, dass viele Skripte die Ursache fĂĽr schlechte Werte sind?
Nein. Die Studie zeigt Zusammenhänge im Sample, aber keine harten Ursache-Wirkungs-Beziehungen. Viele Skripte gehen hier mit schwächeren Werten einher, sind aber nicht automatisch allein die Ursache.

