ContentAnalyzer

Der ContentAnalyzer analysiert den Inhalt und den Code einer Webseite. Dies umfasst den Doctype, die Sprache und die Kodierung des Inhalts bzw. des Dokuments wie es der Browser oder der Robot erkennen würde. Bei der Sprache fischt er ebenfalls noch gekennzeichnete fremdsprachige Abschnitte aus dem Content heraus. Weiter wird das Verhältnis zwischen Inhalt und Quelltext errechnet und der HTML-Code auf veraltete (deprecated) Tags, Style-Elemente und Spaghetti-Code untersucht. Dann analysiert er auch noch die Überschriften-Struktur und sucht Schlüsselwörter aus den Texten heraus als einzelne Wörter, als Zweier-Kombinationen und als Drei-Wort-Keywords. Des Weiteren werden Einzelheiten wie das Vorhandensein eines BOM (Byte Order Mark) oder die Kodierung der Zeilenumbrüche aufgezeigt.
Zuletzt wird noch versucht, E-Mail-Adressen zu erkennen und herauszufiltern. Wenn solche gefunden werden, sind die E-Mail-Adressen wohl nicht gut genug vor E-Mail-Harvestern geschützt.

Gib hier eine beliebige URL ein: Bsp. http://www.w3c.de/

  Laden...

Allgemeine Tipps zur Optimierung

  • Entfernen von überflüssigen Whitespaces
  • Entfernen von Spaghetti-Code und veralteten Tags
  • Ersetzen von Formatierung-Tags durch semantische Elemente und/oder CSS-Formatierung
  • Steigern des Verhältnisses Inhalt zu Quellcode

Was ist Spaghetti-Code?

Wenn man bei HTML von Spaghetti-Code spricht, dann meint man damit Tags und Attibute, welche sich nicht nach dem Prinzip der Trennung von Inhalt und Aussehen ausrichten. Ziel ist es grundsätzlich, den Inhalt so vom Design zu trennen, damit man theoretisch mit einer Änderung der ausgelagerten Style-Datei (CSS) das Layout und Design vollständig verändern kann, ohne dass man den Quelltext des HTML-Dokuments anrührt.
Allerdings gibt es aus den Urzeiten von HTML noch Tags und Attribute, mit welchen man das Aussehen des Textes "vor Ort" bestimmen kann. Beispiele wären das font-Tag oder das bgcolor-Attribut. Die meisten dieser Tags und Attribute gelten als veraltet.
Daneben existieren HTML-Tags zur Formatierung, welche (noch) nicht als deprecated gelten, wie das <b> oder das <i>-Tag. Auch bei diesen Elementen handelt es sich im Grunde um Spaghetti-Code. Es wird empfohlen, diese Tags durch semantische Tags zu ersetzen und gegebenenfalls mit CSS zu formatieren. Beispielsweise kann man <i> durch <em> ersetzen, welches ein Wort betont, im Gegensatz zum <i>, das den Text nur kursiv darstellt.
Ein weiterer Vorteil des Auslagerns von CSS-Code ist die Reduktion des Traffics, da die Grösse des HTML-Dokuments abnimmt und die CSS-Datei gecached werden kann und somit nur einmal heruntergeladen werden muss.

Was wird beim Verhältnis Inhalt/Code zum Inhalt gezählt?

  • Einfacher Text
  • Decodierte HTML-Enities
  • Werte der Title-Attribute
  • Werte der Alt-Attribute
  • Werte der Value-Attribute (nur bei Input-Elementen)
Nicht beachtet werden:
  • Mehrfache und überflüssige Whitespaces
  • Inhalte der Style- und Script-Elemente
  • Werte diverser Attribute

Schlüsselwörter optimieren

  • Verwende öfter das Keyword, anstatt Pronomen ("das Wort" statt "es")
  • Verwende auch Synonyme

Sonstiges

Mit diesem Tool lassen sich nicht nur HTML-Dateien (Webseiten) untersuchen, sondern auch Text-Dateien wie CSS oder JavaScript-Dokumente.