ContentAnalyzer
Der ContentAnalyzer analysiert den Inhalt und den Code einer Webseite. Dies umfasst den
Doctype, die Sprache und die
Kodierung des Inhalts bzw. des Dokuments wie es der Browser
oder der Robot erkennen würde. Bei der Sprache fischt er ebenfalls noch gekennzeichnete
fremdsprachige Abschnitte aus dem Content heraus. Weiter wird das
Verhältnis zwischen Inhalt und Quelltext errechnet und der
HTML-Code auf veraltete (deprecated) Tags, Style-Elemente und
Spaghetti-Code untersucht. Dann analysiert er auch noch die
Überschriften-Struktur und sucht
Schlüsselwörter aus den Texten heraus als einzelne Wörter,
als Zweier-Kombinationen und als Drei-Wort-Keywords. Des Weiteren werden Einzelheiten
wie das Vorhandensein eines BOM (Byte Order Mark)
oder die Kodierung der Zeilenumbrüche aufgezeigt.
Zuletzt wird noch versucht, E-Mail-Adressen zu erkennen und
herauszufiltern. Wenn solche gefunden werden, sind die E-Mail-Adressen wohl nicht gut
genug vor E-Mail-Harvestern geschützt.
Allgemeine Tipps zur Optimierung
- Entfernen von überflüssigen Whitespaces
- Entfernen von Spaghetti-Code und veralteten Tags
- Ersetzen von Formatierung-Tags durch semantische Elemente und/oder CSS-Formatierung
- Steigern des Verhältnisses Inhalt zu Quellcode
Was ist Spaghetti-Code?
Wenn man bei HTML von Spaghetti-Code spricht, dann meint man damit Tags und Attibute, welche
sich nicht nach dem Prinzip der Trennung von Inhalt und Aussehen ausrichten. Ziel ist es
grundsätzlich, den Inhalt so vom Design zu trennen, damit man theoretisch mit einer Änderung
der ausgelagerten Style-Datei (CSS) das Layout und Design vollständig verändern kann, ohne dass man
den Quelltext des HTML-Dokuments anrührt.
Allerdings gibt es aus den Urzeiten von HTML noch Tags und Attribute, mit welchen man das Aussehen
des Textes "vor Ort" bestimmen kann. Beispiele wären das font-Tag oder das bgcolor-Attribut.
Die meisten dieser Tags und Attribute gelten als veraltet.
Daneben existieren HTML-Tags zur Formatierung, welche (noch) nicht als deprecated gelten, wie das
<b>
oder das <i>
-Tag. Auch bei diesen Elementen handelt es
sich im Grunde um Spaghetti-Code. Es wird empfohlen, diese Tags durch semantische Tags zu ersetzen
und gegebenenfalls mit CSS zu formatieren. Beispielsweise kann man <i>
durch
<em>
ersetzen, welches ein Wort betont, im Gegensatz zum
<i>
, das den Text nur kursiv darstellt.
Ein weiterer Vorteil des Auslagerns von CSS-Code ist die Reduktion des Traffics, da die Grösse des
HTML-Dokuments abnimmt und die CSS-Datei gecached werden kann und somit nur einmal heruntergeladen
werden muss.
Was wird beim Verhältnis Inhalt/Code zum Inhalt gezählt?
- Einfacher Text
- Decodierte HTML-Enities
- Werte der Title-Attribute
- Werte der Alt-Attribute
- Werte der Value-Attribute (nur bei Input-Elementen)
- Mehrfache und überflüssige Whitespaces
- Inhalte der Style- und Script-Elemente
- Werte diverser Attribute
Schlüsselwörter optimieren
- Verwende öfter das Keyword, anstatt Pronomen ("das Wort" statt "es")
- Verwende auch Synonyme
Sonstiges
Mit diesem Tool lassen sich nicht nur HTML-Dateien (Webseiten) untersuchen, sondern auch Text-Dateien wie CSS oder JavaScript-Dokumente.