ContentAnalyzer
Der ContentAnalyzer analysiert den Inhalt und den Code einer Webseite. Dies umfasst den 
Doctype, die Sprache und die 
Kodierung des Inhalts bzw. des Dokuments wie es der Browser 
oder der Robot erkennen würde. Bei der Sprache fischt er ebenfalls noch gekennzeichnete 
fremdsprachige Abschnitte aus dem Content heraus. Weiter wird das 
Verhältnis zwischen Inhalt und Quelltext errechnet und der 
HTML-Code auf veraltete (deprecated) Tags, Style-Elemente und 
Spaghetti-Code untersucht. Dann analysiert er auch noch die 
Überschriften-Struktur und sucht 
Schlüsselwörter aus den Texten heraus als einzelne Wörter, 
als Zweier-Kombinationen und als Drei-Wort-Keywords. Des Weiteren werden Einzelheiten 
wie das Vorhandensein eines BOM (Byte Order Mark) 
oder die Kodierung der Zeilenumbrüche aufgezeigt.
Zuletzt wird noch versucht, E-Mail-Adressen zu erkennen und 
herauszufiltern. Wenn solche gefunden werden, sind die E-Mail-Adressen wohl nicht gut 
genug vor E-Mail-Harvestern geschützt.
Allgemeine Tipps zur Optimierung
- Entfernen von überflüssigen Whitespaces
- Entfernen von Spaghetti-Code und veralteten Tags
- Ersetzen von Formatierung-Tags durch semantische Elemente und/oder CSS-Formatierung
- Steigern des Verhältnisses Inhalt zu Quellcode
Was ist Spaghetti-Code?
Wenn man bei HTML von Spaghetti-Code spricht, dann meint man damit Tags und Attibute, welche 
sich nicht nach dem Prinzip der Trennung von Inhalt und Aussehen ausrichten. Ziel ist es 
grundsätzlich, den Inhalt so vom Design zu trennen, damit man theoretisch mit einer Änderung 
der ausgelagerten Style-Datei (CSS) das Layout und Design vollständig verändern kann, ohne dass man 
den Quelltext des HTML-Dokuments anrührt.
Allerdings gibt es aus den Urzeiten von HTML noch Tags und Attribute, mit welchen man das Aussehen 
des Textes "vor Ort" bestimmen kann. Beispiele wären das font-Tag oder das bgcolor-Attribut. 
Die meisten dieser Tags und Attribute gelten als veraltet.
Daneben existieren HTML-Tags zur Formatierung, welche (noch) nicht als deprecated gelten, wie das 
<b> oder das <i>-Tag. Auch bei diesen Elementen handelt es 
sich im Grunde um Spaghetti-Code. Es wird empfohlen, diese Tags durch semantische Tags zu ersetzen 
und gegebenenfalls mit CSS zu formatieren. Beispielsweise kann man <i> durch 
<em> ersetzen, welches ein Wort betont, im Gegensatz zum 
<i>, das den Text nur kursiv darstellt.
Ein weiterer Vorteil des Auslagerns von CSS-Code ist die Reduktion des Traffics, da die Grösse des 
HTML-Dokuments abnimmt und die CSS-Datei gecached werden kann und somit nur einmal heruntergeladen 
werden muss.
Was wird beim Verhältnis Inhalt/Code zum Inhalt gezählt?
- Einfacher Text
- Decodierte HTML-Enities
- Werte der Title-Attribute
- Werte der Alt-Attribute
- Werte der Value-Attribute (nur bei Input-Elementen)
- Mehrfache und überflüssige Whitespaces
- Inhalte der Style- und Script-Elemente
- Werte diverser Attribute
Schlüsselwörter optimieren
- Verwende öfter das Keyword, anstatt Pronomen ("das Wort" statt "es")
- Verwende auch Synonyme
Sonstiges
Mit diesem Tool lassen sich nicht nur HTML-Dateien (Webseiten) untersuchen, sondern auch Text-Dateien wie CSS oder JavaScript-Dokumente.
