Gefällt dir dieser Artikel?

PHP, MySQL und der Ärger mit UTF-8

erschienen in der Kategorie Webdesign, am 28.03.2012
Schnatterente
Immer wieder liest man im Netz von Problemen mit PHP, MySQL und UTF-8. Der Webserver soll Daten aus der MySQL Datenbank lesen und auf der, in UTF-8 codierten, Webseite darstellen. Trotz der Tatsache, dass die Daten auch in der Datenbank im UTF-8 Format gespeichert sind, werden die Umlaute falsch dargestellt.

Das Fragezeichen des Grauens
Tückisch an diesem Problem ist vor allem auch die Tatsache, dass der Fehler auf dem eigenen Rechner (Lokalhost) oft gar nicht auftritt. So kann es vorkommen, dass man in aller Seelenruhe, auf dem lokal gehosteten Webserver, eine Homepage baut, dann irgendwann glaubt fertig zu sein, und die Seite voller Vorfreude auf den Webspace hochlädt. Dachte man bis eben noch endlich fertig zu sein, wird man nun eines Besseren belehrt und mit bösartigen Fragezeichen, statt Umlauten, beworfen.

Des Fehlers Ursprung begründet sich in der Tatsache, dass die meisten deutschen Provider davon ausgehen, dass ihre ebenfalls deutschen Kunden Webseiten bauen, die mit der ISO-8859-1 Codierung arbeiten. Daher haben sie ihre Web- und Datenbankserver so konfiguriert, dass sie mit dieser Codierung optimal klarkommen.

Zur Fehlerbehebung und vor allem zur Fehlervermeidung (für jene, die nicht auf diese Webseite gestoßen sind, weil sie gerade mit dem beschriebenen Problem kämpfen), sei Folgendes empfohlen: Vor dem ersten Zugriff (Query) auf die Datenbank sollte folgende Codezeile ausgeführt werden:
mysqli_query($dbcon, "SET NAMES 'utf8'");

Dies sorgt dafür, dass der Datenbankserver weiß, dass er sowohl bei Datenbankabfragen als auch bei Inserts oder Updates mit UTF-8-codierten Daten arbeiten soll. Der Befehl muss nicht vor jeder Query ausgeführt werden, es reicht, wenn man ihn vor der Ersten ausführt oder am besten direkt, nachdem man die Datenbankverbindung aufgebaut hat.
$dbcon = mysqli_connect($dbhost,$dbuser,$dbpass);
mysqli_select_db($dbcon, $dbname);
mysqli_query($dbcon, "SET NAMES 'utf8'");
...
mysqli_query(...);
...
mysqli_close($dbcon);

In vielen Foren wird, statt dieser Lösung, empfohlen mit den PHP-Funktionen utf8_encode und utf8_decode zu arbeiten, dies halte ich aber für einen ziemlich (wartungs-) aufwendigen Workaround, der das Problem auch nicht wirklich bei der Wurzel packt.

Hier noch ein paar allgemeine Tipps für eine saubere UTF-8 Webseiten-Umsetzung
  • im HTML Head Bereich angeben, dass die Seite UTF-8 kodiert ist:
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
  • im PHP Header ebenfalls:
    header("Content-Type: text/html; charset=utf-8");
  • alle PHP Dateien UTF-8 kodiert abspeichern

Tschüssikowski, Fragezeichen des Grauens!

UTF-8 Server-Einstellungen

Update 05.02.2014: Weil diesbezüglich gerade eine Frage per Mail rein kam, hier noch ein paar Infos zur Linux-Server-Konfiguration:

Wer seinen eigenen Webserver betreibt, kann sich die oben genannten Punkte (abgesehen vom HTML-Meta-Tag) sparen, indem er die entsprechenden Einstellungen als Standard festlegt.

Apache-Einstellungen: In der Konfigurationsdatei (in der Regel /etc/apache2/http.conf oder /etc/apache2/apache2.conf) des Apache-Webservers fügt man die folgende Zeile hinzu (oder ändert die Codierung, falls die Zeile schon vorhanden ist):
AddDefaultCharset UTF-8


PHP-Einstellungen: In der Datei php.ini (unter /etc/php5/apache2/ zu finden) ändert man die folgenden Parameter, bzw. fügt sie hinzu, falls noch nicht vorhanden:
default_charset = "UTF-8"
[iconv]
iconv.input_encoding = UTF-8
iconv.internal_encoding = UTF-8
iconv.output_encoding = UTF-8

[exif]
exif.encode_unicode = UTF-8

[mssql]
mssql.charset = "UTF-8"

Falls vor einem Eintrag noch ein Semikolon steht, muss dieses entfernt werden (sonst ist er auskommentiert).

MySQL-Konfiguration: In der der Datei /etc/mysql/my.cnf fügt man folgende Einstellungen ein:
[client]
default-character-set=utf8

[mysql]
default-character-set=utf8

[mysqld]
collation-server = utf8_general_ci
init-connect='SET NAMES utf8'
character-set-server = utf8

Das nimmt einem auch das Ausführen der oben gezeigten Query ab. Somit muss man sich bei der Implementierung keine Gedanken mehr um die Codierung machen.

Nachdem die Änderungen vorgenommen wurden, müssen die betreffenden Server neu gestartet werden (# /etc/init.d/apache2 restart, # /etc/init.d/mysql restart).

Geschnatter

49 Kommentare, selbst mitschnattern << < Seite 3/7 > >>
Anonym, am 06.02.2014 um 19:39 Uhr
Das mit dem

init-connect='SET NAMES utf8'

ist echt ein toller Trick. Es erspart einem das Bearbeiten hunderter PHP-Dateien, wenn das Kind schon in den Brunnen gefallen ist.
Tobias E. Klein, am 08.02.2014 um 14:48 Uhr
Tausend Dank für diesen Artikel. Ich habe Stunden nach der Problemlösung gesucht.
Janox, am 10.02.2014 um 21:35 Uhr
Klappt nicht. Trotzdem danke für den Vorschlag. Seit Jahren sitze ich an diesem Problem und nehme dann doch immer wieder die HTML-Entities. Ich werde mal den Tipp mit dem USB-Kabel und dem Stein ausprobieren.
Hippo, am 07.05.2014 um 14:42 Uhr
Ja das ist genau der Befehl der mir gefehlt hat. Wie oft musste ich mich schon ärgern wegen utf8 oder eben nicht....
Alex, am 21.06.2014 um 16:17 Uhr
Danke!! Das war die erste wirklich hilfreiche Seite, mit einer schönen Erklärung wo ich das Set Names reinschreiben muss.

lg alex
Anonym, am 18.07.2014 um 12:15 Uhr
Vielen Dank!!!
Genau das was ich schon seit langem gesucht habe.
Hat wunderbar auf Anhieb geklappt! :)
Ewald, am 14.08.2014 um 10:25 Uhr
Super, hat mit wenig Aufwand viel Arbeit erspart