PHP, MySQL und der Ärger mit UTF-8
erschienen in der Kategorie Webdesign, am 28.03.2012

Immer wieder liest man im Netz von Problemen mit PHP, MySQL und UTF-8. Der Webserver soll Daten aus der MySQL Datenbank lesen und auf der, in UTF-8 codierten, Webseite darstellen. Trotz der Tatsache, dass die Daten auch in der Datenbank im UTF-8 Format gespeichert sind, werden die Umlaute falsch dargestellt.
Tückisch an diesem Problem ist vor allem auch die Tatsache, dass der Fehler auf dem eigenen Rechner (Lokalhost) oft gar nicht auftritt. So kann es vorkommen, dass man in aller Seelenruhe, auf dem lokal gehosteten Webserver, eine Homepage baut, dann irgendwann glaubt fertig zu sein, und die Seite voller Vorfreude auf den Webspace hochlädt. Dachte man bis eben noch endlich fertig zu sein, wird man nun eines Besseren belehrt und mit bösartigen Fragezeichen, statt Umlauten, beworfen.
Des Fehlers Ursprung begründet sich in der Tatsache, dass die meisten deutschen Provider davon ausgehen, dass ihre ebenfalls deutschen Kunden Webseiten bauen, die mit der ISO-8859-1 Codierung arbeiten. Daher haben sie ihre Web- und Datenbankserver so konfiguriert, dass sie mit dieser Codierung optimal klarkommen.
Zur Fehlerbehebung und vor allem zur Fehlervermeidung (für jene, die nicht auf diese Webseite gestoßen sind, weil sie gerade mit dem beschriebenen Problem kämpfen), sei Folgendes empfohlen: Vor dem ersten Zugriff (Query) auf die Datenbank sollte folgende Codezeile ausgeführt werden:
Dies sorgt dafür, dass der Datenbankserver weiß, dass er sowohl bei Datenbankabfragen als auch bei Inserts oder Updates mit UTF-8-codierten Daten arbeiten soll. Der Befehl muss nicht vor jeder Query ausgeführt werden, es reicht, wenn man ihn vor der Ersten ausführt oder am besten direkt, nachdem man die Datenbankverbindung aufgebaut hat.
In vielen Foren wird, statt dieser Lösung, empfohlen mit den PHP-Funktionen utf8_encode und utf8_decode zu arbeiten, dies halte ich aber für einen ziemlich (wartungs-) aufwendigen Workaround, der das Problem auch nicht wirklich bei der Wurzel packt.
Hier noch ein paar allgemeine Tipps für eine saubere UTF-8 Webseiten-Umsetzung
Tschüssikowski, Fragezeichen des Grauens!
Wer seinen eigenen Webserver betreibt, kann sich die oben genannten Punkte (abgesehen vom HTML-Meta-Tag) sparen, indem er die entsprechenden Einstellungen als Standard festlegt.
Apache-Einstellungen: In der Konfigurationsdatei (in der Regel /etc/apache2/http.conf oder /etc/apache2/apache2.conf) des Apache-Webservers fügt man die folgende Zeile hinzu (oder ändert die Codierung, falls die Zeile schon vorhanden ist):
PHP-Einstellungen: In der Datei php.ini (unter /etc/php5/apache2/ zu finden) ändert man die folgenden Parameter, bzw. fügt sie hinzu, falls noch nicht vorhanden:
Falls vor einem Eintrag noch ein Semikolon steht, muss dieses entfernt werden (sonst ist er auskommentiert).
MySQL-Konfiguration: In der der Datei /etc/mysql/my.cnf fügt man folgende Einstellungen ein:
Das nimmt einem auch das Ausführen der oben gezeigten Query ab. Somit muss man sich bei der Implementierung keine Gedanken mehr um die Codierung machen.
Nachdem die Änderungen vorgenommen wurden, müssen die betreffenden Server neu gestartet werden (# /etc/init.d/apache2 restart, # /etc/init.d/mysql restart).

Des Fehlers Ursprung begründet sich in der Tatsache, dass die meisten deutschen Provider davon ausgehen, dass ihre ebenfalls deutschen Kunden Webseiten bauen, die mit der ISO-8859-1 Codierung arbeiten. Daher haben sie ihre Web- und Datenbankserver so konfiguriert, dass sie mit dieser Codierung optimal klarkommen.
Zur Fehlerbehebung und vor allem zur Fehlervermeidung (für jene, die nicht auf diese Webseite gestoßen sind, weil sie gerade mit dem beschriebenen Problem kämpfen), sei Folgendes empfohlen: Vor dem ersten Zugriff (Query) auf die Datenbank sollte folgende Codezeile ausgeführt werden:
mysqli_query($dbcon, "SET NAMES 'utf8'");
Dies sorgt dafür, dass der Datenbankserver weiß, dass er sowohl bei Datenbankabfragen als auch bei Inserts oder Updates mit UTF-8-codierten Daten arbeiten soll. Der Befehl muss nicht vor jeder Query ausgeführt werden, es reicht, wenn man ihn vor der Ersten ausführt oder am besten direkt, nachdem man die Datenbankverbindung aufgebaut hat.
$dbcon = mysqli_connect($dbhost,$dbuser,$dbpass);
mysqli_select_db($dbcon, $dbname);
mysqli_query($dbcon, "SET NAMES 'utf8'");
...
mysqli_query(...);
...
mysqli_close($dbcon);
mysqli_select_db($dbcon, $dbname);
mysqli_query($dbcon, "SET NAMES 'utf8'");
...
mysqli_query(...);
...
mysqli_close($dbcon);
In vielen Foren wird, statt dieser Lösung, empfohlen mit den PHP-Funktionen utf8_encode und utf8_decode zu arbeiten, dies halte ich aber für einen ziemlich (wartungs-) aufwendigen Workaround, der das Problem auch nicht wirklich bei der Wurzel packt.
Hier noch ein paar allgemeine Tipps für eine saubere UTF-8 Webseiten-Umsetzung
- im HTML Head Bereich angeben, dass die Seite UTF-8 kodiert ist:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> - im PHP Header ebenfalls:
header("Content-Type: text/html; charset=utf-8"); - alle PHP Dateien UTF-8 kodiert abspeichern
Tschüssikowski, Fragezeichen des Grauens!
UTF-8 Server-Einstellungen
Update 05.02.2014: Weil diesbezüglich gerade eine Frage per Mail rein kam, hier noch ein paar Infos zur Linux-Server-Konfiguration:Wer seinen eigenen Webserver betreibt, kann sich die oben genannten Punkte (abgesehen vom HTML-Meta-Tag) sparen, indem er die entsprechenden Einstellungen als Standard festlegt.
Apache-Einstellungen: In der Konfigurationsdatei (in der Regel /etc/apache2/http.conf oder /etc/apache2/apache2.conf) des Apache-Webservers fügt man die folgende Zeile hinzu (oder ändert die Codierung, falls die Zeile schon vorhanden ist):
AddDefaultCharset UTF-8
PHP-Einstellungen: In der Datei php.ini (unter /etc/php5/apache2/ zu finden) ändert man die folgenden Parameter, bzw. fügt sie hinzu, falls noch nicht vorhanden:
default_charset = "UTF-8"
[iconv]
iconv.input_encoding = UTF-8
iconv.internal_encoding = UTF-8
iconv.output_encoding = UTF-8
[exif]
exif.encode_unicode = UTF-8
[mssql]
mssql.charset = "UTF-8"
[iconv]
iconv.input_encoding = UTF-8
iconv.internal_encoding = UTF-8
iconv.output_encoding = UTF-8
[exif]
exif.encode_unicode = UTF-8
[mssql]
mssql.charset = "UTF-8"
Falls vor einem Eintrag noch ein Semikolon steht, muss dieses entfernt werden (sonst ist er auskommentiert).
MySQL-Konfiguration: In der der Datei /etc/mysql/my.cnf fügt man folgende Einstellungen ein:
[client]
default-character-set=utf8
[mysql]
default-character-set=utf8
[mysqld]
collation-server = utf8_general_ci
init-connect='SET NAMES utf8'
character-set-server = utf8
default-character-set=utf8
[mysql]
default-character-set=utf8
[mysqld]
collation-server = utf8_general_ci
init-connect='SET NAMES utf8'
character-set-server = utf8
Das nimmt einem auch das Ausführen der oben gezeigten Query ab. Somit muss man sich bei der Implementierung keine Gedanken mehr um die Codierung machen.
Nachdem die Änderungen vorgenommen wurden, müssen die betreffenden Server neu gestartet werden (# /etc/init.d/apache2 restart, # /etc/init.d/mysql restart).
Geschnatter
60 Kommentare, selbst mitschnattern
Benedikt, am 16.09.2015 um 18:10 Uhr
Leider klappt dabei gar nichts. Nach den angebenen Einträgen funktionieren die Abfragen erst recht nicht und die fehlenden Umlaute bleiben. Ubuntu 14.04.
Antwort: Ich denke mal dann hakt es bei dir noch wo anders. Du kannst mir gern eine E-Mail mit deinem Quellcode schicken, vielleicht finden wir ja den Fehler ...
Big Bene, am 14.10.2015 um 12:54 Uhr
Super!
Bin (noch) in mysql, daher:
mysql_query("SET NAMES 'utf8'");
Hat sofort geholfen!
Bin (noch) in mysql, daher:
mysql_query("SET NAMES 'utf8'");
Hat sofort geholfen!
Annika, am 26.10.2015 um 17:49 Uhr
Vielen Dank für diesen hilfreichen Beitrag, das war die engültige Lösung für mein Problem!
Auch für Personen, welche noch nie Server-Einstellungen verändert haben gut nachzuvollziehen und anzuwenden.
Auch für Personen, welche noch nie Server-Einstellungen verändert haben gut nachzuvollziehen und anzuwenden.
Big Bene, am 30.10.2015 um 09:26 Uhr
@Benedikt
Schade - bei mir hat diese Anleitung mein Problem nach langem Suchen endlich gelöst.
Das Bene in "Big Bene" steht übrigens auch für Benedikt! ;-)
Schade - bei mir hat diese Anleitung mein Problem nach langem Suchen endlich gelöst.
Das Bene in "Big Bene" steht übrigens auch für Benedikt! ;-)
stoppel, am 24.11.2015 um 00:40 Uhr
DANKE !
Bin Linux-Nutzer.
An sich funktionierte mein lampp problemlos.
Heute wurden dt. Wörter exportiert und importiert, das war soweit o.k., dann aber die Darstellung im lokalen Browser die bekannten Hyrogliephen, die dann wiederrum während der Verarbeitung in den Folgetabellen gespeichert wurden.
Ein Chaos auf dem Bildschirm, ebenso in den Datentabellen ;-)
Zufällig die Seite gefunden.
Abschnitt
UTF-8 Server-Einstellungen
durchgelesen.
lampp gestopt.
Die beschriebene Änderungen durchgezogen.
Apache- und PHP-Einstellungen eingefügt.
MySQL-Konfiguration war leer, Zeilen eingefügt.
Dann die grosse Spannung ;-O
Ja, lampp funktioniert jetzt richtig.
Darstellung im Browser mit dt. Zeichensatz, Datenspeicherung in der MySQL-Datentabellen auch richtig.
Die aufgeführten Dateien waren nicht in dem Verzeichnis wie beschrieben, da war etwas Suchen angesagt, dürfte aber Alltag sein.
Ich bedanke mich gerne für den Lösungsvorschlag.
stoppel
Bin Linux-Nutzer.
An sich funktionierte mein lampp problemlos.
Heute wurden dt. Wörter exportiert und importiert, das war soweit o.k., dann aber die Darstellung im lokalen Browser die bekannten Hyrogliephen, die dann wiederrum während der Verarbeitung in den Folgetabellen gespeichert wurden.
Ein Chaos auf dem Bildschirm, ebenso in den Datentabellen ;-)
Zufällig die Seite gefunden.
Abschnitt
UTF-8 Server-Einstellungen
durchgelesen.
lampp gestopt.
Die beschriebene Änderungen durchgezogen.
Apache- und PHP-Einstellungen eingefügt.
MySQL-Konfiguration war leer, Zeilen eingefügt.
Dann die grosse Spannung ;-O
Ja, lampp funktioniert jetzt richtig.
Darstellung im Browser mit dt. Zeichensatz, Datenspeicherung in der MySQL-Datentabellen auch richtig.
Die aufgeführten Dateien waren nicht in dem Verzeichnis wie beschrieben, da war etwas Suchen angesagt, dürfte aber Alltag sein.
Ich bedanke mich gerne für den Lösungsvorschlag.
stoppel
Anonym, am 30.12.2015 um 23:28 Uhr
D A N K E ! ! !
m y s q l i _ q u e r y ( $ c o n n e c t , " S E T N A M E S ' u t f 8 ' " ) ;
Seit einer Woche suche ich eine Lösung. Habe bereits an 100.000 Stellen die Umlaute in den festen Script-texten maskiert auf UTF8, aber die MYSQL-Texte kommen jetzt mit diesem SET NAMES plötzlich auch alle richtig ....
EINFACH TOLL . DANKE.....
m y s q l i _ q u e r y ( $ c o n n e c t , " S E T N A M E S ' u t f 8 ' " ) ;
Seit einer Woche suche ich eine Lösung. Habe bereits an 100.000 Stellen die Umlaute in den festen Script-texten maskiert auf UTF8, aber die MYSQL-Texte kommen jetzt mit diesem SET NAMES plötzlich auch alle richtig ....
EINFACH TOLL . DANKE.....
WarVerzweifelt, am 21.03.2016 um 10:35 Uhr
Endlich nach Jahren die Lösung. Super. Klasse.
Es gelten die Regelungen der Datenschutzerklärung.