Jak zdekodować sekwencje unikowe Unicode, takie jak „\ u00ed”, do odpowiednich znaków zakodowanych w UTF-8?

Question 1

Czy w PHP jest funkcja, która może dekodować sekwencje unikowe Unicode, takie jak „ \u00ed” do í”i wszystkie inne podobne wystąpienia?

Znalazłem tutaj podobne pytanie , ale wydaje się, że nie działa.

Question 2

Spróbuj tego:

$str = preg_replace_callback('/\\\\u([0-9a-fA-F]{4})/', function ($match) {
    return mb_convert_encoding(pack('H*', $match[1]), 'UTF-8', 'UCS-2BE');
}, $str);

W przypadku, gdy jest to styl C / C ++ / Java / Json oparty na UTF-16:

$str = preg_replace_callback('/\\\\u([0-9a-fA-F]{4})/', function ($match) {
    return mb_convert_encoding(pack('H*', $match[1]), 'UTF-8', 'UTF-16BE');
}, $str);

Question 3

print_r(json_decode('{"t":"\u00ed"}')); // -> stdClass Object ( [t] => í )

Question 4

PHP 7+

Począwszy od PHP 7, możesz w tym celu użyć składni ucieczki punktu kodowego Unicode .

echo "\u{00ed}";wyjścia í.

Question 5

$str = '\u0063\u0061\u0074'.'\ud83d\ude38';
$str2 = '\u0063\u0061\u0074'.'\ud83d';

// U+1F638
var_dump(
    "cat\xF0\x9F\x98\xB8" === escape_sequence_decode($str),
    "cat\xEF\xBF\xBD" === escape_sequence_decode($str2)
);

function escape_sequence_decode($str) {

    // [U+D800 - U+DBFF][U+DC00 - U+DFFF]|[U+0000 - U+FFFF]
    $regex = '/\\\u([dD][89abAB][\da-fA-F]{2})\\\u([dD][c-fC-F][\da-fA-F]{2})
              |\\\u([\da-fA-F]{4})/sx';

    return preg_replace_callback($regex, function($matches) {

        if (isset($matches[3])) {
            $cp = hexdec($matches[3]);
        } else {
            $lead = hexdec($matches[1]);
            $trail = hexdec($matches[2]);

            // http://unicode.org/faq/utf_bom.html#utf16-4
            $cp = ($lead << 10) + $trail + 0x10000 - (0xD800 << 10) - 0xDC00;
        }

        // https://tools.ietf.org/html/rfc3629#section-3
        // Characters between U+D800 and U+DFFF are not allowed in UTF-8
        if ($cp > 0xD7FF && 0xE000 > $cp) {
            $cp = 0xFFFD;
        }

        // https://github.com/php/php-src/blob/php-5.6.4/ext/standard/html.c#L471
        // php_utf32_utf8(unsigned char *buf, unsigned k)

        if ($cp < 0x80) {
            return chr($cp);
        } else if ($cp < 0xA0) {
            return chr(0xC0 | $cp >> 6).chr(0x80 | $cp & 0x3F);
        }

        return html_entity_decode('&#'.$cp.';');
    }, $str);
}

Question 6

Jest to młot kowalski zastępujący surowy kod UNICODE kodem HTML. Nie widziałem innego miejsca na umieszczenie tego rozwiązania, ale zakładam, że inni mieli ten problem.

Zastosuj tę funkcję str_replace do RAW JSON , zanim zrobisz cokolwiek innego.

function unicode2html($str){
    $i=65535;
    while($i>0){
        $hex=dechex($i);
        $str=str_replace("\u$hex","&#$i;",$str);
        $i--;
     }
     return $str;
}

To nie potrwa tak długo, jak myślisz, a to zastąpi DOWOLNY Unicode na HTML.

Oczywiście można to zmniejszyć, jeśli znasz typy Unicode, które są zwracane w formacie JSON.

Na przykład mój kod otrzymywał wiele strzałek i unikodu dingbat. Są to między 8448 a 11263. Tak więc mój kod produkcyjny wygląda następująco:

$i=11263;
while($i>08448){
    ...etc...

Możesz wyszukać bloki Unicode według typu tutaj: http://unicode-table.com/en/ Jeśli wiesz, że tłumaczysz arabski, telegu lub cokolwiek innego, możesz po prostu zastąpić te kody, a nie wszystkie 65 000.

Możesz zastosować ten sam młot do prostego kodowania:

 $str=str_replace("\u$hex",chr($i),$str);

Question 7

Jest też rozwiązanie:
http://www.welefen.com/php-unicode-to-utf8.html

function entity2utf8onechar($unicode_c){
    $unicode_c_val = intval($unicode_c);
    $f=0x80; // 10000000
    $str = "";
    // U-00000000 - U-0000007F:   0xxxxxxx
    if($unicode_c_val <= 0x7F){         $str = chr($unicode_c_val);     }     //U-00000080 - U-000007FF:  110xxxxx 10xxxxxx
    else if($unicode_c_val >= 0x80 && $unicode_c_val <= 0x7FF){         $h=0xC0; // 11000000
        $c1 = $unicode_c_val >> 6 | $h;
        $c2 = ($unicode_c_val & 0x3F) | $f;
        $str = chr($c1).chr($c2);
    } else if($unicode_c_val >= 0x800 && $unicode_c_val <= 0xFFFF){         $h=0xE0; // 11100000
        $c1 = $unicode_c_val >> 12 | $h;
        $c2 = (($unicode_c_val & 0xFC0) >> 6) | $f;
        $c3 = ($unicode_c_val & 0x3F) | $f;
        $str=chr($c1).chr($c2).chr($c3);
    }
    //U-00010000 - U-001FFFFF:  11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
    else if($unicode_c_val >= 0x10000 && $unicode_c_val <= 0x1FFFFF){         $h=0xF0; // 11110000
        $c1 = $unicode_c_val >> 18 | $h;
        $c2 = (($unicode_c_val & 0x3F000) >>12) | $f;
        $c3 = (($unicode_c_val & 0xFC0) >>6) | $f;
        $c4 = ($unicode_c_val & 0x3F) | $f;
        $str = chr($c1).chr($c2).chr($c3).chr($c4);
    }
    //U-00200000 - U-03FFFFFF:  111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
    else if($unicode_c_val >= 0x200000 && $unicode_c_val <= 0x3FFFFFF){         $h=0xF8; // 11111000
        $c1 = $unicode_c_val >> 24 | $h;
        $c2 = (($unicode_c_val & 0xFC0000)>>18) | $f;
        $c3 = (($unicode_c_val & 0x3F000) >>12) | $f;
        $c4 = (($unicode_c_val & 0xFC0) >>6) | $f;
        $c5 = ($unicode_c_val & 0x3F) | $f;
        $str = chr($c1).chr($c2).chr($c3).chr($c4).chr($c5);
    }
    //U-04000000 - U-7FFFFFFF:  1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
    else if($unicode_c_val >= 0x4000000 && $unicode_c_val <= 0x7FFFFFFF){         $h=0xFC; // 11111100
        $c1 = $unicode_c_val >> 30 | $h;
        $c2 = (($unicode_c_val & 0x3F000000)>>24) | $f;
        $c3 = (($unicode_c_val & 0xFC0000)>>18) | $f;
        $c4 = (($unicode_c_val & 0x3F000) >>12) | $f;
        $c5 = (($unicode_c_val & 0xFC0) >>6) | $f;
        $c6 = ($unicode_c_val & 0x3F) | $f;
        $str = chr($c1).chr($c2).chr($c3).chr($c4).chr($c5).chr($c6);
    }
    return $str;
}
function entities2utf8($unicode_c){
    $unicode_c = preg_replace("/\&\#([\da-f]{5})\;/es", "entity2utf8onechar('\\1')", $unicode_c);
    return $unicode_c;
}

Question 8

popraw wartości json, dodaj \ przed u {xxx} do wszystkich + ""

  $item = preg_replace_callback('/"(.+?)":"(u.+?)",/', function ($matches) {
        $matches[2] = preg_replace('/(u)/', '\u', $matches[2]);
            $matches[2] = preg_replace('/(")/', '&quot;', $matches[2]); 
            $matches[2] = json_decode('"' . $matches[2] . '"'); 
            return '"' . $matches[1] . '":"' . $matches[2] . '",';
        }, $item);

Answer 1

97

Czy w PHP jest funkcja, która może dekodować sekwencje unikowe Unicode, takie jak „ \u00ed” do í”i wszystkie inne podobne wystąpienia?

Znalazłem tutaj podobne pytanie , ale wydaje się, że nie działa.

php unicode utf-8 escaping decoding Docstero
źródło

Answer 2

169

Spróbuj tego:

$str = preg_replace_callback('/\\\\u([0-9a-fA-F]{4})/', function ($match) {
    return mb_convert_encoding(pack('H*', $match[1]), 'UTF-8', 'UCS-2BE');
}, $str);

W przypadku, gdy jest to styl C / C ++ / Java / Json oparty na UTF-16:

$str = preg_replace_callback('/\\\\u([0-9a-fA-F]{4})/', function ($match) {
    return mb_convert_encoding(pack('H*', $match[1]), 'UTF-8', 'UTF-16BE');
}, $str);

Gumbo
źródło

1

Gdzie mam wpisać „\ u00ed”?

Docstero

2

@Docstero: Wyrażenie regularne dopasuje dowolną sekwencję, \upo której następują cztery cyfry szesnastkowe.

Gumbo

9

Ta funkcja nie obsługuje dodatkowych znaków, ponieważ nie można ich przedstawić w UCS-2.

Artefacto

3

@gumbo Jak wywołać lub użyć tej funkcji?

Demodave

2

Znalazłem drogę tutaj, tak jak w moim wyjściu, ale patrzyłem na dane wyjściowe za pomocą json_encode () i, co zabawne, domyślny json_encode () usunie dane wyjściowe, więc użyj json_encode ($ theDict, JSON_PRETTY_PRINT | JSON_UNESCAPED_UNICODE);

Tom Andersen

Answer 3

1

Gdzie mam wpisać „\ u00ed”?

Docstero

Answer 4

2

@Docstero: Wyrażenie regularne dopasuje dowolną sekwencję, \upo której następują cztery cyfry szesnastkowe.

Gumbo

Answer 5

9

Ta funkcja nie obsługuje dodatkowych znaków, ponieważ nie można ich przedstawić w UCS-2.

Artefacto

Answer 6

3

@gumbo Jak wywołać lub użyć tej funkcji?

Demodave

Answer 7

2

Znalazłem drogę tutaj, tak jak w moim wyjściu, ale patrzyłem na dane wyjściowe za pomocą json_encode () i, co zabawne, domyślny json_encode () usunie dane wyjściowe, więc użyj json_encode ($ theDict, JSON_PRETTY_PRINT | JSON_UNESCAPED_UNICODE);

Tom Andersen

Answer 8

71

print_r(json_decode('{"t":"\u00ed"}')); // -> stdClass Object ( [t] => í )

2BJ
źródło

44

Nie potrzebuje nawet opakowania obiektu:json_decode('"' . $text . '"')

deceze

3

Dzięki. Wydaje się, że to STANDARDOWY SPOSÓB , a nie zaakceptowana odpowiedź.

T.Todua

Co ciekawe, działa to również w przypadku złożonych obiektów, takich jak buźki ... json_decode('{"t":"\uD83D\uDE0A"}')jest is

DynamicDan

2

@deceze powinieneś uwzględnić fakt, że $textmoże zawierać podwójne cudzysłowy. Tak zmieniona wersja będzie: json_decode('"'.str_replace('"', '\\"', $text).'"'). Dzięki za pomoc :-)

Yvan

Answer 9

44

Nie potrzebuje nawet opakowania obiektu:json_decode('"' . $text . '"')

deceze

Answer 10

3

Dzięki. Wydaje się, że to STANDARDOWY SPOSÓB , a nie zaakceptowana odpowiedź.

T.Todua

Answer 11

Co ciekawe, działa to również w przypadku złożonych obiektów, takich jak buźki ... json_decode('{"t":"\uD83D\uDE0A"}')jest is

DynamicDan

Answer 12

2

@deceze powinieneś uwzględnić fakt, że $textmoże zawierać podwójne cudzysłowy. Tak zmieniona wersja będzie: json_decode('"'.str_replace('"', '\\"', $text).'"'). Dzięki za pomoc :-)

Yvan

Answer 13

14

PHP 7+

Począwszy od PHP 7, możesz w tym celu użyć składni ucieczki punktu kodowego Unicode .

echo "\u{00ed}";wyjścia í.

Rabin Lama Dong
źródło

1

Dzięki! O wiele prostsze niż inne odpowiedzi

Gus

Answer 14

1

Dzięki! O wiele prostsze niż inne odpowiedzi

Gus

Answer 15

$str = '\u0063\u0061\u0074'.'\ud83d\ude38';
$str2 = '\u0063\u0061\u0074'.'\ud83d';

// U+1F638
var_dump(
    "cat\xF0\x9F\x98\xB8" === escape_sequence_decode($str),
    "cat\xEF\xBF\xBD" === escape_sequence_decode($str2)
);

function escape_sequence_decode($str) {

    // [U+D800 - U+DBFF][U+DC00 - U+DFFF]|[U+0000 - U+FFFF]
    $regex = '/\\\u([dD][89abAB][\da-fA-F]{2})\\\u([dD][c-fC-F][\da-fA-F]{2})
              |\\\u([\da-fA-F]{4})/sx';

    return preg_replace_callback($regex, function($matches) {

        if (isset($matches[3])) {
            $cp = hexdec($matches[3]);
        } else {
            $lead = hexdec($matches[1]);
            $trail = hexdec($matches[2]);

            // http://unicode.org/faq/utf_bom.html#utf16-4
            $cp = ($lead << 10) + $trail + 0x10000 - (0xD800 << 10) - 0xDC00;
        }

        // https://tools.ietf.org/html/rfc3629#section-3
        // Characters between U+D800 and U+DFFF are not allowed in UTF-8
        if ($cp > 0xD7FF && 0xE000 > $cp) {
            $cp = 0xFFFD;
        }

        // https://github.com/php/php-src/blob/php-5.6.4/ext/standard/html.c#L471
        // php_utf32_utf8(unsigned char *buf, unsigned k)

        if ($cp < 0x80) {
            return chr($cp);
        } else if ($cp < 0xA0) {
            return chr(0xC0 | $cp >> 6).chr(0x80 | $cp & 0x3F);
        }

        return html_entity_decode('&#'.$cp.';');
    }, $str);
}

Answer 16

Dziękuję Ci. Wydaje się, że działa to z dodatkowym charakterem, takim jak😍

c00000fd

Answer 17

Jest to młot kowalski zastępujący surowy kod UNICODE kodem HTML. Nie widziałem innego miejsca na umieszczenie tego rozwiązania, ale zakładam, że inni mieli ten problem.

Zastosuj tę funkcję str_replace do RAW JSON , zanim zrobisz cokolwiek innego.

function unicode2html($str){
    $i=65535;
    while($i>0){
        $hex=dechex($i);
        $str=str_replace("\u$hex","&#$i;",$str);
        $i--;
     }
     return $str;
}

To nie potrwa tak długo, jak myślisz, a to zastąpi DOWOLNY Unicode na HTML.

Oczywiście można to zmniejszyć, jeśli znasz typy Unicode, które są zwracane w formacie JSON.

Na przykład mój kod otrzymywał wiele strzałek i unikodu dingbat. Są to między 8448 a 11263. Tak więc mój kod produkcyjny wygląda następująco:

$i=11263;
while($i>08448){
    ...etc...

Możesz wyszukać bloki Unicode według typu tutaj: http://unicode-table.com/en/ Jeśli wiesz, że tłumaczysz arabski, telegu lub cokolwiek innego, możesz po prostu zastąpić te kody, a nie wszystkie 65 000.

Możesz zastosować ten sam młot do prostego kodowania:

 $str=str_replace("\u$hex",chr($i),$str);

Answer 18

Jest też rozwiązanie:
http://www.welefen.com/php-unicode-to-utf8.html

function entity2utf8onechar($unicode_c){
    $unicode_c_val = intval($unicode_c);
    $f=0x80; // 10000000
    $str = "";
    // U-00000000 - U-0000007F:   0xxxxxxx
    if($unicode_c_val <= 0x7F){         $str = chr($unicode_c_val);     }     //U-00000080 - U-000007FF:  110xxxxx 10xxxxxx
    else if($unicode_c_val >= 0x80 && $unicode_c_val <= 0x7FF){         $h=0xC0; // 11000000
        $c1 = $unicode_c_val >> 6 | $h;
        $c2 = ($unicode_c_val & 0x3F) | $f;
        $str = chr($c1).chr($c2);
    } else if($unicode_c_val >= 0x800 && $unicode_c_val <= 0xFFFF){         $h=0xE0; // 11100000
        $c1 = $unicode_c_val >> 12 | $h;
        $c2 = (($unicode_c_val & 0xFC0) >> 6) | $f;
        $c3 = ($unicode_c_val & 0x3F) | $f;
        $str=chr($c1).chr($c2).chr($c3);
    }
    //U-00010000 - U-001FFFFF:  11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
    else if($unicode_c_val >= 0x10000 && $unicode_c_val <= 0x1FFFFF){         $h=0xF0; // 11110000
        $c1 = $unicode_c_val >> 18 | $h;
        $c2 = (($unicode_c_val & 0x3F000) >>12) | $f;
        $c3 = (($unicode_c_val & 0xFC0) >>6) | $f;
        $c4 = ($unicode_c_val & 0x3F) | $f;
        $str = chr($c1).chr($c2).chr($c3).chr($c4);
    }
    //U-00200000 - U-03FFFFFF:  111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
    else if($unicode_c_val >= 0x200000 && $unicode_c_val <= 0x3FFFFFF){         $h=0xF8; // 11111000
        $c1 = $unicode_c_val >> 24 | $h;
        $c2 = (($unicode_c_val & 0xFC0000)>>18) | $f;
        $c3 = (($unicode_c_val & 0x3F000) >>12) | $f;
        $c4 = (($unicode_c_val & 0xFC0) >>6) | $f;
        $c5 = ($unicode_c_val & 0x3F) | $f;
        $str = chr($c1).chr($c2).chr($c3).chr($c4).chr($c5);
    }
    //U-04000000 - U-7FFFFFFF:  1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
    else if($unicode_c_val >= 0x4000000 && $unicode_c_val <= 0x7FFFFFFF){         $h=0xFC; // 11111100
        $c1 = $unicode_c_val >> 30 | $h;
        $c2 = (($unicode_c_val & 0x3F000000)>>24) | $f;
        $c3 = (($unicode_c_val & 0xFC0000)>>18) | $f;
        $c4 = (($unicode_c_val & 0x3F000) >>12) | $f;
        $c5 = (($unicode_c_val & 0xFC0) >>6) | $f;
        $c6 = ($unicode_c_val & 0x3F) | $f;
        $str = chr($c1).chr($c2).chr($c3).chr($c4).chr($c5).chr($c6);
    }
    return $str;
}
function entities2utf8($unicode_c){
    $unicode_c = preg_replace("/\&\#([\da-f]{5})\;/es", "entity2utf8onechar('\\1')", $unicode_c);
    return $unicode_c;
}

Answer 19

popraw wartości json, dodaj \ przed u {xxx} do wszystkich + ""

  $item = preg_replace_callback('/"(.+?)":"(u.+?)",/', function ($matches) {
        $matches[2] = preg_replace('/(u)/', '\u', $matches[2]);
            $matches[2] = preg_replace('/(")/', '&quot;', $matches[2]); 
            $matches[2] = json_decode('"' . $matches[2] . '"'); 
            return '"' . $matches[1] . '":"' . $matches[2] . '",';
        }, $item);

Jak zdekodować sekwencje unikowe Unicode, takie jak „\ u00ed”, do odpowiednich znaków zakodowanych w UTF-8?

Odpowiedzi:

PHP 7+