python UTF-8文字変換を新人向けに簡単に説明する

文字コード
この記事は約2分で読めます。

python で文字列を読み込む中で、文字コードの理解は開発を簡単にします

文字化けやasciiとのデコードで苦しむと思いますが、原理を説明します

本日の伝えたいこと

✔ UTF-8は、2バイト一組の組み合わせで出来ている

✔ UTF-8の文字列であることを明示化するために、頭には\xをつける

✔ 応用すると、日本語を16進数で表現できるようになる

困ったこと

文字コードがわからない

内容

文字コードって何

16進数2個の組み合わせパターンによって文字を表すもの

パソコンは1か0しか扱えないため、文字を16進数で提示しないと理解できない

■参考

  31 → 1

  43 → C

  e291b0 → ①

  e38182 → あ

  UTF-8まとめリンクをご参考に添付致します

UTF-8コード表(1)

UTF-8を直接入力したいときはどうするの

2文字区切りで、頭に¥xをつけるとUTF-8を直接入力できる

※普通にe38182と打つと それがUTF-8に変換されてしまう

 →参考だが、e38182をUTF-8にすると 6533383138320Aになる

実際の現場で求められること

中々文字コードを直接打ち込む機会は少ないが、開発の現場では

16進数しか扱えない状況は多数ある。

そんな時、この原理を知っているとUTF-8を使って後から変換(デコード)

でき、ログデータに日本語を埋め込むなど拡張性が広がる

ただ、、、難しいため一部のマニアしか使ってないのは事実だ

まとめ

✔ UTF-8は、パソコンが文字を表現するために作られた賢いもの

タイトルとURLをコピーしました