유니코드는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준이며, 현존하는 문자 인코딩 방법들을 모두 유니코드로 교체하려는 것에 목적이 있습니다.

유니코드 영역 목록은 아래 링크를 참조

유니코드 인코딩 방식 중 하나가 UTF-8이며, 가변 길이 문자 인코딩 방식으로 1바이트를 기준으로 인코딩합니다. (한 글자가 1~4바이트 중 하나로 인코딩됨)

인코딩 규칙

  • UTF-8 2-byte Characters
    • 첫 번째 byte = 0xc0 ~ 0xdf
    • 두 번째 byte = 0x80 ~ 0xbf
  • UTF-8 3-byte Characters
    • 첫 번째 byte = 0xe0 ~ 0xef
    • 두 번째 byte = 0x80 ~ 0xbf
    • 세 번째 byte = 0x80 ~ 0xbf
  • UTF-8 4-byte Characters
    • 첫 번째 byte = 0xf0 ~ 0xf7
    • 두 번째 byte = 0x80 ~ 0xbf
    • 세 번째 byte = 0x80 ~ 0xbf
    • 네 번째 byte = 0x80 ~ 0xbf

Reference