UTF-8(Unicode Transformation Format - 8bit) 요약 정리
유니코드는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준이며, 현존하는 문자 인코딩 방법들을 모두 유니코드로 교체하려는 것에 목적이 있습니다.
유니코드 영역 목록은 아래 링크를 참조
유니코드 인코딩 방식 중 하나가 UTF-8이며, 가변 길이 문자 인코딩 방식으로 1바이트를 기준으로 인코딩합니다. (한 글자가 1~4바이트 중 하나로 인코딩됨)
인코딩 규칙
- UTF-8 2-byte Characters
- 첫 번째 byte = 0xc0 ~ 0xdf
- 두 번째 byte = 0x80 ~ 0xbf
- UTF-8 3-byte Characters
- 첫 번째 byte = 0xe0 ~ 0xef
- 두 번째 byte = 0x80 ~ 0xbf
- 세 번째 byte = 0x80 ~ 0xbf
- UTF-8 4-byte Characters
- 첫 번째 byte = 0xf0 ~ 0xf7
- 두 번째 byte = 0x80 ~ 0xbf
- 세 번째 byte = 0x80 ~ 0xbf
- 네 번째 byte = 0x80 ~ 0xbf
Reference