Skip to content

Latest commit

 

History

History
478 lines (275 loc) · 19.5 KB

File metadata and controls

478 lines (275 loc) · 19.5 KB

16장 🐙 국제화


16.1   국제적인 콘텐츠를 다루기 위해 필요한 HTTP 지원  secho

  • 1번
      1. HTTP에서 엔터티본문은 그저 바이트들로 가 찬 상자에 불과하다 ( O / X )
      2. HTTP 메시지는 어떤 언어로 된 콘텐츠든, 이미지, 동영상 혹은 그 외 다른 종류의 미디어처럼 실어나를 수 있다. ( O / X)
📄 답지

1번

    1. HTTP에서 엔터티본문은 그저 바이트들로 가 찬 상자에 불과하다 ( O / X )
    2. HTTP 메시지는 어떤 언어로 된 콘텐츠든, 이미지, 동영상 혹은 그 외 다른 종류의 미디어처럼 실어나를 수 있다. ( O / X)
  • 정답 :

      1. X - 비트에 불과함
      1. O 말 어떤 콘텐츠든 그대로 실어나를 수 있음

16.2   문자집합과 HTTP   secho

  • 2번

  • 보기를 보고 빈칸을 채워주세요!

  • 보기 : 바이트, 치즈바이트, 비트, iso-8859, utf-8, utf-16, content-language, content-type, accept-type , accept-cotent, accept-charset

      1. Charset은 글자를 ___로 변환하는 인코딩이다.

      2. ___ 이라는 MIME Charset값은 유니코드를 표현하기 위한 가변길이 문자 인코딩 구조다.

        vscode나 다른 IDE툴의 html파일에서 !단축키를 사용하면 default로 작성되는 값이기도 하다.

        <!DOCTYPE html>
        <html lang="en">
        <head>
          <meta charset="____">
          <meta name="viewport" content="width=device-width, initial-scale=1.0">
      3. _____ 헤더는 클라이언트가 서버에게 어떤 문자체계를 지원하는지에 대해 알려주는 헤더다

      4. 2번의 MIME 차셋 태그를 charset매개변수와 함께 ____헤더에 담아보낸다.

다 읽었으면 잠깐 봐염

인코딩방식과 유니코드는 다르다.

  • 유니코드 : 아스키코드로 표현할 수 없는 문자들을 유니코드로 매핑. 2^20 + 2^16개의 공간을 사용하고 있음. 전 세계의 모든 문자를 특정 숫자(키)와 1:1로 매핑한 것.

인코딩방식

  • EUC-KR : 한글 표현을 위한 문자 인코딩 방식. 한국에서 통용되는 한글, 한자, 영문을 표현 할 수 있음. 한글 2byte
  • UTF-8 : 유니코드를 사용한 인코딩 방식. 전 세계 모든 문자를 동일하게 표현할 수 있음. 주요 웹사이트 1만개중 51%정도 사용함. 최신 기술을 UTF-8방식으로 기본적인 지원. 한글을 3byte로 처리
📄 답지
  • 2번

  • 보기를 보고 빈칸을 채워주세요!

  • 보기 : 바이트, 치즈바이트, 비트, iso-8859, utf-8, utf-16, content-language, content-type, accept-type , accept-cotent, accept-charset

      1. Charset은 글자를 ___로 변환하는 인코딩이다.

      2. ___ 이라는 MIME Charset값은 유니코드를 표현하기 위한 가변길이 문자 인코딩 구조다.

        vscode나 다른 IDE툴의 html파일에서 !단축키를 사용하면 default로 작성되는 값이기도 하다.

        <!DOCTYPE html>
        <html lang="en">
        <head>
          <meta charset="____">
          <meta name="viewport" content="width=device-width, initial-scale=1.0">
      3. _____ 헤더는 클라이언트가 서버에게 어떤 문자체계를 지원하는지에 대해 알려주는 헤더다

      4. 2번의 MIME 차셋 태그를 charset매개변수와 함께 ____헤더에 담아보낸다.

  • 정답 :

    1. 비트
    2. utf-8
    3. accept-charset
    4. content-type

16.3.1~4   다중언어 문자 인코딩에 대한 지침(1)  jehong

  1. 다음 보기의 용어로 설명에 알맞게 빈칸을 채우세요.

보기

문자, 글리프(glyph), 코드 너비(code width), 문자 인코딩 구조, 코딩된 문자(coded character), 연자(ligatures)

문자 체계 용어 설명
a. 하나의 글자를 표현하기 위한, 획의 패턴이나 다른 것과 구분되는 유일한 시각적 형태
b. 숫자로 된 문자 코드들을 콘텐츠 비트의 연속으로 인코딩하는(그리고 원래대로 디코딩하는) 알고리즘
c. 알파벳 글자, 숫자, 구두점, 표의문자(중국어에서와 같은), 기호 등 글쓰기의 최소 단위
사용 가능 문자집합 글자들에 대한 특정한 작업 집합(세상에 존재하는 모든 글자의 부분집합)
d. 우리가 글자를 다룰 수 있도록 각 글자에 할당된 유일한 숫자
e. 각 문자 코드의 (고정된 크기의) 비트 개수
코드 공간 문자 코드 값으로 사용하려고 계획해 둔 정수의 범쉬
코딩된 문자집합 사용 가능 문자집합(세상의 모든 글자에서 일부분을 선택한 것)을 받아서 각 글자에 코드 공간의 코드를 할당해주는 코딩된 문자들의 집합
f. 인접한 글자들을 부드럽게 이어주는 것으로 영어에서는 보통 F와 I를 연결

  1. 다음 중 charset에 대한 설명으로 옳은 것을 고르세요. (복수 응답 가능)

a. MIME 차셋 태그는 문자집합만을 의미한다.

b. 데이터 비트를 고유한 문자의 코드로 매핑하는 알고리즘의 이름이다.

c. RFC 2277에 의하면 차셋은 MIME "charset=" 매개변수에서 식별자로도 쓰인다.

d. MIME은 charset=iso-8859-1에서 "코딩된 문자집합"을 뜻하는 차셋값 iso08859-1를 "코딩된 문자집합의 8비트 아이덴티티 인코딩"을 의미하기 위해 사용한다. 즉, 이러한 문자집합이란 용어는 문자 인코딩의 의미로 사용된다.

e. ISO와 같은 다른 표준 단체에서도 사용된다.


틈새 아랍어 시간 - 우리 모두 아랍어 고수가 되어보아요

같은 글자라도 그 글자가 단어에서 어디에 위치하느냐에 따라 각각 다른 모양을 갖는 표기 체계도 있다. 다음은 아랍어 글자 AIN을 표현한 것이다. 각각 어떤 경우의 표기법인지 고르세요 (아랍어는 오른쪽에서 왼쪽으로 표기)

보기

중간에 위치, 혼자 쓰일 때, 마지막에 위치, 처음에 위치

📄 답지
  1. 다음 보기의 용어로 설명에 알맞게 빈칸을 채우세요. p.434-435, 437-438

보기

문자, 글리프(glyph), 코드 너비(code width), 문자 인코딩 구조, 코딩된 문자(coded character), 연자(ligatures)

문자 체계 용어 설명
a. 글리프(glyph) 하나의 글자를 표현하기 위한, 획의 패턴이나 다른 것과 구분되는 유일한 시각적 형태
b. 문자 인코딩 구조 숫자로 된 문자 코드들을 콘텐츠 비트의 연속으로 인코딩하는(그리고 원래대로 디코딩하는) 알고리즘
c. 문자 알파벳 글자, 숫자, 구두점, 표의문자(중국어에서와 같은), 기호 등 글쓰기의 최소 단위
사용 가능 문자집합 글자들에 대한 특정한 작업 집합(세상에 존재하는 모든 글자의 부분집합)
d. 코딩된 문자(coded character) 우리가 글자를 다룰 수 있도록 각 글자에 할당된 유일한 숫자
e. 코드 너비(code width) 각 문자 코드의 (고정된 크기의) 비트 개수
코드 공간 문자 코드 값으로 사용하려고 계획해 둔 정수의 범쉬
코딩된 문자집합 사용 가능 문자집합(세상의 모든 글자에서 일부분을 선택한 것)을 받아서 각 글자에 코드 공간의 코드를 할당해주는 코딩된 문자들의 집합
f. 연자(ligatures) 인접한 글자들을 부드럽게 이어주는 것으로 영어에서는 보통 F와 I를 연결

  1. 다음 중 charset에 대한 설명으로 옳은 것을 고르세요. (복수 응답 가능) p.435-436

a. MIME 차셋 태그는 문자집합만을 의미한다.

b. 데이터 비트를 고유한 문자의 코드로 매핑하는 알고리즘의 이름이다.

c. RFC 2277에 의하면 차셋은 MIME "charset=" 매개변수에서 식별자로도 쓰인다.

d. MIME은 charset=iso-8859-1에서 "코딩된 문자집합"을 뜻하는 차셋값 iso08859-1를 "코딩된 문자집합의 8비트 아이덴티티 인코딩"을 의미하기 위해 사용한다. 즉, 이러한 문자집합이란 용어는 문자 인코딩의 의미로 사용된다.

e. ISO와 같은 다른 표준 단체에서도 사용된다.

답 b, c, d

a. 문자집합과 문자 인코딩 구조의 개념을 합친 것이다.

e. ISO와 같은 다른 표준 단체에서는 사용되지 않는다


틈새 아랍어 시간 - 우리 모두 아랍어 고수가 되어보아요 p. 437

같은 글자라도 그 글자가 단어에서 어디에 위치하느냐에 따라 각각 다른 모양을 갖는 표기 체계도 있다. 다음은 아랍어 글자 AIN을 표현한 것이다. 각각 어떤 경우의 표기법인지 고르세요 (아랍어는 오른쪽에서 왼쪽으로 표기)

보기

중간에 위치, 혼자 쓰일 때, 마지막에 위치, 처음에 위치

a. 혼자 쓰일 때

b. 마지막에 위치

c. 중간에 위치

d. 처음에 위치


16.3.5~6   다중언어 문자 인코딩에 대한 지침(2)  taelee

Group 1 (3)

1. 위표는 현재기준 웹사이트에서 사용되고 있는 문자집합 인코딩 통계이다.

(a), (b), (c)에 들어갈 인코딩을 보기에서 찾아 짝지으세요

보기: ISO-8859-1, UTF-8, Expelliarmus,Lumos, EUC-KR, Wingardium Leviosa,

2. 고정폭 인코딩은 코딩된 문자를 고정된 길이의 비트로 표현한다 (O/X)

3. 가변폭 인코딩중에 다른 모드로의 전환을 위해 특별한 'escape'패턴을 사용하는 것은 가변폭(모달/비모달)이다.

📄 답지

1. 위표는 현재기준 웹사이트에서 사용되고 있는 문자집합 인코딩 통계이다.

(a), (b), (c)에 들어갈 인코딩을 보기에서 찾아 짝지으세요

보기: ISO-8859-1, UTF-8, Expelliarmus,Lumos, EUC-KR, Wingardium Leviosa,

a : UTF-8

b : ISO-8859-1

c : EUC-KR

출처: https://w3techs.com/technologies/overview/character_encoding

2. 고정폭 인코딩은 코딩된 문자를 고정된 길이의 비트로 표현한다 (O)

3. 가변폭 인코딩중에 다른 모드로의 전환을 위해 특별한 'escape'패턴을 사용하는 것은 가변폭(모달)이다.


16.4   언어 태그와 HTTP  yeosong

16.4.1~2   Content-Language 헤더, Accept-Language 헤더

  1. 해당 콘텐츠가 어떤 언어 사용자를 대상으로 하고 있는지 서술하는 헤더는 Accept-Language 헤더다. (O ------- X)

  2. Accept-Language 헤더는 오디오 클립, 동영상, 애플리케이션 등 이 미디어가 어떤 언어 사용자를 위한 것인지 나타내기 위해 쓴다. (O ------- X)

  3. Accept-Language 헤더는 클라이언트가 언어 제약과 선호도를 서버에게 전달 할 수 있게 해준다. (O ------- X)

16.4.3   언어 태그의 종류 (문항 없음)

  • 일반적인 언어의 종류
  • 특정 국가의 언어
  • 방언
  • 지방어
  • 표준 언어
  • 비표준 언어

16.4.4   서브태그

  1. 첫 번째 서브태그는 'primary subtag'라고 불리며, sgn-US-MA에서 US를 뜻한다. (O ------- X)

  2. 세 번째 서브태그는 표준 일람에 등록되어 있지 않다. (O ------- X)

16.4.5   대소문자의 구분 및 표현

  1. 모든 태그는 대소문자를 엄격하게 구분하여 대문자인 경우 나라를, 소문자인 경우 언어를 나타낸다. (O ------- X)

16.4.6   IANA 언어 태그 등록

  1. IANA는 RFC3066의 규칙에 따른다. 만약 언어 태그가 표준 국가와 언어 값의 조합이라면 그 태그는 IANA에 등록되지 않아도 된다. (O ------- X)

16.4.7   첫 번째 서브태그: 이름 공간 (문항 없음)

  • 첫 번째 서브태그는 두 글자라면 ISO 639ISO 639-1 표준의 언어코드다. 세 글자라면 ISO 639-2 표준과 확장에 열거된 언어 코드다.
  • 첫 번째 서브태그에 'i'가 있다면, 이 언어 태그는 IANA에 등록된 것이다.

16.4.8   두 번째 서브태그: 이름 공간 (문항 없음)

  • 두 번째 서브태그는 두 글자라면 ISO 3166에 정의된 국가/지역이다.
  • 3~8 글자라면, IANA에 등록된 것이다.
  • 한 글자라면, 뭔가 잘못된 것이다.

16.4.9   나머지 서브태그: 이름 공간

  1. 세 번째 혹은 그 이후의 서브태그는 6자 이하의 알파벳과 숫자로 이루어져야 한다. (O ------- X)

16.4.10   선호 언어 설정하기

  1. 인터넷 사용자는 어디에서 선호 언어를 설정할 수 있을까? (단답식)

16.4.11   언어 태그 참조표 (문항 없음)

  • 교재 673p 부터 상세히 나와있다.
📄 답지

16.4.1~2   Content-Language 헤더, Accept-Language 헤더

  1. 해당 콘텐츠가 어떤 언어 사용자를 대상으로 하고 있는지 서술하는 헤더는 Accept-Language 헤더다. (X)

Content-Language 헤더에 대한 설명이다.

  1. Accept-Language 헤더는 오디오 클립, 동영상, 애플리케이션 등 이 미디어가 어떤 언어 사용자를 위한 것인지 나타내기 위해 쓴다. (X)

Content-Language 헤더에 대한 설명이다.

  1. Accept-Language 헤더는 클라이언트가 언어 제약과 선호도를 서버에게 전달 할 수 있게 해준다. (O)

16.4.3   언어 태그의 종류 (문항 없음)

  • 일반적인 언어의 종류
  • 특정 국가의 언어
  • 방언
  • 지방어
  • 표준 언어
  • 비표준 언어

16.4.4   서브태그

  1. 첫 번째 서브태그는 'primary subtag'라고 불리며, sgn-US-MA에서 US를 뜻한다. (X)

여기서 첫 번째 서브태그(=주 서브태그)는 sgn이다.

  1. 세 번째 서브태그는 표준 일람에 등록되어 있지 않다. (O)

16.4.5   대소문자의 구분 및 표현

  1. 모든 태그는 대소문자를 엄격하게 구분하여 대문자인 경우 나라를, 소문자인 경우 언어를 나타낸다. (X)

규칙으로 엄격하게 정해져있지는 않다. 그러나 관용적으로 대문자-나라, 소문자-언어를 뜻하는 건 맞다.

16.4.6   IANA 언어 태그 등록

  1. IANA는 RFC3066의 규칙에 따른다. 만약 언어 태그가 표준 국가와 언어 값의 조합이라면 그 태그는 IANA에 등록되지 않아도 된다. (O)

16.4.7   첫 번째 서브태그: 이름 공간 (문항 없음)

  • 첫 번째 서브태그는 두 글자라면 ISO 639ISO 639-1 표준의 언어코드다. 세 글자라면 ISO 639-2 표준과 확장에 열거된 언어 코드다.
  • 첫 번째 서브태그에 'i'가 있다면, 이 언어 태그는 IANA에 등록된 것이다.

16.4.8   두 번째 서브태그: 이름 공간 (문항 없음)

  • 두 번째 서브태그는 두 글자라면 ISO 3166에 정의된 국가/지역이다.
  • 3~8 글자라면, IANA에 등록된 것이다.
  • 한 글자라면, 뭔가 잘못된 것이다.

16.4.9   나머지 서브태그: 이름 공간

  1. 세 번째 혹은 그 이후의 서브태그는 6자 이하의 알파벳과 숫자로 이루어져야 한다. (X)

8자 이하

16.4.10   선호 언어 설정하기

  1. 인터넷 사용자는 어디에서 선호 언어를 설정할 수 있을까? (단답식) --- 웹 브라우저
  • 크롬: 설정 > 고급 설정 표시 > 언어 및 입력 설정
  • IE: 도구 > 인터넷옵션 > 언어

16.4.11   언어 태그 참조표 (문항 없음)

  • 교재 673p 부터 상세히 나와있다.

16.5 ~ 16.6   국제화된 URI + 기타 고려사항  hylee

  1. 오늘날의 URI에서는 ( 아스키 코드 / UTF-8 )를 사용할 수 있어서 다양한 문자들을 별 문제없이 사용할 수 있다.

  2. URI의 이스케이프는?

  3. HTTP 애플리케이션이 URI를 언이스케이핑을 할 때 제일 중요한 것은?

  4. (______) 라는 방법을 이용해 우리는 다국어로 입력된 도메인 이름을 알파벳과 숫자 등으로 된 도메인 이름으로 변환해서 사용할 수 있다.

    <보기>
    유니코드(Unicode), 유나코드(Yunacode), 퓨니코드(Punycode), 트랜스코드(transcode)

📄 답지
  1. 오늘날의 URI에서는 UTF-8를 사용할 수 있어서 다양한 문자들을 별 문제없이 사용할 수 있다.

  2. URI의 이스케이프는?

정답 : % <HEX> <HEX>

  URI 이스케이프는 퍼센트 글자(%) 하나와 뒤이은 16진수 글자 둘로 이루어진 세 글자 문자열이다.
  1. HTTP 애플리케이션이 URI를 언이스케이핑을 할 때 제일 중요한 것은?

정답 : URI를 두번 언이스케이핑 되지 않도록 하는 것

  왜냐하면 이스케이핑된 퍼센트 기호를 포함한 URl를 언이스케이핑하면 
  퍼센트 기호가 포함된 URl가 만들어지게 될 것인데, 여기서 잘못하여
  한 번 더 언이스케이핑을 하게 되면 이 퍼센트 기호 뒤에 있는 문자들이 
  이스케이프의 일부인 것처럼 처리되어 데이터의 손실을 유발할 수도 있기 때문이다.
  1. (______) 라는 방법을 이용해 우리는 다국어로 입력된 도메인 이름을 알파벳과 숫자 등으로 된 도메인 이름으로 변환해서 사용할 수 있다. <보기>
    유니코드(Unicode), 유나코드(Yunacode), 퓨니코드(Punycode), 트랜스코드(transcode)

    정답 : 퓨니코드(Punycode)

    국제화 문자를 포함하는 도메인 이름을 ‘국제화 도메인 이름’이라고 하는데,
    오늘날 대부분의 웹브라우저가 퓨니코드(punycode)를 이용해 이를 지원한다. 
    퓨니코드란 유니코드 문자열을 호스트 명에서 사용 가능한 문자만으로
    이루어진 문자열로 변환히는 방법이다.