首页 / 专利库 / 视听技术与设备 / 视频编码层 / 스케일러블 비디오 코딩 및 디코딩을 위한 계층 간 예측

스케일러블 비디오 코딩 및 디코딩을 위한 계층 간 예측

阅读:1030发布:2020-06-20

专利汇可以提供스케일러블 비디오 코딩 및 디코딩을 위한 계층 간 예측专利检索,专利查询,专利分析的服务。并且비디오코딩및 디코딩을위한방법, 장치및 컴퓨터프로그램제품이제공된다. 제 1 코딩된비디오표현의제 1 부분이디코딩되고, 제 2 코딩된비디오표현의디코딩에관한정보가수신및 파싱된다. 코딩된제 2 표현은제 1 코딩된비디오표현과는, 색차포맷, 샘플비트깊이, 컬러영역및/또는공간해상도에있어서상이하고, 정보는제 2 코딩된비디오표현이제 1 코딩된비디오표현의처리된디코딩된픽처들을참조픽처로서이용해서디코딩될수 있는지를지시한다. 정보가제 2 코딩된비디오표현이제 1 코딩된비디오표현의처리된디코딩된픽처들을참조픽처로서이용해서디코딩될수 있다고지시하면, 제 1 부분의디코딩된픽처(들)는리샘플링및/또는샘플값 스케일링에의해처리된디코딩된픽처(들)로처리되고; 제 2 비디오표현의제 2 부분을상기처리된디코딩된픽처(들)를참조픽처로서이용해서디코딩한다.,下面是스케일러블 비디오 코딩 및 디코딩을 위한 계층 간 예측专利的具体信息内容。

  • 방법으로서,
    제 1 코딩된 비디오 표현(first coded video representation)의 제 1 부분을 디코딩하는 단계;
    제 2 코딩된 비디오 표현(second coded video representation)의 디코딩에 대한 정보를 수신 및 파싱(parsing)하는 단계를 포함하고,
    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷(chroma format), 샘플 비트 깊이(sample bit depth), 컬러 영역(color gamut), 공간 해상도(spatial resolution) 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들(processed decoded pictures)을 예측에 이용될 수 있는 참조 픽처(reference picture)로서 이용해서 디코딩될 수 있는지를 지시하고;
    상기 정보가, 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측을 위한 참조로서 이용해서 디코딩될 수 있다고 지시하면,
    상기 방법은:
    상기 제 1 부분의 하나 이상의 디코딩된 픽처를 하나 이상의 처리된 디코딩된 픽처로 처리하는 단계― 상기 처리는 리샘플링(resampling) 및 샘플 값 스케일링(sample value scaling) 중 하나 또는 둘 모두를 포함함 ―; 및
    상기 하나 이상의 처리된 디코딩된 픽처를 예측에 이용될 수 있는 참조 픽처로서 이용해서 제 2 비디오 표현의 제 2 부분을 디코딩하는 단계를 추가로 포함하는
    방법.
  • 제 1 항에 있어서,
    상기 정보를 포함하는 미디어 프레젠테이션 설명(media presentation description)을 수신하는 단계를 추가로 포함하는
    방법.
  • 제 2 항에 있어서,
    상기 미디어 프레젠테이션 설명에 기초하여, 상기 제 1 코딩된 표현의 제 1 부분을 식별하는 제 1 식별자 및 상기 제 2 코딩된 표현의 제 2 부분을 식별하는 제 2 식별자를 결정하는 단계;
    상기 제 1 식별자를 이용해서 상기 제 1 부분을 요구하는 단계;
    상기 제 1 부분을 수신하는 단계;
    상기 제 2 식별자를 이용해서 상기 제 2 부분을 요구하는 단계; 및
    상기 제 2 부분을 수신하는 단계를 추가로 포함하는
    방법.
  • 제 1 항, 제 2 항 또는 제 3 항에 있어서,
    상기 제 1 식별자 및 상기 제 2 식별자는 URI(uniform resource identifier)인
    방법.
  • 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 제 1 코딩된 표현의 상기 공간 해상도는 참조 영역(reference region)에 대하여 결정되며, 상기 제 2 코딩된 표현의 상기 공간 해상도는 예측된 영역(predicted region)에 대하여 결정되고,
    상기 방법은:
    상기 참조 영역에 대한 정보를 수신하거나, 또는 상기 참조 영역에 대한 정보가 부재되는 단계;
    상기 제 1 코딩된 비디오 표현의 픽처들의 전체 영역을 커버하도록 상기 참조 영역을 결정하는 단계;
    상기 예측된 영역에 대한 정보를 수신하거나, 또는 상기 예측된 영역에 대한 정보가 부재되는 단계; 및
    상기 제 2 코딩된 비디오 표현의 픽처들의 전체 영역을 커버하도록 상기 예측된 영역을 결정하는 단계를 추가로 포함하는
    방법.
  • 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 하나 이상의 처리된 디코딩된 픽처는 상기 제 2 코딩된 비디오 표현의 픽처들과 동일한 색차 포맷 및 비트 깊이를 갖는
    방법.
  • 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 하나 이상의 처리된 디코딩된 픽처는 상기 제 2 코딩된 비디오 표현의 픽처들과 동일한 공간 해상도를 갖는
    방법.
  • 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 제 2 코딩된 비디오 표현이 비-베이스 계층(non-base layer)에 속하고 독립적으로 디코딩 가능하다는 정보를 수신 및 파싱하는 단계를 추가로 포함하는
    방법.
  • 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    비트스트림(bitstream)으로부터의 상기 제 1 코딩된 표현의 제 1 부분 및 상기 제 2 코딩된 표현의 제 2 부분이 스케일러블 비디오 코딩 프로파일(scalable video coding profile)에 부합한다는 정보를 수신 및 파싱하는 단계 - 상기 스케일러블 비디오 코딩 프로파일은 액세스 유닛들이 픽처를 2개까지 포함하는 것으로 제한하고, 또한 액세스 유닛이 2개의 픽처를 포함할 경우, 상위 계층(higher layer)에 속하는 픽처가 동일한 계층 내의 이전의 픽처들을 예측을 위한 참조로서 이용하는 것이 아니라 동일한 액세스 유닛 내의 하위 계층(lower layer)에서 픽처를 예측을 위한 참조로서 이용할 수 있는 인트라 랜덤 액세스 지점 픽처(intra random access point picture)라고 제한함 - 를 추가로 포함하는
    방법.
  • 적어도 하나의 프로세서 및 적어도 하나의 메모리를 포함하는 장치로서,
    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 적어도 하나의 메모리에 저장된 코드가, 장치로 하여금 적어도:
    제 1 코딩된 비디오 표현의 제 1 부분을 디코딩하는 것;
    제 2 코딩된 비디오 표현의 디코딩에 대한 정보를 수신 및 파싱하는 것을 수행하게 하고,
    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하고;
    상기 정보가, 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측을 위한 참조로서 이용해서 디코딩될 수 있다고 지시하면,
    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금 적어도:
    상기 제 1 부분의 하나 이상의 디코딩된 픽처를 하나 이상의 처리된 디코딩된 픽처로 처리하는 것― 상기 처리는 리샘플링 및 샘플 값 스케일링 중 하나 또는 둘 모두를 포함함 ―; 및
    상기 하나 이상의 처리된 디코딩된 픽처를 예측에 이용될 수 있는 참조 픽처로서 이용해서 제 2 비디오 표현의 제 2 부분을 디코딩하는 것을 추가로 수행하게 하는
    장치.
  • 제 10 항에 있어서,
    상기 장치는:
    상기 정보를 포함하는 미디어 프레젠테이션 설명을 수신하는 것을 추가로 수행하게 되는
    장치.
  • 제 11 항에 있어서,
    상기 장치는:
    상기 미디어 프레젠테이션 설명에 기초하여, 상기 제 1 코딩된 표현의 제 1 부분을 식별하는 제 1 식별자 및 상기 제 2 코딩된 표현의 제 2 부분을 식별하는 제 2 식별자를 결정하는 것;
    상기 제 1 식별자를 이용해서 상기 제 1 부분을 요구하는 것;
    상기 제 1 부분을 수신하는 것;
    상기 제 2 식별자를 이용해서 상기 제 2 부분을 요구하는 것; 및
    상기 제 2 부분을 수신하는 것을 추가로 수행하게 되는
    장치.

  • 제 10 항, 제 11 항 또는 제 12 항에 있어서,
    상기 제 1 식별자 및 상기 제 2 식별자는 URI(uniform resource identifier)인
    장치.
  • 제 10 항 내지 제 13 항 중 어느 한 항에 있어서,
    상기 제 1 코딩된 표현의 상기 공간 해상도는 참조 영역에 대하여 결정되며, 상기 제 2 코딩된 표현의 상기 공간 해상도는 예측된 영역에 대하여 결정되고,
    상기 장치는:
    상기 참조 영역에 대한 정보를 수신하거나, 또는 상기 참조 영역에 대한 정보가 부재되는 것;
    상기 제 1 코딩된 비디오 표현의 픽처들의 전체 영역을 커버하도록 상기 참조 영역을 결정하는 것;
    상기 예측된 영역에 대한 정보를 수신하거나, 또는 상기 예측된 영역에 대한 정보가 부재되는 것; 및
    상기 제 2 코딩된 비디오 표현의 픽처들의 전체 영역을 커버하도록 상기 예측된 영역을 결정하는 것을 추가로 수행하게 되는
    장치.
  • 제 10 항 내지 제 14 항 중 어느 한 항에 있어서,
    상기 하나 이상의 처리된 디코딩된 픽처는 상기 제 2 코딩된 비디오 표현의 픽처들과 동일한 색차 포맷 및 비트 깊이를 갖는
    장치.
  • 제 10 항 내지 제 15 항 중 어느 한 항에 있어서,
    상기 하나 이상의 처리된 디코딩된 픽처는 상기 제 2 코딩된 비디오 표현의 픽처들과 동일한 공간 해상도를 갖는
    장치.
  • 제 10 항 내지 제 16 항 중 어느 한 항에 있어서,
    상기 장치는:
    상기 제 2 코딩된 비디오 표현이 비-베이스 계층에 속하고 독립적으로 디코딩 가능하다는 정보를 수신 및 파싱하는 것을 추가로 수행하게 되는
    장치.

  • 제 10 항 내지 제 17 항 중 어느 한 항에 있어서,
    상기 장치는:
    비트스트림으로부터의 상기 제 1 코딩된 표현의 제 1 부분 및 상기 제 2 코딩된 표현의 제 2 부분이 스케일러블 비디오 코딩 프로파일에 부합한다는 정보를 수신 및 파싱하는 것 - 상기 스케일러블 비디오 코딩 프로파일은 액세스 유닛들이 픽처를 2개까지 포함하는 것으로 제한하고, 또한 액세스 유닛이 2개의 픽처를 포함할 경우, 상위 계층에 속하는 픽처가 동일한 계층 내의 이전의 픽처들을 예측을 위한 참조로서 이용하는 것이 아니라 동일한 액세스 유닛 내의 하위 계층에서 픽처를 예측을 위한 참조로서 이용할 수 있는 인트라 랜덤 액세스 지점 픽처라고 제한함 - 을 추가로 수행하게 되는
    장치.
  • 장치에 의한 사용을 위해 코드가 저장된 컴퓨터 판독가능 스토리지 매체로서,
    프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금:
    제 1 코딩된 비디오 표현의 제 1 부분을 디코딩하는 것;
    제 2 코딩된 비디오 표현의 디코딩에 대한 정보를 수신 및 파싱하는 것을 수행하게 하고,
    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하고;
    상기 정보가, 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측을 위한 참조로서 이용해서 디코딩될 수 있다고 지시하면,
    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금 적어도:
    상기 제 1 부분의 하나 이상의 디코딩된 픽처를 하나 이상의 처리된 디코딩된 픽처로 처리하는 것― 상기 처리는 리샘플링 및 샘플 값 스케일링 중 하나 또는 둘 모두를 포함함 ―; 및
    상기 하나 이상의 처리된 디코딩된 픽처를 예측에 이용될 수 있는 참조 픽처로서 이용해서 제 2 비디오 표현의 제 2 부분을 디코딩하는 것을 추가로 수행하게 하는
    컴퓨터 판독가능 스토리지 매체.
  • 이미지 시퀀스(image sequence)를 포함하는 비트스트림을 디코딩하도록 구성된 비디오 디코더를 포함하는 장치로서,
    상기 비디오 디코더는:
    제 1 코딩된 비디오 표현의 제 1 부분을 디코딩하는 수단;
    제 2 코딩된 비디오 표현의 디코딩에 대한 정보를 수신 및 파싱하는 수단을 포함하고,
    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하고;
    상기 장치는:
    상기 정보가, 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측을 위한 참조로서 이용해서 디코딩될 수 있다고 지시하면, 상기 제 1 부분의 하나 이상의 디코딩된 픽처를 하나 이상의 처리된 디코딩된 픽처로 처리하는 수단― 상기 처리는 리샘플링 및 샘플 값 스케일링 중 하나 또는 둘 모두를 포함함 ―; 및
    상기 하나 이상의 처리된 디코딩된 픽처를 예측에 이용될 수 있는 참조 픽처로서 이용해서 제 2 비디오 표현의 제 2 부분을 디코딩하는 수단을 추가로 포함하는
    장치.
  • 이미지 시퀀스를 포함하는 비트스트림을 디코딩하도록 구성된 비디오 디코더로서,
    상기 비디오 디코더는:
    제 1 코딩된 비디오 표현의 제 1 부분을 디코딩하고;
    제 2 코딩된 비디오 표현의 디코딩에 대한 정보를 수신 및 파싱하도록 추가로 구성되고,
    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하고;
    상기 정보가, 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측을 위한 참조로서 이용해서 디코딩될 수 있다고 지시하면,
    상기 방법은:
    상기 제 1 부분의 하나 이상의 디코딩된 픽처를 하나 이상의 처리된 디코딩된 픽처로 처리하는 것― 상기 처리는 리샘플링 및 샘플 값 스케일링 중 하나 또는 둘 모두를 포함함 ―; 및
    상기 하나 이상의 처리된 디코딩된 픽처를 예측에 이용될 수 있는 참조 픽처로서 이용해서 제 2 비디오 표현의 제 2 부분을 디코딩하는 것을 추가로 포함하는
    비디오 디코더.
  • 방법으로서,
    미디어 프레젠테이션 설명으로부터, 적어도 2개의 표현에 대한 메타데이터를 파싱하는 단계;
    상기 미디어 프레젠테이션 설명으로부터, 상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스(a sequence of non-overlapping consecutive segments or subsegments)를 디코딩하기 위해 하나 이상의 특성을 파싱하는 단계를 포함하는
    방법.
  • 제 22 항에 있어서,
    상기 하나 이상의 특성은:
    - 상기 시퀀스가 준수하는 코덱들 또는 코딩 포맷들;
    - 상기 시퀀스가 준수하는 적합성 지점(conformance point);
    - 상기 시퀀스의 디코딩시에 목표 출력 계층 세트 인덱스(target output layer set index)로서 사용될 수 있는 출력 계층 세트 인덱스;
    - 상기 시퀀스의 디코딩시에 사용될 수 있는 최상위 시간적 부-계층 식별자(highest temporal sub-layer identifier);
    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 인트라 랜덤 액세스 지점 픽처임;
    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 예측 에러가 코딩되지 않은 인트라 랜덤 액세스 지점 픽처임;
    - 상기 시퀀스에 포함된 계층 식별자 값들;
    - 상기 시퀀스에 포함된 필수 계층들의 계층 식별자 값들;
    - 상기 시퀀스에 포함된 출력 계층들의 계층 식별자 값들;
    - 상기 시퀀스에 의해 표현된 대안적인 출력 계층들에 대한 정보;
    - 상기 시퀀스의 디코딩시에 활성화될 수 있는 비디오 파라미터 세트(들);
    - 상기 시퀀스의 디코딩시에 활성화될 수 있는, 시퀀스 파라미터 세트들 및/또는 픽처 파라미터 세트들과 같은 기타 파라미터 세트(들);
    - 상기 시퀀스에 포함된 계층들에 대한 스케일러빌리티 식별자 값들(scalability identifier values);
    - 상기 시퀀스의 디코딩을 위해 요구 또는 제안된 묵시적 참조 픽처 리샘플링(implicit reference picture resampling)과 관련된 정보
    의 임의의 서브세트(subset)를 포함하는
    방법.
  • 제 22 항 또는 제 23 항에 있어서,
    부가적인 구조(supplemental structure)로부터 상기 하나 이상의 특성을 파싱하는 단계를 추가로 포함하는
    방법.
  • 제 22 항, 제 23 항 또는 제 24 항에 있어서,
    상기 하나 이상의 특성과 연관되는,
    - 상기 하나 이상의 특성이 비-중첩 연속 세그먼트들의 시퀀스, 비-중첩 연속 서브세그먼트들의 시퀀스, 또는 둘 모두에 적용되는지를 지시하는 정보와,
    - 표현들의 세트 중에서 상기 적어도 2개의 표현의 식별
    중의 하나 또는 두 부분을 파싱하는 단계를 추가로 포함하는
    방법.
  • 제 22 항 내지 제 25 항 중 어느 한 항에 있어서,
    적어도 2개의 표현 중 제 1 비디오 표현의 제 1 부분을 디코딩하는 단계;
    상기 적어도 2개의 표현 중 제 2 비디오 표현을 디코딩하는 단계를 추가로 포함하고,
    상기 디코딩된 제 2 표현은 상기 제 1 디코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 하나 이상의 특성은 상기 제 2 비디오 표현이 상기 제 1 비디오 표현의 하나 이상의 처리된 디코딩된 픽처들을 예측을 위한 하나 이상의 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하는
    방법.
  • 제 22 항 내지 제 26 항 중 어느 한 항에 있어서,
    인핸스먼트 계층(enhancement layer) 내의 적어도 하나의 인트라 랜덤 액세스 지점 픽처를 상기 제 1 비디오 표현으로부터 디코딩하는 단계를 추가로 포함하는
    방법.
  • 제 22 항 내지 제 27 항 중 어느 한 항에 있어서,
    컨테이너 포맷(container format)의 제 1 트랙 식별자를 상기 인핸스먼트 계층 내의 상기 적어도 하나의 인트라 랜덤 액세스 지점 픽처와 연계시키는 단계;
    상기 컨테이너 포맷의 제 1 트랙 식별자를 상기 제 2 비디오 표현과 연계시키는 단계를 추가로 포함하는
    방법.
  • 적어도 하나의 프로세서 및 적어도 하나의 메모리를 포함하는 장치로서,
    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 적어도 하나의 메모리에 저장된 코드가, 장치로 하여금 적어도:
    미디어 프레젠테이션 설명으로부터, 적어도 2개의 표현에 대한 메타데이터를 파싱하는 것;
    상기 미디어 프레젠테이션 설명으로부터, 상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을 파싱하는 것을 수행하게 하는
    장치.
  • 제 29 항에 있어서,
    상기 하나 이상의 특성은:
    - 상기 시퀀스가 준수하는 코덱들 또는 코딩 포맷들;
    - 상기 시퀀스가 준수하는 적합성 지점;
    - 상기 시퀀스의 디코딩시에 목표 출력 계층 세트 인덱스로서 사용될 수 있는 출력 계층 세트 인덱스;
    - 상기 시퀀스의 디코딩시에 사용될 수 있는 최상위 시간적 부-계층 식별자;
    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 인트라 랜덤 액세스 지점 픽처임;
    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 예측 에러가 코딩되지 않은 인트라 랜덤 액세스 지점 픽처임;
    - 상기 시퀀스에 포함된 계층 식별자 값들;
    - 상기 시퀀스에 포함된 필수 계층들의 계층 식별자 값들;
    - 상기 시퀀스에 포함된 출력 계층들의 계층 식별자 값들;
    - 상기 시퀀스에 의해 표현된 대안적인 출력 계층들에 대한 정보;
    - 상기 시퀀스의 디코딩시에 활성화될 수 있는 비디오 파라미터 세트(들);
    - 상기 시퀀스의 디코딩시에 활성화될 수 있는, 시퀀스 파라미터 세트들 및/또는 픽처 파라미터 세트들과 같은 기타 파라미터 세트(들);
    - 상기 시퀀스에 포함된 계층들에 대한 스케일러빌리티 식별자 값들;
    - 상기 시퀀스의 디코딩을 위해 요구 또는 제안된 묵시적 참조 픽처 리샘플링과 관련된 정보
    의 임의의 서브세트를 포함하는
    장치.
  • 제 29 항 또는 제 30 항에 있어서,
    상기 장치는:
    부가적인 구조로부터 상기 하나 이상의 특성을 파싱하는 것을 추가로 수행하게 되는
    장치.
  • 제 29 항, 제 30 항 또는 제 31 항에 있어서,
    상기 장치는:
    상기 하나 이상의 특성과 연관되는,
    - 상기 하나 이상의 특성이 비-중첩 연속 세그먼트들의 시퀀스, 비-중첩 연속 서브세그먼트들의 시퀀스, 또는 둘 모두에 적용되는지를 지시하는 정보와,
    - 표현들의 세트 중에서 상기 적어도 2개의 표현의 식별
    중의 하나 또는 두 부분을 파싱하는 것을 추가로 수행하게 되는
    장치.

  • 제 29 항 내지 제 32 항 중 어느 한 항에 있어서,
    상기 장치는:
    적어도 2개의 표현 중 제 1 비디오 표현의 제 1 부분을 디코딩하는 것;
    상기 적어도 2개의 표현 중 제 2 비디오 표현을 디코딩하는 것을 추가로 수행하게 되고,
    상기 디코딩된 제 2 표현은 상기 제 1 디코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 하나 이상의 특성은 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 하나 이상의 처리된 디코딩된 픽처들을 예측을 위한 하나 이상의 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하는
    장치.
  • 제 29 항 내지 제 33 항 중 어느 한 항에 있어서,
    장기 장치는:
    인핸스먼트 계층 내의 적어도 하나의 인트라 랜덤 액세스 지점 픽처를 상기 제 1 비디오 표현으로부터 디코딩하는 것을 추가로 수행하게 되는
    장치.
  • 제 29 항 내지 제 34 항 중 어느 한 항에 있어서,
    상기 장치는:
    컨테이너 포맷의 제 1 트랙 식별자를 상기 인핸스먼트 계층 내의 상기 적어도 하나의 인트라 랜덤 액세스 지점 픽처와 연계시키는 것;
    상기 컨테이너 포맷의 제 1 트랙 식별자를 상기 제 2 비디오 표현과 연계시키는 것을 추가로 수행하게 되는
    장치.
  • 장치에 의한 사용을 위해 코드가 저장된 컴퓨터 판독가능 스토리지 매체로서,
    프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금:
    미디어 프레젠테이션 설명으로부터, 적어도 2개의 표현에 대한 메타데이터를 파싱하는 것;
    상기 미디어 프레젠테이션 설명으로부터, 상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을 파싱하는 것을 수행하게 하는
    컴퓨터 판독가능 스토리지 매체.
  • 이미지 시퀀스를 포함하는 비트스트림을 디코딩하도록 구성된 비디오 디코더를 포함하는 장치로서,
    상기 비디오 디코더는,
    미디어 프레젠테이션 설명으로부터, 적어도 2개의 표현에 대한 메타데이터를 파싱하는 수단;
    상기 미디어 프레젠테이션 설명으로부터, 상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을 파싱하는 수단을 포함하는
    장치.
  • 이미지 시퀀스를 포함하는 비트스트림을 디코딩하도록 구성된 비디오 디코더로서,
    상기 비디오 디코더는:
    미디어 프레젠테이션 설명으로부터, 적어도 2개의 표현에 대한 메타데이터를 파싱하고;
    상기 미디어 프레젠테이션 설명으로부터, 상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을 파싱하도록 추가로 구성되는
    비디오 디코더.
  • 방법으로서,
    적어도 2개의 표현에 대한 메타데이터를, 미디어 프레젠테이션 설명에 제공하는 단계;
    상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을, 상기 미디어 프레젠테이션 설명에 제공하는 단계를 포함하는
    방법.
  • 제 39 항에 있어서,
    상기 하나 이상의 특성은:
    - 상기 시퀀스가 준수하는 코덱들 또는 코딩 포맷들;
    - 상기 시퀀스가 준수하는 적합성 지점;
    - 상기 시퀀스의 디코딩시에 목표 출력 계층 세트 인덱스로서 사용될 수 있는 출력 계층 세트 인덱스;
    - 상기 시퀀스의 디코딩시에 사용될 수 있는 최상위 시간적 부-계층 식별자;
    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 인트라 랜덤 액세스 지점 픽처임;
    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 예측 에러가 코딩되지 않은 인트라 랜덤 액세스 지점 픽처임;
    - 상기 시퀀스에 포함된 계층 식별자 값들;
    - 상기 시퀀스에 포함된 필수 계층들의 계층 식별자 값들;
    - 상기 시퀀스에 포함된 출력 계층들의 계층 식별자 값들;
    - 상기 시퀀스에 의해 표현된 대안적인 출력 계층들에 대한 정보;
    - 상기 시퀀스의 디코딩시에 활성화될 수 있는 비디오 파라미터 세트(들);
    - 상기 시퀀스의 디코딩시에 활성화될 수 있는, 시퀀스 파라미터 세트들 및/또는 픽처 파라미터 세트들과 같은 기타 파라미터 세트(들);
    - 상기 시퀀스에 포함된 계층들에 대한 스케일러빌리티 식별자 값들;
    - 상기 시퀀스의 디코딩을 위해 요구 또는 제안된 묵시적 참조 픽처 리샘플링과 관련된 정보
    의 임의의 서브세트를 포함하는
    방법.
  • 제 39 항 또는 제 40 항에 있어서,
    상기 미디어 프레젠테이션 설명의 파싱시에 파싱될 필요가 없는 부가적인 구조에 상기 하나 이상의 특성을 제공하는 단계를 추가로 포함하는
    방법.
  • 제 39 항, 제 40 항 또는 제 41 항에 있어서,
    상기 하나 이상의 특성과 연관되는,
    - 상기 하나 이상의 특성이 비-중첩 연속 세그먼트들의 시퀀스, 비-중첩 연속 서브세그먼트들의 시퀀스, 또는 둘 모두에 적용되는지를 지시하는 정보와,
    - 표현들의 세트 중에서 상기 적어도 2개의 표현의 식별
    중의 정보의 하나 또는 두 부분을 제공하는 단계를 추가로 포함하는
    방법.
  • 제 39 항 내지 제 42 항 중 어느 한 항에 있어서,
    적어도 2개의 표현 중 제 1 비디오 표현의 제 1 부분을 인코딩하는 단계;
    상기 적어도 2개의 표현 중 제 2 비디오 표현을 인코딩하는 단계를 추가로 포함하고,
    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하는
    방법.
  • 제 39 항 내지 제 43 항 중 어느 한 항에 있어서,
    인핸스먼트 계층 내의 적어도 하나의 인트라 랜덤 액세스 지점 픽처를 상기 제 1 비디오 표현으로 인코딩하는 단계를 추가로 포함하는
    방법.
  • 제 39 항 내지 제 44 항 중 어느 한 항에 있어서,
    컨테이너 포맷의 제 1 트랙 식별자를 상기 인핸스먼트 계층 내의 상기 적어도 하나의 인트라 랜덤 액세스 지점 픽처와 연계시키는 단계;
    상기 컨테이너 포맷의 제 1 트랙 식별자를 상기 제 2 비디오 표현과 연계시키는 단계를 추가로 포함하는
    방법.

  • 제 39 항 내지 제 45 항 중 어느 한 항에 있어서,
    인핸스먼트 계층 내의 상기 적어도 하나의 인트라 랜덤 액세스 지점 픽처는 스킵 픽처(skip picture)인
    방법.
  • 적어도 하나의 프로세서 및 적어도 하나의 메모리를 포함하는 장치로서,
    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 적어도 하나의 메모리에 저장된 코드가, 장치로 하여금 적어도:
    적어도 2개의 표현에 대한 메타데이터를, 미디어 프레젠테이션 설명에 제공하는 것;
    상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을, 상기 미디어 프레젠테이션 설명에 제공하는 것을 수행하게 하는
    장치.
  • 제 47 항에 있어서,
    상기 하나 이상의 특성은:
    - 상기 시퀀스가 준수하는 코덱들 또는 코딩 포맷들;
    - 상기 시퀀스가 준수하는 적합성 지점;
    - 상기 시퀀스의 디코딩시에 목표 출력 계층 세트 인덱스로서 사용될 수 있는 출력 계층 세트 인덱스;
    - 상기 시퀀스의 디코딩시에 사용될 수 있는 최상위 시간적 부-계층 식별자;
    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 인트라 랜덤 액세스 지점 픽처임;
    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 예측 에러가 코딩되지 않은 인트라 랜덤 액세스 지점 픽처임;
    - 상기 시퀀스에 포함된 계층 식별자 값들;
    - 상기 시퀀스에 포함된 필수 계층들의 계층 식별자 값들;
    - 상기 시퀀스에 포함된 출력 계층들의 계층 식별자 값들;
    - 상기 시퀀스에 의해 표현된 대안적인 출력 계층들에 대한 정보;
    - 상기 시퀀스의 디코딩시에 활성화될 수 있는 비디오 파라미터 세트(들);
    - 상기 시퀀스의 디코딩시에 활성화될 수 있는, 시퀀스 파라미터 세트들 및/또는 픽처 파라미터 세트들과 같은 기타 파라미터 세트(들);
    - 상기 시퀀스에 포함된 계층들에 대한 스케일러빌리티 식별자 값들;
    - 상기 시퀀스의 디코딩을 위해 요구 또는 제안된 묵시적 참조 픽처 리샘플링과 관련된 정보
    의 임의의 서브세트를 포함하는
    장치.
  • 제 47 항 또는 제 48 항에 있어서,
    상기 장치는:
    상기 미디어 프레젠테이션 설명의 파싱시에 파싱될 필요가 없는 부가적인 구조에 상기 하나 이상의 특성을 제공하는 것을 추가로 수행하게 되는
    장치.
  • 제 47 항, 제 48 항 또는 제 49 항에 있어서,
    상기 장치는:
    상기 하나 이상의 특성과 연관되는,
    - 상기 하나 이상의 특성이 비-중첩 연속 세그먼트들의 시퀀스, 비-중첩 연속 서브세그먼트들의 시퀀스, 또는 둘 모두에 적용되는지를 지시하는 정보와,
    - 표현들의 세트 중에서 상기 적어도 2개의 표현의 식별
    중의 정보의 하나 또는 두 부분을 제공하는 것을 추가로 수행하게 되는
    장치.
  • 제 47 항 내지 제 50 항 중 어느 한 항에 있어서,
    상기 장치는:
    적어도 2개의 표현 중 제 1 비디오 표현의 제 1 부분을 인코딩하는 것;
    상기 적어도 2개의 표현 중 제 2 비디오 표현을 인코딩하는 것을 추가로 수행하게 되고;
    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하는
    장치.
  • 제 47 항 내지 제 51 항 중 어느 한 항에 있어서,
    상기 장치는:
    인핸스먼트 계층 내의 적어도 하나의 인트라 랜덤 액세스 지점 픽처를 상기 제 1 비디오 표현으로 인코딩하는 것을 추가로 수행하게 되는
    장치.
  • 제 47 항 내지 제 52 항 중 어느 한 항에 있어서,
    상기 장치는:
    컨테이너 포맷의 제 1 트랙 식별자를 상기 인핸스먼트 계층 내의 상기 적어도 하나의 인트라 랜덤 액세스 지점 픽처와 연계시키는 것;
    상기 컨테이너 포맷의 제 1 트랙 식별자를 상기 제 2 비디오 표현과 연계시키는 것을 추가로 수행하게 되는
    장치.
  • 제 47 항 내지 제 53 항 중 어느 한 항에 있어서,
    인핸스먼트 계층 내의 상기 적어도 하나의 인트라 랜덤 액세스 지점 픽처는 스킵 픽처인
    장치.
  • 장치에 의한 사용을 위해 코드가 저장된 컴퓨터 판독가능 스토리지 매체로서,
    프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금:
    적어도 2개의 표현에 대한 메타데이터를, 미디어 프레젠테이션 설명에 제공하는 것;
    상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을, 상기 미디어 프레젠테이션 설명에 제공하는 것을 수행하게 하는
    컴퓨터 판독가능 스토리지 매체.
  • 제 55 항에 있어서,
    상기 하나 이상의 특성은:
    - 상기 시퀀스가 준수하는 코덱들 또는 코딩 포맷들;
    - 상기 시퀀스가 준수하는 적합성 지점;
    - 상기 시퀀스의 디코딩시에 목표 출력 계층 세트 인덱스로서 사용될 수 있는 출력 계층 세트 인덱스;
    - 상기 시퀀스의 디코딩시에 사용될 수 있는 최상위 시간적 부-계층 식별자;
    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 인트라 랜덤 액세스 지점 픽처임;
    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 예측 에러가 코딩되지 않은 인트라 랜덤 액세스 지점 픽처임;
    - 상기 시퀀스에 포함된 계층 식별자 값들;
    - 상기 시퀀스에 포함된 필수 계층들의 계층 식별자 값들;
    - 상기 시퀀스에 포함된 출력 계층들의 계층 식별자 값들;
    - 상기 시퀀스에 의해 표현된 대안적인 출력 계층들에 대한 정보;
    - 상기 시퀀스의 디코딩시에 활성화될 수 있는 비디오 파라미터 세트(들);
    - 상기 시퀀스의 디코딩시에 활성화될 수 있는, 시퀀스 파라미터 세트들 및/또는 픽처 파라미터 세트들과 같은 기타 파라미터 세트(들);
    - 상기 시퀀스에 포함된 계층들에 대한 스케일러빌리티 식별자 값들;
    - 상기 시퀀스의 디코딩을 위해 요구 또는 제안된 묵시적 참조 픽처 리샘플링과 관련된 정보
    의 임의의 서브세트를 포함하는
    컴퓨터 판독가능 스토리지 매체.
  • 제 55 항 또는 제 56 항에 있어서,
    상기 장치는:
    상기 미디어 프레젠테이션 설명의 파싱시에 파싱될 필요가 없는 부가적인 구조에 상기 하나 이상의 특성을 제공하는 것을 추가로 수행하게 되는
    컴퓨터 판독가능 스토리지 매체.
  • 제 55 항, 제 56 항 또는 제 57 항에 있어서,
    상기 장치는:
    상기 하나 이상의 특성과 연관되는,
    - 상기 하나 이상의 특성이 비-중첩 연속 세그먼트들의 시퀀스, 비-중첩 연속 서브세그먼트들의 시퀀스, 또는 둘 모두에 적용되는지를 지시하는 정보와,
    - 표현들의 세트 중에서 상기 적어도 2개의 표현의 식별
    중의 정보의 하나 또는 두 부분을 제공하는 것을 추가로 수행하게 되는
    컴퓨터 판독가능 스토리지 매체.
  • 제 55 항 내지 제 58 항 중 어느 한 항에 있어서,
    상기 장치는:
    적어도 2개의 표현 중 제 1 비디오 표현의 제 1 부분을 인코딩하는 것;
    상기 적어도 2개의 표현 중 제 2 비디오 표현을 인코딩하는 것을 추가로 수행하게 되고;
    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하는
    컴퓨터 판독가능 스토리지 매체.
  • 제 55 항 내지 제 59 항 중 어느 한 항에 있어서,
    상기 장치는:
    인핸스먼트 계층 내의 적어도 하나의 인트라 랜덤 액세스 지점 픽처를 상기 제 1 비디오 표현으로 인코딩하는 것을 추가로 수행하게 되는
    컴퓨터 판독가능 스토리지 매체.
  • 제 55 항 내지 제 60 항 중 어느 한 항에 있어서,
    상기 장치는:
    컨테이너 포맷의 제 1 트랙 식별자를 상기 인핸스먼트 계층 내의 상기 적어도 하나의 인트라 랜덤 액세스 지점 픽처와 연계시키는 것;
    상기 컨테이너 포맷의 제 1 트랙 식별자를 상기 제 2 비디오 표현과 연계시키는 것을 추가로 수행하게 되는
    컴퓨터 판독가능 스토리지 매체.

  • 제 55 항 내지 제 61 항 중 어느 한 항에 있어서,
    인핸스먼트 계층 내의 상기 적어도 하나의 인트라 랜덤 액세스 지점 픽처는 스킵 픽처인
    컴퓨터 판독가능 스토리지 매체.
  • 이미지 시퀀스를 포함하는 비트스트림을 인코딩하도록 구성된 비디오 인코더를 포함하는 장치로서,
    상기 비디오 인코더는,
    적어도 2개의 표현에 대한 메타데이터를, 미디어 프레젠테이션 설명에 제공하는 수단;
    상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을, 상기 미디어 프레젠테이션 설명에 제공하는 수단을 포함하는
    장치.
  • 이미지 시퀀스를 포함하는 비트스트림을 인코딩하도록 구성된 비디오 인코더로서,
    상기 비디오 인코더는,
    적어도 2개의 표현에 대한 메타데이터를, 미디어 프레젠테이션 설명에 제공하고;
    상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을, 상기 미디어 프레젠테이션 설명에 제공하도록 추가로 구성되는
    비디오 인코더.
  • 방법으로서,
    제 1 표현으로서 픽처 데이터 유닛(picture data units)을 포함하는 비트스트림을 수신하는 단계;
    제 1 스위칭 지점에서 상기 제 1 표현의 전송을 중단하도록 결정하는 단계;
    상기 제 1 표현에 대한 픽처 데이터 유닛을 상기 제 1 스위칭 지점까지 전송하는 단계를 포함하고,
    상기 픽처 데이터 유닛은 상기 제 1 스위칭 지점 이후에 제 2 비디오 표현의 제 2 부분의 디코딩시에 예측을 위한 참조로서 이용하기에 적합한 적어도 하나의 데이터 유닛을 포함하는
    방법.
  • 적어도 하나의 프로세서 및 적어도 하나의 메모리를 포함하는 장치로서,
    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 적어도 하나의 메모리에 저장된 코드가, 장치로 하여금 적어도:
    제 1 표현으로서 픽처 데이터 유닛을 포함하는 비트스트림을 수신하는 것;
    제 1 스위칭 지점에서 상기 제 1 표현의 전송을 중단하도록 결정하는 것;
    상기 제 1 표현에 대한 픽처 데이터 유닛을 상기 제 1 스위칭 지점까지 전송하는 것을 수행하게 하고,
    상기 픽처 데이터 유닛은 상기 제 1 스위칭 지점 이후에 제 2 비디오 표현의 제 2 부분의 디코딩시에 예측을 위한 참조로서 이용하기에 적합한 적어도 하나의 데이터 유닛을 포함하는
    장치.
  • 장치에 의한 사용을 위해 코드가 저장된 컴퓨터 판독가능 스토리지 매체로서, 프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금:
    제 1 표현으로서 픽처 데이터 유닛을 포함하는 비트스트림을 수신하는 것;
    제 1 스위칭 지점에서 상기 제 1 표현의 전송을 중단하도록 결정하는 것;
    상기 제 1 표현에 대한 픽처 데이터 유닛을 상기 제 1 스위칭 지점까지 전송하는 것을 수행하게 하고,
    상기 픽처 데이터 유닛은 상기 제 1 스위칭 지점 이후에 제 2 비디오 표현의 제 2 부분의 디코딩시에 예측을 위한 참조로서 이용하기에 적합한 적어도 하나의 데이터 유닛을 포함하는
    컴퓨터 판독가능 스토리지 매체.
  • 说明书全文

    스케일러블 비디오 코딩 및 디코딩을 위한 계층 간 예측

    본 발명은 비디오 코딩 및 디코딩을 위한 장치, 방법, 및 컴퓨터 프로그램에 관한 것이다.

    이 섹션은 청구항들에서 인용되는 본 발명에 대한 배경 또는 맥락을 제공하려는 것이다. 본 명세서에서의 설명은 수행될 수 있는 개념을 포함할 수 있지만, 반드시 이전에 구상되었거나 또는 수행되었던 개념은 아니다. 따라서, 본 명세서에서 달리 언급하지 않는 한, 이 섹션에서 기술되는 것은 본원의 상세한 설명 및 청구항들에 대한 선행 기술이 아니며, 이 섹션에 포함하는 것에 의해 선행 기술로 되는 것도 아니다.

    스케일러블 비디오 코딩(scalable video coding)은 하나의 비트스트림이 콘텐츠의 다중 표현을 상이한 비트레이트들, 해상도들 또는 프레임 레이트들로 포함할 수 있는 코딩 구조를 의미한다. 이들 경우에 있어서는, 수신기가 그 특성에 따라 바람직한 표현을 추출할 수 있다. 대안으로서, 서버 또는 네트워크 요소가, 예컨대 네트워크 특성 또는 수신기의 처리 능력에 따라 수신기에 송신될 비트스트림의 부분들을 추출할 수 있다. 스케일러블 비트스트림은, 통상적으로 최하위 품질 비디오 가용성을 제공하는 베이스 계층(base layer)과, 하위 계층들과 함께 수신 및 디코딩시에 비디오 품질을 향상시키는 하나 이상의 인핸스먼트 계층(enhancement layer)들로 구성된다. 인핸스먼트 계층들의 코딩 효율을 개선하기 위해, 해당 계층의 코딩된 표현은 하위 계층들에 의존하는 것이 일반적이다.

    스트리밍 세션 동안 상이한 품질들 및 해상도들 사이에서의 클라이언트 스위칭(client switching)을 지원하기 위해서는, 세그먼트 경계들에서 인코딩된 랜덤 액세스 지점(random access point; 임의 접근 지점) 픽처들이 이용될 수 있다. 종래에는, 소위 폐쇄형 픽처 그룹(group of pictures (GOP)) 예측 구조를 개시하는 순간적 디코딩 리프레시(instantaneous decoding refresh (IDR)) 픽처와 같은 순간적 랜덤 액세스 지점(random access point (RAP)(임의 접근 지점))만이 HTTP(DASH) 표현을 통한 동적 적응형 스트리밍의 세그먼트 경계들에서 이용되고 있다. H.265/HEVC에서 개방형 GOP를 시작하는 인트라 픽처(intra pictures), 예컨대 클린 랜덤 액세스(clean random access (CRA)) 픽처의 이용은, CRA 픽처에서 시작하는 디코딩 프로세스가 표준으로 지정되어 있다는 점에서, 과거의 표준에 비해 H.265/HEVC에서 개선되어 있다. 디코딩이 CRA 픽처에서 시작하면, 디코딩 순서에 있어서는 CRA 픽처에 후속하지만 출력 순서에 있어서는 CRA 픽처에 선행하는 랜덤 액세스 스킵드 리딩(random access skipped leading (RASL)) 픽처라고 하는 일부 픽처들이 디코딩되지 않을 수 있다. 결과적으로, DASH에서의 세그먼트 경계들에서 개방형 GOP가 사용되었을 경우에는, 표현 스위칭(representation switching)이 RASL 픽처를 디코딩할 수 없게 되어서 재생시에 픽처 레이트 글리치(glitch)가 발생할 수 있다. 예컨대, 8개의 픽처로 이루어진 예측 계층구성이 사용되었고 픽처 레이트가 25 Hz였을 경우에, 비디오는 약 1/3초 동안 멈추게 된다.

    이제, 상기 문제점들을 적어도 완화하기 위해, 본 명세서에서는 스킵 픽처(skip pictures)를 인코딩 및 디코딩하는 방법을 소개한다.

    제 1 실시예에 따른 방법은,

    제 1 코딩된 비디오 표현(first coded video representation)의 제 1 부분을 디코딩하는 단계;

    제 2 코딩된 비디오 표현(second coded video representation)의 디코딩에 대한 정보를 수신 및 파싱(parsing)하는 단계를 포함하고,

    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷(chroma format), 샘플 비트 깊이(sample bit depth), 컬러 영역(color gamut), 공간 해상도(spatial resolution) 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들(processed decoded pictures)을 예측에 이용될 수 있는 참조 픽처(reference picture)로서 이용해서 디코딩될 수 있는지를 지시하고;

    상기 정보가, 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측을 위한 참조로서 이용해서 디코딩될 수 있다고 지시하면,

    상기 방법은:

    상기 제 1 부분의 하나 이상의 디코딩된 픽처를 하나 이상의 처리된 디코딩된 픽처로 처리하는 단계― 상기 처리는 리샘플링(resampling) 및 샘플 값 스케일링(sample value scaling) 중 하나 또는 둘 모두를 포함함 ―; 및

    상기 하나 이상의 처리된 디코딩된 픽처를 예측에 이용될 수 있는 참조 픽처로서 이용해서 제 2 비디오 표현의 제 2 부분을 디코딩하는 단계를 추가로 포함한다.

    제 2 실시예에 따른 장치는,

    적어도 하나의 프로세서 및 적어도 하나의 메모리를 포함하고,

    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 적어도 하나의 메모리에 저장된 코드가, 장치로 하여금 적어도:

    제 1 코딩된 비디오 표현의 제 1 부분을 디코딩하는 것;

    제 2 코딩된 비디오 표현의 디코딩에 대한 정보를 수신 및 파싱하는 것을 수행하게 하고,

    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하고;

    상기 정보가, 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측을 위한 참조로서 이용해서 디코딩될 수 있다고 지시하면,

    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금 적어도:

    상기 제 1 부분의 하나 이상의 디코딩된 픽처를 하나 이상의 처리된 디코딩된 픽처로 처리하는 것― 상기 처리는 리샘플링 및 샘플 값 스케일링 중 하나 또는 둘 모두를 포함함 ―; 및

    상기 하나 이상의 처리된 디코딩된 픽처를 예측에 이용될 수 있는 참조 픽처로서 이용해서 제 2 비디오 표현의 제 2 부분을 디코딩하는 것을 추가로 수행하게 한다.

    제 3 실시예에 따르면, 장치에 의한 사용을 위해 코드가 저장된 컴퓨터 판독가능 스토리지 매체가 제공되고,

    프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금:

    제 1 코딩된 비디오 표현의 제 1 부분을 디코딩하는 것;

    제 2 코딩된 비디오 표현의 디코딩에 대한 정보를 수신 및 파싱하는 것을 수행하게 하고,

    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하고;

    상기 정보가, 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측을 위한 참조로서 이용해서 디코딩될 수 있다고 지시하면,

    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금 적어도:

    상기 제 1 부분의 하나 이상의 디코딩된 픽처를 하나 이상의 처리된 디코딩된 픽처로 처리하는 것― 상기 처리는 리샘플링 및 샘플 값 스케일링 중 하나 또는 둘 모두를 포함함 ―; 및

    상기 하나 이상의 처리된 디코딩된 픽처를 예측에 이용될 수 있는 참조 픽처로서 이용해서 제 2 비디오 표현의 제 2 부분을 디코딩하는 것을 추가로 수행하게 한다.

    제 4 실시예에 따르면, 이미지 시퀀스(image sequence)를 포함하는 비트스트림을 디코딩하도록 구성된 비디오 디코더를 포함하는 장치가 제공되고,

    상기 비디오 디코더는:

    제 1 코딩된 비디오 표현의 제 1 부분을 디코딩하는 수단;

    제 2 코딩된 비디오 표현의 디코딩에 대한 정보를 수신 및 파싱하는 수단을 포함하고,

    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하고;

    상기 장치는:

    상기 정보가, 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측을 위한 참조로서 이용해서 디코딩될 수 있다고 지시하면, 상기 제 1 부분의 하나 이상의 디코딩된 픽처를 하나 이상의 처리된 디코딩된 픽처로 처리하는 수단― 상기 처리는 리샘플링 및 샘플 값 스케일링 중 하나 또는 둘 모두를 포함함 ―; 및

    상기 하나 이상의 처리된 디코딩된 픽처를 예측에 이용될 수 있는 참조 픽처로서 이용해서 제 2 비디오 표현의 제 2 부분을 디코딩하는 수단을 추가로 포함한다.

    제 5 실시예에 따르면, 이미지 시퀀스를 포함하는 비트스트림을 디코딩하도록 구성된 비디오 디코더가 제공되고,

    상기 비디오 디코더는:

    제 1 코딩된 비디오 표현의 제 1 부분을 디코딩하고;

    제 2 코딩된 비디오 표현의 디코딩에 대한 정보를 수신 및 파싱하도록 추가로 구성되고,

    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하고;

    상기 정보가, 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측을 위한 참조로서 이용해서 디코딩될 수 있다고 지시하면,

    상기 방법은:

    상기 제 1 부분의 하나 이상의 디코딩된 픽처를 하나 이상의 처리된 디코딩된 픽처로 처리하는 것― 상기 처리는 리샘플링 및 샘플 값 스케일링 중 하나 또는 둘 모두를 포함함 ―; 및

    상기 하나 이상의 처리된 디코딩된 픽처를 예측에 이용될 수 있는 참조 픽처로서 이용해서 제 2 비디오 표현의 제 2 부분을 디코딩하는 것을 추가로 포함한다.

    제 6 실시예에 따른 방법은,

    미디어 프레젠테이션 설명으로부터, 적어도 2개의 표현에 대한 메타데이터를 파싱하는 단계;

    상기 미디어 프레젠테이션 설명으로부터, 상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스(a sequence of non-overlapping consecutive segments or subsegments)를 디코딩하기 위해 하나 이상의 특성을 파싱하는 단계를 포함한다.

    제 7 실시예에 따른 장치는,

    적어도 하나의 프로세서 및 적어도 하나의 메모리를 포함하고,

    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 적어도 하나의 메모리에 저장된 코드가, 장치로 하여금 적어도:

    미디어 프레젠테이션 설명으로부터, 적어도 2개의 표현에 대한 메타데이터를 파싱하는 것;

    상기 미디어 프레젠테이션 설명으로부터, 상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을 파싱하는 것을 수행하게 한다.

    제 8 실시예에 따르면, 장치에 의한 사용을 위해 코드가 저장된 컴퓨터 판독가능 스토리지 매체가 제공되고,

    프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금:

    미디어 프레젠테이션 설명으로부터, 적어도 2개의 표현에 대한 메타데이터를 파싱하는 것;

    상기 미디어 프레젠테이션 설명으로부터, 상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을 파싱하는 것을 수행하게 한다.

    제 9 실시예에 따르면, 이미지 시퀀스를 포함하는 비트스트림을 디코딩하도록 구성된 비디오 인코더를 포함하는 장치가 제공되고,

    상기 비디오 인코더는,

    미디어 프레젠테이션 설명으로부터, 적어도 2개의 표현에 대한 메타데이터를 파싱하는 수단;

    상기 미디어 프레젠테이션 설명으로부터, 상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을 파싱하는 수단을 포함한다.

    제 10 실시예에 따르면, 이미지 시퀀스를 포함하는 비트스트림을 디코딩하도록 구성된 비디오 인코더가 제공되고,

    상기 비디오 인코더는:

    미디어 프레젠테이션 설명으로부터, 적어도 2개의 표현에 대한 메타데이터를 파싱하고;

    상기 미디어 프레젠테이션 설명으로부터, 상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을 파싱하도록 추가로 구성된다.

    제 11 실시예에 따른 방법은,

    적어도 2개의 표현에 대한 메타데이터를, 미디어 프레젠테이션 설명에 제공하는 단계;

    상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을, 상기 미디어 프레젠테이션 설명에 제공하는 단계를 포함한다.

    제 12 실시예에 따른 장치는,

    적어도 하나의 프로세서 및 적어도 하나의 메모리를 포함하고,

    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 적어도 하나의 메모리에 저장된 코드가, 장치로 하여금 적어도:

    적어도 2개의 표현에 대한 메타데이터를, 미디어 프레젠테이션 설명에 제공하는 것;

    상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을, 상기 미디어 프레젠테이션 설명에 제공하는 것을 수행하게 한다.

    제 13 실시예에 따르면, 장치에 의한 사용을 위해 코드가 저장된 컴퓨터 판독가능 스토리지 매체가 제공되고,

    프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금:

    적어도 2개의 표현에 대한 메타데이터를, 미디어 프레젠테이션 설명에 제공하는 것;

    상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을, 상기 미디어 프레젠테이션 설명에 제공하는 것을 수행하게 한다.

    제 14 실시예에 따르면, 이미지 시퀀스를 포함하는 비트스트림을 인코딩하도록 구성된 비디오 인코더를 포함하는 장치가 제공되고,

    상기 비디오 인코더는,

    적어도 2개의 표현에 대한 메타데이터를, 미디어 프레젠테이션 설명에 제공하는 수단;

    상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을, 상기 미디어 프레젠테이션 설명에 제공하는 수단을 포함한다.

    제 15 실시예에 따르면, 이미지 시퀀스를 포함하는 비트스트림을 인코딩하도록 구성된 비디오 인코더가 제공되고,

    상기 비디오 인코더는,

    적어도 2개의 표현에 대한 메타데이터를, 미디어 프레젠테이션 설명에 제공하고;

    상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을, 상기 미디어 프레젠테이션 설명에 제공하도록 추가로 구성된다.

    제 16 실시예에 따른 방법은,

    제 1 표현으로서 픽처 데이터 유닛(picture data units)을 포함하는 비트스트림을 수신하는 단계;

    제 1 스위칭 지점에서 상기 제 1 표현의 전송을 중단하도록 결정하는 단계;

    상기 제 1 표현에 대한 픽처 데이터 유닛을 상기 제 1 스위칭 지점까지 전송하는 단계를 포함하고,

    상기 픽처 데이터 유닛은 상기 제 1 스위칭 지점 이후에 제 2 비디오 표현의 제 2 부분의 디코딩시에 예측을 위한 참조로서 이용하기에 적합한 적어도 하나의 데이터 유닛을 포함한다.

    제 17 실시예에 따르면, 적어도 하나의 프로세서 및 적어도 하나의 메모리를 포함하는 장치가 제공되고,

    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 적어도 하나의 메모리에 저장된 코드가, 장치로 하여금 적어도:

    제 1 표현으로서 픽처 데이터 유닛을 포함하는 비트스트림을 수신하는 것;

    제 1 스위칭 지점에서 상기 제 1 표현의 전송을 중단하도록 결정하는 것;

    상기 제 1 표현에 대한 픽처 데이터 유닛을 상기 제 1 스위칭 지점까지 전송하는 것을 수행하게 하고,

    상기 픽처 데이터 유닛은 상기 제 1 스위칭 지점 이후에 제 2 비디오 표현의 제 2 부분의 디코딩시에 예측을 위한 참조로서 이용하기에 적합한 적어도 하나의 데이터 유닛을 포함한다.

    제 18 실시예에 따르면, 장치에 의한 사용을 위해 코드가 저장된 컴퓨터 판독가능 스토리지 매체가 제공되고,

    프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금:

    제 1 표현으로서 픽처 데이터 유닛을 포함하는 비트스트림을 수신하는 것;

    제 1 스위칭 지점에서 상기 제 1 표현의 전송을 중단하도록 결정하는 것;

    상기 제 1 표현에 대한 픽처 데이터 유닛을 상기 제 1 스위칭 지점까지 전송하는 것을 수행하게 하고,

    상기 픽처 데이터 유닛은 상기 제 1 스위칭 지점 이후에 제 2 비디오 표현의 제 2 부분의 디코딩시에 예측을 위한 참조로서 이용하기에 적합한 적어도 하나의 데이터 유닛을 포함한다.

    본 발명의 이해를 돕기 위해, 첨부 도면들을 예시로서 참조하게 될 것이다:
    도 1은 본 발명의 실시예들을 채용하는 전자 디바이스를 개략적으로 도시하고;
    도 2는 본 발명의 실시예들을 채용하는데 적합한 사용자 장비를 개략적으로 도시하고;
    도 3은 무선 및 유선 네트워크 접속을 이용하여 접속된 본 발명의 실시예들을 채용하는 전자 디바이스들을 또한 개략적으로 도시하고;
    도 4는 본 발명의 실시예들을 구현하는데 적합한 인코더를 개략적으로 도시하고;
    도 5는 2개의 타일로 구성되는 픽처의 일 예시를 도시하고;
    도 6은 HTTP 표현을 통한 몇몇 동적 적응형 스트리밍의 몇 가지 상세를 묘사하고;
    도 7은 SP 픽처들이 어떻게 2가지의 상이한 비트스트림간의 스위칭에 이용될 수 있는지에 대한 일 예시를 도시하고;
    도 8a는 리딩 픽처(leading pictures)를 갖는 두 가지 비트스트림의 일 예시를 도시하고;
    도 8b는 하나의 비트스트림에서 다른 비트스트림으로 스위칭하는 동안 리딩 픽처의 디코딩이 생략되는 상황의 일 예시를 나타내고;
    도 8c는 하나의 비트스트림에서 다른 비트스트림으로의 스위칭을 위해 두 가지 비트스트림으로부터의 I 픽처가 수신 및 디코딩되는 상황의 일 예시를 나타내고;
    도 8d는 하나의 비트스트림에서 다른 비트스트림으로 스위칭하는 동안 그 밖의 비트스트림의 리딩 픽처의 디코딩이 생략되는 상황의 일 예시를 나타내고;
    도 8e는 일 실시예에 따라, 하나의 비트스트림에서 다른 비트스트림으로 스위칭하는 동안의 디코딩 동작의 일 예시를 나타내고;
    도 9a는 일 실시예에 따라, 중복 적응형 해상도 변경(redundant adaptive resolution change)을 위한 세그먼트의 인코딩 및 준비의 일 예시를 나타내고;
    도 9b는 일 실시예에 따라, 업-스위칭(up-switching) 동안의 중복 적응형 해상도 변경 방법의 동작을 나타내고;
    도 9c는 일 실시예에 따라, 묵시적 참조 픽처 리샘플링(implicit reference picture resampling) 방법을 위한 세그먼트의 인코딩 및 준비의 일 예시를 나타내고;
    도 9d는 일 실시예에 따라, 업-스위칭 동안의 묵시적 참조 픽처 리샘플링 방법의 동작을 나타내고;
    도 10은 본 발명의 일 실시예에 따른 인코딩 방법의 흐름도를 도시하고;
    도 11은 본 발명의 일 실시예에 따른 디코딩 방법의 흐름도를 도시하고;
    도 12는 본 발명의 실시예들을 구현하는데 적합한 디코더의 개략도를 도시하고;
    도 13은 다양한 실시예들을 구현할 수 있는 예시적인 멀티미디어 통신 시스템의 개략도를 도시한다.

    하기의 내용은, 예컨대 HTTP를 통한 적응형 스트리밍에서 이질적인 비디오 표현들간의 스위칭을 위한 적절한 장치 및 가능한 메커니즘을 더 상세하게 기술한다. 이와 관련하여, 먼저 도 1 및 도 2를 참조하고, 도 1은 본 발명의 일 실시예에 따라 코덱을 포함할 수 있는 예시적인 장치 또는 전자 디바이스(50)의 개략적인 블럭도로서, 예시적인 실시예에 따른 비디오 코딩 시스템의 블럭도를 도시한다. 도 2는 예시적인 실시예에 따른 장치의 레이아웃을 도시한다. 다음으로, 도 1 및 도 2의 요소들을 설명한다.

    전자 디바이스(50)는, 예컨대 무선 통신 시스템의 이동 단말 또는 사용자 장비일 수 있다. 그러나, 본 발명의 실시예들은 인코딩 및 디코딩 또는 인코딩 또는 디코딩 비디오 이미지를 필요로 할 수 있는 임의의 전자 디바이스 또는 장치 내에서 구현될 수 있다는 점을 인식해야 한다.

    장치(50)는 디바이스를 포함 및 보호하는 하우징(30)을 포함할 수 있다. 장치(50)는 액정 디스플레이 형태의 디스플레이(32)를 추가로 포함할 수 있다. 본 발명의 다른 실시예들에 있어서는, 디스플레이가 이미지 또는 비디오를 표시하기에 적합한 임의의 적절한 디스플레이 기술로 될 수 있다. 장치(50)는 키패드(34)를 추가로 포함할 수 있다. 본 발명의 다른 실시예들에 있어서는, 임의의 적절한 데이터 또는 사용자 인터페이스 메커니즘이 채용될 수 있다. 예컨대, 사용자 인터페이스는 가상 키보드로서 구현되거나, 또는 터치식 디스플레이의 일부로서의 데이터 입력 시스템일 수 있다.

    장치는 마이크로폰(36) 또는 디지털 또는 아날로그 신호 입력일 수 있는 임의의 적절한 오디오 입력을 포함할 수 있다. 장치(50)는, 본 발명의 실시예들에 있어서는, 이어피스(earpiece)(38), 스피커, 또는 아날로그 오디오 또는 디지털 오디오 출력 접속부 중 어느 하나일 수 있는 오디오 출력 디바이스를 추가로 포함할 수 있다. 장치(50)는 배터리(40)를 또한 포함할 수 있다(또는 본 발명의 다른 실시예들에 있어서는, 디바이스가 태양 전지, 연료 전지 또는 시계태엽식 발전기와 같은 임의의 적절한 이동식 에너지 장치에 의해 급전될 수 있음). 장치는 이미지 및/또는 비디오를 기록 또는 캡처할 수 있는 카메라(42)를 추가로 포함할 수 있다. 장치(50)는 다른 장치들에 대한 단거리 가시선 통신을 위한 적외선 포트를 추가로 포함할 수 있다. 그 밖의 실시예들에 있어서, 장치(50)는 예컨대 블루투스 무선 접속 또는 USB/파이어와이어 유선 접속과 같은 임의의 적절한 단거리 통신 솔루션을 추가로 포함할 수 있다.

    장치(50)는 장치(50)를 제어하기 위한 컨트롤러(56) 또는 프로세서를 포함할 수 있다. 컨트롤러(56)는, 본 발명의 실시예들에 있어서는, 이미지 데이터 및 오디오 데이터 형태의 데이터를 모두 저장할 수 있거나 및/또는 컨트롤러(56) 상에서의 구현을 위한 명령어를 또한 저장할 수 있는 메모리(58)에 접속될 수 있다. 컨트롤러(56)는 오디오 및/또는 비디오 데이터의 코딩 및 디코딩을 수행하기에 적합하거나 및/또는 컨트롤러에 의해 수행된 코딩 및 디코딩을 보조하기에 적합한 코덱 회로(54)에 추가로 접속될 수 있다.

    장치(50)는 카드 판독기(48) 및 스마트 카드(46), 예컨대 사용자 정보를 제공하는 한편, 네트워크에서 사용자의 인증 및 승인을 위한 인증 정보를 제공하기에 적합한 UICC 및 UICC 판독기를 추가로 포함할 수 있다.

    장치(50)는, 예컨대 셀룰러 통신 네트워크, 무선 통신 시스템 또는 무선 로컬 에어리어 네트워크에 의한 통신을 위해 컨트롤러에 접속되고 무선 통신 신호를 생성하기에 적합한 라디오 인터페이스 회로(52)를 포함할 수 있다. 장치(50)는 라디오 인터페이스 회로(52)에서 생성된 라디오 주파수 신호를 다른 장치(들)에 송신하고 다른 장치(들)로부터 라디오 주파수 신호를 수신하기 위해 라디오 인터페이스 회로(52)에 접속되는 안테나(44)를 추가로 포함할 수 있다.

    장치(50)는, 나중에 처리를 위해 코덱(54) 또는 컨트롤러에 전달되게 되는, 개별 프레임들을 기록 또는 검출할 수 있는 카메라를 포함할 수 있다. 장치는 처리를 위한 비디오 이미지 데이터를 송신 및/또는 저장에 앞서 다른 디바이스로부터 수신할 수 있다. 장치(50)는 또한 코딩/디코딩용 이미지를 무선으로 또는 유선 접속에 의해 수신할 수 있다.

    도 3에 대하여, 본 발명의 실시예들이 이용될 수 있는 시스템의 일 예시가 도시된다. 시스템(10)은 하나 이상의 네트워크를 통해 통신할 수 있는 다수의 통신 디바이스를 포함한다. 시스템(10)은, 한정되는 것은 아니지만, 무선 셀룰러폰 네트워크(예를 들면, GSM, UMTS, CDMA 네트워크 등), IEEE 802.x 표준들 중 어느 하나에 의해 규정되는 바와 같은 무선 로컬 에어리어 네트워크(WLAN), 블루투스 퍼스널 에어리어 네트워크, 이더넷 로컬 에어리어 네트워크, 토큰 링 로컬 에어리어 네트워크, 와이드 에어리어 네트워크, 및 인터넷을 포함하는 유선 또는 무선 네트워크들의 임의의 조합을 포함할 수 있다.

    시스템(10)은 본 발명의 실시예들을 구현하기에 적합한 유무선 통신 디바이스 및/또는 장치(50)를 포함할 수 있다.

    예컨대, 도 3에 도시된 시스템은 이동 전화 네트워크(11) 및 인터넷(28)의 표현을 도시한다. 인터넷(28)에 대한 연결성은, 장거리 무선 접속, 단거리 무선 접속, 그리고 한정되는 것은 아니지만, 전화선, 케이블선, 전원선, 및 유사한 통신 경로를 포함하는 다양한 유선 접속을 포함할 수 있지만, 이들에 한정되는 것은 아니다.

    시스템(10)에 도시된 예시적인 통신 디바이스들은, 전자 디바이스 또는 장치(50), 개인 정보 단말기(PDA)와 휴대폰의 조합(14), PDA(16), 통합 메시징 디바이스(IMD)(18), 데스크탑 컴퓨터(20), 노트북 컴퓨터(22)를 포함할 수 있지만, 이들에 한정되는 것은 아니다. 장치(50)는 고정식 장치이거나 또는 움직이고 있는 개개인에 의해 휴대되는 경우의 이동식 장치일 수 있다. 장치(50)는 또한, 한정되는 것은 아니지만, 자동차, 트럭, 택시, 버스, 기차, 보트, 비행기, 자전거, 오토바이를 포함하는 운송 수단 또는 임의의 유사한 적절한 운송 수단에 위치될 수도 있다.

    실시예들은 또한, 셋톱 박스에서, 즉 디스플레이 또는 무선 기능을 갖거나/갖지 않을 수 있는 디지털 TV 수신기에서, 하드웨어 또는 소프트웨어 또는 인코더/디코더 구현예들의 조합을 갖는 태블릿 또는 (랩탑) 개인용 컴퓨터(PC)에서, 다양한 운영 체제에서, 및 하드웨어/소프트웨어 기반 코딩을 제공하는 칩셋, 프로세서, DSP 및/또는 임베디드 시스템에서 구현될 수도 있다.

    몇몇의 또는 추가적인 장치는 호출 및 메시지를 송수신할 수 있으며, 기지국(24)에 대한 무선 접속(25)을 통해 서비스 제공자와 통신할 수 있다. 기지국(24)은 이동 전화 네트워크(11)와 인터넷(28) 사이의 통신을 허용하는 네트워크 서버(26)에 접속될 수 있다. 시스템은 부가적인 통신 디바이스들 및 다양한 유형의 통신 디바이스들을 포함할 수 있다.

    통신 디바이스들은, 한정되는 것은 아니지만, CDMA(code division multiple access), GSM(global systems for mobile communications), UMTS(universal mobile telecommunications system), TDMA(time divisional multiple access), FDMA(frequency division multiple access), TCP-IP(transmission control protocol-internet protocol), SMS(short messaging service), MMS(multimedia messaging service), 이메일(email), IMS(instant messaging service), 블루투스(Bluetooth), IEEE 802.11 및 임의의 유사한 무선 통신 기술을 포함하는 다양한 전송 기술을 이용해서 통신할 수 있다. 본 발명의 다양한 실시예들의 구현에 수반되는 통신 디바이스는, 한정되는 것은 아니지만, 라디오, 적외선, 레이저, 케이블 접속, 및 임의의 적절한 접속을 포함하는 다양한 매체를 이용해서 통신할 수 있다.

    비디오 코덱은 입력 비디오를 저장/전송에 적합한 압축된 표현으로 변환하는 인코더 및 압축된 비디오 표현의 압축을 풀어서 볼 수 있는 형태로 되돌릴 수 있는 디코더로 구성된다. 비디오 인코더 및/또는 비디오 디코더는 서로 분리될 수도 있으며, 즉 코덱을 형성할 필요는 없다. 통상적으로, 인코더는 비디오를 더욱 콤팩트한 형태로(즉, 보다 낮은 비트레이트로) 표현하기 위해 오리지널 비디오 시퀀스에서 일부 정보를 폐기한다.

    통상적인 하이브리드 비디오 인코더, 예컨대 ITU-T H.263 및 H.264의 다수의 인코더 구현예는 비디오 정보를 2가지 위상으로 인코딩한다. 먼저, 특정 픽처 영역(picture area)(또는 "블럭")에서의 픽셀값들이, 예컨대 (코딩된 블럭에 가장 가깝게 대응하는 사전에 코딩된 비디오 프레임들 중 하나에서 영역을 탐색 및 지시하는) 움직임 보상 수단에 의해 또는 (지정된 방식으로 코딩되는 블럭 주위의 픽셀값들을 이용하는) 공간적 수단에 의해 예측된다. 다음으로, 예측 에러, 즉 예측된 픽셀 블럭과 오리지널 픽셀 블럭 사이의 차이가 코딩된다. 이는 지정된 변환(예컨대, 이산 코사인 변환(Discrete Cosine Transform (DCT)) 또는 그 변형)을 이용해서 픽셀값들에 있어서의 차분을 변환하고, 계수를 양자화하고, 양자화된 계수를 엔트로피 코딩함으로써 행해지는 것이 일반적이다. 양자화 프로세스의 적합도를 변경함으로써, 인코더는 픽셀 표현의 정확도(픽처 품질)와 최종 코딩된 비디오 표현의 사이즈(파일 사이즈 또는 전송 비트레이트) 사이의 밸런스를 제어할 수 있다.

    시간적 예측, 움직임 보상, 또는 움직임-보상형 예측으로 인용되기도 하는 인터 예측(inter prediction; 화면 간 예측)은 시간적 중복성을 줄인다. 인터 예측에 있어서, 예측의 소스는 사전에 디코딩된 픽처이다. 인트라 예측(intra prediction; 화면 내 예측)은 동일 픽처 내의 인접 픽셀들이 상관될 가능성이 있다는 점을 이용한다. 인트라 예측은 공간 도메인 또는 변환 도메인에서 수행될 수 있고, 즉 샘플값들 또는 변환 계수들이 예측될 수 있다. 인트라 예측은 통상적으로 인트라 코딩에서 이용되고, 여기서는 인터 예측이 적용되지 않는다.

    코딩 절차의 하나의 결과는 움직임 벡터 및 양자화 변환 계수와 같은 코딩 파라미터들의 세트이다. 다수의 파라미터가 먼저 공간적 또는 시간적으로 이웃하는 파라미터들로부터 예측되면, 이들 파라미터는 더욱 효과적으로 엔트로피 코딩될 수 있다. 예컨대, 움직임 벡터는 공간적으로 인접하는 움직임 벡터들로부터 예측될 수 있고, 움직임 벡터 예측자(predictor)에 관하여 차분만이 코딩될 수 있다. 코딩 파라미터들의 예측 및 인트라 예측은 통칭해서 인-픽처(in-picture) 예측으로 인용될 수 있다.

    도 4는 본 발명의 실시예들을 채용하는데 적합한 비디오 인코더의 블럭도를 도시한다. 도 4는 2 계층용 인코더를 나타내지만, 나타내진 인코더가 2 계층 이상의 계층을 인코딩하도록 유사하게 확장될 수 있다는 점을 인식해야 한다. 도 4는 베이스 계층에 대한 제 1 인코더 섹션(500) 및 인핸스먼트 계층에 대한 제 2 인코더 섹션(502)을 포함하는 비디오 인코더의 실시예를 나타낸다. 제 1 인코더 섹션(500) 및 제 2 인코더 섹션(502) 각각은 유입되는 픽처들을 인코딩하기 위한 유사한 요소들을 포함할 수 있다. 인코더 섹션(500, 502)은 픽셀 예측기(302, 402), 예측 에러 인코더(303, 403) 및 예측 에러 디코더(304, 404)를 포함할 수 있다. 도 4는 또한, 픽셀 예측기(302, 402)의 일 실시예를, 인터-예측기(306, 406), 인트라-예측기(308, 408), 모드 실렉터(310, 410), 필터(316, 416), 및 참조 프레임 메모리(318, 418)를 포함하는 것으로서 도시한다. 제 1 인코더 섹션(500)의 픽셀 예측기(302)는 인코딩될 비디오 스트림의 300개의 베이스 계층 이미지를 인터-예측기(306)(이미지와 움직임 보상된 참조 프레임(318) 사이의 차이를 결정) 및 인트라-예측기(308)(현재 프레임 또는 픽처의 이미 처리된 부분들에만 기초하여 이미지 블럭에 대한 예측을 결정)에서 수신한다. 인터-예측기 및 인트라-예측기의 출력은 모드 실렉터(310)에 전달된다. 인트라-예측기(308)는 하나 이상의 인트라-예측 모드를 가질 수 있다. 이런 이유로, 각각의 모드는 인트라-예측을 수행하고 예측된 신호를 모드 실렉터(310)에 제공할 수 있다. 모드 실렉터(310)는 베이스 계층 픽처(300)의 복제본도 수신한다. 그에 상응하여, 제 2 인코더 섹션(502)의 픽셀 예측기(402)는 인코딩될 비디오 스트림의 400개의 인핸스먼트 계층 이미지를 인터-예측기(406)(이미지와 움직임 보상된 참조 프레임(418) 사이의 차이를 결정) 및 인트라-예측기(408)(현재 프레임 또는 픽처의 이미 처리된 부분들에만 기초하여 이미지 블럭에 대한 예측을 결정)에서 수신한다. 인터-예측기 및 인트라-예측기의 출력은 모드 실렉터(410)에 전달된다. 인트라-예측기(408)는 하나 이상의 인트라-예측 모드를 가질 수 있다. 이런 이유로, 각각의 모드는 인트라-예측을 수행하고 예측된 신호를 모드 실렉터(410)에 제공할 수 있다. 모드 실렉터(410)는 인핸스먼트 계층 픽처(400)의 복제본도 수신한다.

    현재 블럭을 인코딩하기 위해 어떤 인코딩 모드가 선택되는지에 따라, 인터-예측기(306, 406)의 출력 또는 선택적인 인트라-예측기 모드들 중 하나의 출력 또는 모드 실렉터 내의 표면 인코더의 출력은 모드 실렉터(310, 410)의 출력에 전달된다. 모드 실렉터의 출력은 제 1 가산 디바이스(321, 421)에 전달된다. 제 1 가산 디바이스는 픽셀 예측기(302, 402)의 출력을 베이스 계층 픽처(300)/인핸스먼트 계층 픽처(400)로부터 차감해서 예측 에러 인코더(303, 403)에 입력되는 제 1 예측 에러 신호(320, 420)를 생성한다.

    픽셀 예측기(302, 402)는 이미지 블럭(312, 412)의 예측 표현과 예측 에러 디코더(304, 404)의 출력(338, 438)의 조합을 예비 재구성기(339, 439)로부터 추가로 수신한다. 예비 재구성된 이미지(314, 414)는 인트라-예측기(308, 408)에 및 필터(316, 416)에 전달될 수 있다. 예비 표현을 수신하는 필터(316, 416)는 예비 표현을 필터링하고 참조 프레임 메모리(318, 418)에서 세이브될 수 있는 최종 재구성된 이미지(340, 440)를 출력할 수 있다. 참조 프레임 메모리(318)는 인터-예측 동작들에서 장래의 베이스 계층 픽처(300)가 비교되게 되는 참조 이미지로서 이용되도록 인터-예측기(306)에 접속될 수 있다. 베이스 계층이 일부 실시예에 따른 인핸스먼트 계층의 계층 간 샘플 예측 및/또는 계층 간 움직임 정보 예측을 위한 소스로 선택 및 지시됨에 따라, 참조 프레임 메모리(318)는 인터-예측 동작들에서 장래의 인핸스먼트 계층 픽처(400)가 비교되게 되는 참조 이미지로서 이용되도록 인터-예측기(406)에도 접속될 수 있다. 또한, 참조 프레임 메모리(418)는 인터-예측 동작들에서 장래의 인핸스먼트 계층 픽처(400)가 비교되게 되는 참조 이미지로서 이용되도록 인터-예측기(406)에 접속될 수 있다.

    제 1 인코더 섹션(500)의 필터(316)로부터의 필터링 파라미터들은, 베이스 계층이 일부 실시예에 따른 인핸스먼트 계층의 필터링 파라미터들의 예측을 위한 소스로 선택 및 지시됨에 따라, 제 2 인코더 섹션(502)에 제공될 수 있다.

    예측 에러 인코더(303, 403)는 변환 유닛(342, 442) 및 양자화기(344, 444)를 포함한다. 변환 유닛(342, 442)은 변환 도메인에 대하여 제 1 예측 에러 신호(320, 420)를 변환한다. 변환은, 예컨대 DCT 변환이다. 양자화기(344, 444)는 변환 도메인 신호, 예컨대 DCT 계수를 변환해서 양자화 계수를 형성한다.

    예측 에러 디코더(304, 404)는 예측 에러 인코더(303, 403)로부터 출력을 수신하고 예측 에러 인코더(303, 403)의 정반대의 프로세스를 수행해서, 제 2 가산 디바이스(339, 439)에서 이미지 블럭(312, 412)의 예측 표현과의 결합시에 예비 재구성된 이미지(314, 414)를 생성하게 되는, 디코딩된 예측 에러 신호(338, 438)를 생성한다. 예측 에러 디코더는 양자화된 계수 값들, 예컨대 DCT 계수들을 역양자화해서 변환 신호를 재구성하는 역양자화기(361, 461) 및 재구성된 변환 신호에 대한 역변환을 수행하는 역변환 유닛(363, 463)을 포함하는 것으로 간주될 수 있고, 이때 역변환 유닛(363, 463)의 출력은 재구성된 블럭(들)을 포함한다. 예측 에러 디코더는 재구성된 블럭(들)을 추가로 디코딩된 정보 및 필터 파라미터들에 따라 필터링할 수 있는 블럭 필터를 또한 포함할 수 있다.

    엔트로피 디코더(330, 430)는 예측 에러 인코더(303, 403)의 출력을 수신하고, 신호에 대한 적절한 엔트로피 인코딩(entropy encoding)/가변 길이 인코딩(variable length encoding)을 수행해서 에러 검출 및 수정 기능을 제공할 수 있다. 엔트로피 인코더(330, 430)의 출력들은, 예컨대 멀티플렉서(508)에 의해 비트스트림에 삽입될 수 있다.

    어드밴스드 비디오 코딩(Advanced Video Coding (AVC로도 알려져 있는H.264/AVC)) 표준은 ITU-T(Telecommunications Standardization Sector of International Telecommunication Union)의 VCEG(Video Coding Experts Group) 및 ISO(International Organisation for Standardization)/IEC(International Electrotechnical Commission)의 MPEG(Moving Picture Experts Group)의 공동 비디오 팀(Joint Video Team(JVT))에 의해 개발되었다. H.264/AVC 표준은 양 친 표준화 기구에 의해 공개되고, MPEG-4 Part 10 어드밴스드 비디오 코딩(AVC)으로서도 알려져 있는 ITU-T 권고 H.264(ITU-T Recommendation H.264) 및 ISO/IEC 국제 표준 14496-10(ISO/IEC International Standard 14496-10)으로서 인용된다. 새로운 확장규격 또는 특징을 표준명세서에 통합하는 H.264/AVC 표준의 다수의 버전이 존재하고 있다. 이들 확장규격은 스케일러블 비디오 코딩(Scalable Video Coding(SVC)) 및 밀티뷰(다시점) 비디오 코딩(Multiview Video Coding(MVC))를 포함한다.

    고효율 비디오 코딩(High Efficiency Video Coding(HEVC로도 알려져 있는 H.265/HEVC)) 표준의 버전 1은 VCEG 및 MPEG의 공동 협업 팀-비디오 코딩(Joint Collaborative Team - Video Coding (JCT-VC))에 의해 개발되었다. 해당 표준은 양 친 표준화 기구에 의해 공개되었고, MPEG-H Part 2 고효율 비디오 코딩(High Efficiency Video Coding (HEVC))으로서도 알려져 있는 ITU-T 권고 H.265 및 ISO/IEC 국제 표준 23008-2로서 인용된다. H.265/HEVC의 버전 2는 제각기 SHVC, MV-HEVC, 및 REXT로 약기될 수 있는 스케일러블, 멀티뷰, 및 적합도 범위 확장규격을 포함했다. H.265/HEVC의 버전 2는 ITU-T 권고 H.265(2014년 10월)로서 사전 공개되었고 2015년에 ISO/IEC 23008-2의 2판으로서 공개될 것 같다. 제각기 3D-HEVC 및 SCC로 약기될 수 있는 3차원 및 스크린 콘텐츠 코딩 확장규격을 포함하는 H.265/HEVC에 대한 추가적인 확장규격을 개발하기 위한 표준화 프로젝트가 현재 진행중이다.

    SHVC, MV-HEVC, 및 3D-HEVC는 HEVC 표준의 버전 2의 부록 F에서 지정된 공통 기준 표준명세서를 이용한다. 이 공통 기준은, 예컨대 계층 간 종속성(inter-layer dependency)과 같은 비트스트림의 계층들의 일부 특성 뿐만 아니라 다중-계층 비트스트림에 대한 계층 간 참조 픽처들(inter-layer reference pictures) 및 픽처 순서 카운트 도출(picture order count derivation)을 포함하는 참조 픽처 리스트 구성과 같은 디코딩 프로세스를 특정하는 하이-레벨 신택스(high-level syntax) 및 시맨틱(semantics)을 포함한다. 부록 F는 또한 HEVC의 잠재적인 후속 다중-계층 확장규격에 이용될 수도 있다. 비디오 인코더, 비디오 디코더, 인코딩 방법, 디코딩 방법, 비트스트림 구조, 및/또는 실시예들이 하기에서 SHVC 및/또는 MV-HEVC와 같은 특정한 확장규격을 참조하여 기술될 수 있지만, 일반적으로 이들은 HEVC의 임의의 다중-계층 확장규격에 적용될 수 있고, 더 일반적으로는 임의의 다중-계층 비디오 코딩 스킴에 적용될 수 있다는 점을 이해해야 한다.

    이 섹션에서는 몇몇 키 정의, 비트스트림 및 코딩 구조와, H.264/AVC 및 HEVC의 개념이 비디오 인코더, 디코더, 인코딩 방법, 디코딩 방법, 및 비트스트림 구조의 일 예시로서 기술되며, 여기서 실시예들이 구현될 수 있다. 몇몇 키 정의, 비트스트림 및 코딩 구조와, H.264/AVC의 개념은 HEVC에서와 동일하므로, 아래에서는 이들을 함께 기술한다. 본 발명의 양태는 H.264/AVC 또는 HEVC에 한정되는 것이 아니고, 오히려 본 발명이 부분적으로 또는 완전히 실현될 수 있는 가능한 기준에 대하여 설명이 이루어진다.

    다수의 이전의 비디오 코딩 표준들과 유사하게, 비트스트림 신택스 및 시맨틱 뿐만 아니라 무오류 비트스트림에 대한 디코딩 프로세스가 H.264/AVC 및 HEVC에서 지정된다. 인코딩 프로세스는 지정되지 않지만, 인코더는 적합한 비트스트림을 생성해야만 한다. 비트스트림 및 디코더 적합성(conformance)은 가상 참조 디코더(Hypothetical Reference Decoder (HRD))로 검증될 수 있다. 표준은 전송 에러 및 손실에 대처하는 것을 돕는 코딩 툴을 포함하지만, 인코딩에서 해당 툴을 이용하는 것은 임의적인 것이며 오류 비트스트림에 대해서는 디코딩 프로세스가 지정되지 않는다.

    기존의 표준에 대한 설명에서 뿐만 아니라 예시적인 실시예들의 설명에서, 신택스 요소는 비트스트림 내에서 표현되는 데이터의 요소로서 정의될 수 있다. 신택스 구조는 비트스트림 내에서 지정된 순서로 함께 제시된 0(zero)개 이상의 신택스 요소들로서 정의될 수 있다. 기존의 표준에 대한 설명에서 뿐만 아니라 예시적인 실시예들의 설명에서, "외부 수단에 의해(by external means)" 또는 "외부 수단을 통해(through external means)"라는 구문이 사용될 수 있다. 예컨대, 신택스 구조와 같은 엔티티 또는 디코딩 프로세스에서 사용된 변수의 값이 "외부 수단에 의해" 디코딩 프로세스에 제공될 수 있다. "외부 수단에 의해"라는 구문은, 엔티티가 인코더에 의해 생성된 비트스트림에 포함되는 것이 아니라, 예컨대 제어 프로토콜을 이용해서 비트스트림으로부터 외부에서 전달되는 것을 가리킬 수 있다. 이는, 대안으로서 또는 부가적으로, 엔티티가 인코더에 의해 생성되는 것이 아니라, 예컨대 디코더를 이용하고 있는 플레이어 또는 디코딩 제어 로직에서, 또는 양쪽 모두에서 생성될 수 있음을 의미할 수 있다. 디코더는 변수 값과 같은 외부 수단을 입력하기 위한 인터페이스를 구비할 수 있다.

    프로파일은 디코딩/코딩 표준 또는 표준명세서에 의해 지정되는 전체 비트스트림 신택스의 서브세트로서 정의될 수 있다. 정해진 프로파일의 신택스에 의해 부과된 경계 내에서는, 디코딩된 픽처들의 지정된 사이즈와 같은 비트스트림 내의 신택스 요소들에 의해 취해진 값들에 의존하는 인코더 및 디코더의 성능에 있어서의 매우 큰 편차를 여전히 필요로 할 수 있다. 다수의 응용에 있어서는, 특정 프로파일 내의 신택스의 모든 가상적인 이용을 다룰 수 있는 디코더를 구현하는 것이 실현 가능하지도 않고 경제적이지도 않다. 이 쟁점을 다루기 위해, 레벨들이 사용될 수 있다. 레벨은 디코딩/코딩 표준 또는 표준명세서에서 지정되는 비트스트림 내의 신택스 요소 및 변수의 값들에 대하여 부과된 지정된 제한 세트로서 정의될 수 있다. 이들 제한은 값들에 대한 단순한 한도일 수 있다. 대안으로서 또는 부가적으로, 이들은 값들의 산술적인 조합에 대한 제한의 형태를 취할 수 있다(예를 들면, 픽처 폭과, 픽처 높이와, 초당 디코딩된 픽처의 수의 곱). 레벨들에 대한 제한을 지정하는 다른 수단이 이용될 수도 있다. 레벨로 지정된 제한들 중 일부는 예컨대, 기간(예를 들면, 초(second))당 코딩 유닛(예를 들면, 마크로블럭(macroblock))에 관하여 최대 픽처 사이즈, 최대 비트레이트 및 최대 데이터 레이트에 관련될 수 있다. 동일한 세트의 레벨들이 모든 프로파일에 대하여 정의될 수 있다. 예컨대, 각각의 레벨의 정의의 대부분의 또는 모든 양태가 상이한 프로파일들에 걸쳐 공통일 수 있는 상이한 프로파일들을 구현하는 단말들의 상호운용성을 증가시키는 것이 바람직할 수 있다. 티어(tier)는 비트스트림 내의 신택스 요소들의 값들에 대하여 부과된 레벨 제한의 지정된 카테고리로서 정의될 수 있으며, 여기서 레벨 제한은 티어 내에서 중첩(nest)되고, 특정 티어 및 레벨에 적합한 디코더는 동일한 티어에, 또는 해당 레벨 또는 그보다 낮은 임의의 레벨의 보다 낮은 티어에 적합한 모든 비트스트림을 디코딩할 수 있게 된다.

    경우에 따라, 적합성 지점은 특정 프로파일과 특정 레벨의 조합으로서 또는 특정 프로파일, 특정 티어, 및 특정 레벨의 조합으로서 정의될 수 있다. 적합성 지점은 다른 방식들로 정의될 수 있지만, 비트스트림의 특성 및 한도 및/또는 디코더의 특성 및 (최대) 리소스를 지정하려는 그 의도는 변함없이 유지될 수 있다는 점을 이해할 필요가 있다.

    H.264/AVC 또는 HEVC 인코더로의 입력 및 H.264/AVC 또는 HEVC 디코더의 출력에 대한 기본 유닛은, 제각기, 픽처이다. 인코더로의 입력으로서 주어진 픽처는 소스 픽처(source picture)라고 인용될 수도 있으며, 디코더에 의해 디코딩된 픽처는 디코딩된 픽처(decoded picture)라고 인용될 수 있다.

    소스 픽처 및 디코딩된 픽처는 각각 하기의 샘플 어레이들로 이루어진 세트들 중 하나와 같이, 하나 이상의 샘플 어레이로 구성된다:

    휘도(Luma(Y)) 단독 (단색).

    휘도 및 2개의 색차(chroma) (YCbCr 또는 YCgCo).

    녹색, 청색 및 적색 (RGB로도 알려져 있는 GBR).

    그 밖의 미지정된 단색 또는 3자극 컬러 샘플링을 표현하는 어레이들 (예컨대, XYZ로도 알려져 있는 YZX).

    하기에서는, 이들 어레이가 휘도(또는 L 또는 Y) 및 색차라고도 인용될 수 있으며, 여기서 2개의 색차 어레이는, 사용시의 실제 컬러 표현 방법에 관계없이, Cb 및 Cr이라고 인용될 수 있다. 사용시의 실제 컬러 표현 방법은, 예컨대 코딩된 비트스트림에서, 예컨대 H.264/AVC 및/또는 HEVC의 비디오 유용성 정보(Video Usability Information (VUI)) 신택스를 이용하여 나타내질 수 있다. 컴포넌트는 3개의 샘플 어레이(휘도 및 2개의 색차) 중 하나로부터의 어레이 또는 단일 샘플로서, 또는 단색 포맷으로 픽처를 구성하는 어레이 또는 해당 어레이의 단일 샘플로서 정의될 수 있다.

    H.264/AVC 및 HEVC에 있어서, 픽처는 프레임(frame) 또는 필드(field) 중 어느 하나일 수 있다. 프레임은 휘도 샘플들 및 가능하게는 그에 상응하는 색차 샘플들의 매트릭스를 포함한다. 필드는 프레임의 교번적인 샘플 행들의 세트이며, 소스 신호가 비월될 때, 인코더 입력으로서 이용될 수 있다. 색차 샘플 어레이는 부재될 수 있거나(그에 따라, 단색 샘플링이 사용되고 있을 수 있음), 또는 색차 샘플 어레이는 휘도 샘플 어레이와 비교하면 서브샘플링될 수 있다. 색차 포맷은 다음과 같이 요약될 수 있다:

    단색 샘플링에 있어서는, 명목상 휘도 어레이로 간주될 수 있는 하나의 샘플 어레이만이 존재한다.

    4:2:0 샘플링에 있어서는, 2개의 색차 어레이가 각각 휘도 어레이의 절반의 높이 및 절반의 폭을 갖는다.

    4:2:2 샘플링에 있어서는, 2개의 색차 어레이가 각각 휘도 어레이의 높이와 동일한 높이 및 절반의 폭을 갖는다.

    4:4:4 샘플링에 있어서는, 별도의 컬러 평면들이 사용되고 있지 않은 경우에, 2개의 색차 어레이가 각각 휘도 어레이와 동일한 높이 및 폭을 갖는다.

    H.264/AVC 및 HEVC에 있어서는, 별도의 컬러 평면들로서의 샘플 어레이들을 비트스트림으로 코딩하고, 해당 비트스트림으로부터 별도로 코딩된 컬러 평면들을 제각기 디코딩하는 것이 가능하다. 별도의 컬러 평면들이 사용되고 있는 경우에는, 그들 각각이 (인코더 및/또는 디코더에 의해) 단색 샘플링으로 픽처로서 별도로 처리된다.

    색차 서브샘플링이 사용되고 있는 경우에는(예컨대, 4:2:0 또는 4:2:2 색차 샘플링), 휘도 샘플들에 대한 색차 샘플들의 위치가 인코더 측에서 (예컨대, 사전-처리 스텝으로서 또는 인코딩의 일부로서) 결정될 수 있다. 휘도 샘플 위치들에 대한 색차 샘플 위치들은, 예컨대 H.264/AVC 또는 HEVC와 같은 코딩 표준에서 미리 정의될 수 있거나, 또는 예컨대 H.264/AVC 또는 HEVC의 VUI의 일부로서 비트스트림에서 지시될 수 있다.

    파티셔닝(partitioning)은 하나의 세트의 서브세트들로의 분할로서 정의될 수 있으며, 해당 세트의 각각의 요소는 정확히는 해당 서브세트들 중 하나이다.

    H.264/AVC에 있어서, 마크로블럭은 휘도 샘플들의 16×16 블럭 및 그에 상응하는 휘도 샘플들의 블럭들이다. 예컨대, 4:2:0 샘플링 패턴에 있어서는, 마크로블럭이 각각의 색차 컴포넌트 당 색차 샘플들의 하나의 8×8 블럭을 포함한다. H.264/AVC에 있어서, 픽처는 하나 이상의 슬라이스 그룹으로 분할되고, 하나의 슬라이스 그룹은 하나 이상의 슬라이스를 포함한다. H.264/AVC에 있어서, 하나의 슬라이스는 특정 슬라이스 그룹 내의 래스터 스캔(raster scan)에서 연속하여 배열된 정수 개의 마크로블럭들로 구성된다.

    HEVC 인코딩 및/또는 디코딩의 동작을 기술함에 있어서, 하기의 용어들이 이용될 수 있다. 코딩 블럭(coding block)은 코딩 트리 블럭(coding tree block)의 코딩 블럭들로의 분할이 파티셔닝이 되도록 몇 개의 N의 값에 대한 샘플들의 N×N 블럭으로서 정의될 수 있다. 코딩 트리 블럭(CTB)은 컴포넌트의 코딩 트리 블럭들로의 분할이 파티셔닝이 되도록 몇 개의 N의 값에 대한 샘플들의 N×N 블럭으로서 정의될 수 있다. 코딩 트리 유닛(coding tree unit (CTU))은 휘도 샘플들의 코딩 트리 블럭, 3개의 샘플 어레이를 갖는 픽처의 색차 샘플들의 2개의 상응하는 코딩 트리 블럭, 또는 단색 픽처의 샘플들 또는 3개의 별도의 컬러 평면을 이용해서 코딩되는 픽처의 샘플들 및 해당 샘플들을 코딩하는데 이용된 신택스 구조들의 코딩 트리 블럭으로서 정의될 수 있다. 코딩 유닛(coding unit (CU))은 휘도 샘플들의 코딩 블럭, 3개의 샘플 어레이를 갖는 픽처의 색차 샘플들의 2개의 상응하는 코딩 블럭, 또는 단색 픽처의 샘플들 또는 3개의 별도의 컬러 평면을 이용해서 코딩되는 픽처의 샘플들 및 해당 샘플들을 코딩하는데 이용된 신택스 구조들의 코딩 블럭으로서 정의될 수 있다.

    고효율 비디오 코딩(High Efficiency Video Coding (HEVC))과 같은 몇몇 비디오 코덱에 있어서, 비디오 픽처들은 해당 픽처의 에어리어를 커버하는 코딩 유닛(CU)들로 분할된다. CU는 해당 CU 내의 샘플들에 대한 예측 프로세스를 정의하는 하나 이상의 예측 유닛(prediction unit (PU)) 및 상기 CU 내의 샘플들에 대한 예측 에러 코딩 프로세스를 정의하는 하나 이상의 변환 유닛(transform unit (TU))으로 구성된다. 통상적으로, CU는 가능한 CU 사이즈들의 미리 정해진 세트로부터 선택 가능한 사이즈를 갖는 샘플들의 정사각형 블럭으로 구성된다. 최대 허용 사이즈를 갖는 CU는 LCU(최대 코딩 유닛) 또는 코딩 트리 유닛(CTU)으로 불릴 수 있으며, 비디오 픽처는 비-중첩 LCU들로 분할된다. LCU는, 예컨대 해당 LCU 및 그에 따른 CU들을 재귀적으로 분할함으로써, 보다 작은 CU들의 조합으로 더 분할될 수 있다. 각각의 최종 CU는 통상적으로 적어도 하나의 PU 및 그것과 연관된 적어도 하나의 TU를 갖는다. PU 및 TU는 각각, 예측 프로세스 및 예측 에러 코딩 프로세스의 입도를 제각기 증가시키기 위해 보다 작은 PU들 및 TU들로 더 분할될 수 있다. 각각의 PU는 해당 PU 내의 픽셀들에 대하여 어떤 종류의 예측이 적용되어야 하는지를 정의하는 것과 연관된 예측 정보(예컨대, 인터 예측된 PU들에 대한 움직임 벡터 정보 및 인트라 예측된 PU들에 대한 인트라 예측 방향성 정보)를 갖는다.

    각각의 TU는 상기 TU 내의 샘플들에 대한 예측 에러 디코딩 프로세스를 기술하는 정보(예컨대, DCT 계수 정보를 포함)와 연관될 수 있다. 통상적으로, 예측 에러 코딩이 각각의 CU에 대하여 적용되는지의 여부가 CU 레벨에서 시그널링된다. CU와 연관된 예측 에러 잔차 신호(prediction error residual)가 없는 경우에는, 상기 CU에 대해서는 TU가 존재하지 않는 것으로 간주될 수 있다. 이미지를 CU들로 분할하는 것, 및 CU들을 PU들 및 TU들로 분할하는 것은 통상적으로 비트스트림에서 시그널링되어서 디코더가 이들 유닛의 의도된 구조를 재생하는 것을 허용한다.

    HEVC에 있어서, 픽처는 직사각형이며 정수 개의 LCU를 포함하는 타일들로 분할될 수 있다. HEVC에 있어서, 타일들로의 파티셔닝은 규칙적인 그리드를 형성하고, 여기서 타일들의 높이 및 폭은 최대 하나의 LCU 만큼 서로 다르다. HEVC에 있어서, 슬라이스는 하나의 독립 슬라이스 세그먼트(independent slice segment) 및 동일한 액세스 유닛 내의 다음 독립 슬라이스 세그먼트(존재하는 경우)에 선행하는 모든 후속 종속 슬라이스 세그먼트(dependent slice sgement)(존재하는 경우)에 포함된 정수 개의 코딩 트리 유닛으로 이루어지는 것으로 정의된다. HEVC에 있어서, 슬라이스 세그먼트는 타일 스캔(tile scan)에서 연속하여 배열되고 단일의 NAL 유닛에 포함되는 정수 개의 코딩 트리 유닛으로 이루어지는 것으로 정의된다. 각각의 픽처의 슬라이스 세그먼트들로의 분할이 파티셔닝이다. HEVC에 있어서, 독립 슬라이스 세그먼트는 슬라이스 세그먼트 헤더(slice segment header)의 신택스 요소들의 값들이 선행하는 슬라이스 세그먼트에 대한 값들로부터 추론되지 않는 슬라이스 세그먼트로 이루어지는 것으로 정의되고, 종속 슬라이스 세그먼트는 슬라이스 세그먼트 헤더의 일부 신택스 요소들의 값들이 디코딩 순서상 선행하는 독립 슬라이스 세그먼트에 대한 값들로부터 추론되는 슬라이스 세그먼트로 이루어지는 것으로 정의된다. HEVC에 있어서, 슬라이스 헤더는 현재 슬라이스 세그먼트이거나 또는 현재 종속 슬라이스 세그먼트에 선행하는 독립 슬라이스 세그먼트인 독립 슬라이스 세그먼트의 슬라이스 세그먼트 헤더로 이루어지는 것으로 정의되고, 슬라이스 세그먼트 헤더는 슬라이스 세그먼트에서 표현된 제 1의 또는 모든 코딩 트리 유닛들에 속하는 데이터 요소들을 포함하는 코딩된 슬라이스 세그먼트의 일부로 이루어지는 것으로 정의된다. CU들은 타일들 내의, 또는 타일들이 사용되고 있지 않은 경우에는, 픽처 내의 LCU들의 래스터 스캔 순서로 스캐닝된다. LCU 내에서, CU들은 특정한 스캔 순서를 갖는다. 도 5는 직사각형 예측 유닛들(점선)로 더 분할되어 있는 정사각형 코딩 유닛들(실선)로 분할된 2개의 타일로 구성된 픽처의 일 예시를 도시한다.

    디코더는 픽셀 블럭의 예측된 표현을 형성하기 위한 인코더와 유사한 예측 수단(인코더에 의해 생성되고 압축된 표현으로 저장된 움직임 또는 공간 정보를 이용) 및 예측 에러 디코딩(공간 픽셀 도메인에서 양자화된 예측 에러 신호를 복구하는 예측 에러 코딩의 역연산)을 적용함으로써 출력 비디오를 재구성한다. 예측 및 예측 에러 디코딩 수단을 적용한 후에, 디코더는 예측 및 예측 에러 신호(픽셀 값들)를 가산해서 출력 비디오 프레임을 형성한다. 디코더(및 인코더)는 또한, 출력 비디오를 디스플레이에 전달하기 전에 및/또는 비디오 시퀀스에 있어서 다가오는 프레임들에 대한 예측 기준으로서 출력 비디오를 저장하기 전에, 출력 비디오의 품질을 향상시키기 위해 부가적인 필터링 수단을 적용할 수도 있다.

    필터링은, 예컨대 디블럭킹(deblocking), 샘플 적응형 오프셋(sample adaptive offset (SAO)), 및/또는 적응형 루프 필터링(adaptive loop filtering (ALF)) 중 하나 이상을 포함할 수 있다. H.264/AVC는 디블럭킹을 포함하는 반면, HEVC는 디블럭킹 SAO를 모두 포함한다.

    통상적인 비디오 코덱에 있어서, 움직임 정보는 예측 유닛과 같은 각각의 움직임 보상된 이미지 블럭과 연관된 움직임 벡터들로 지시된다. 이들 움직임 벡터 각각은 코딩(인코더측) 또는 디코딩(디코더측)될 픽처 내의 이미지 블럭 및 사전에 코딩 또는 디코딩된 픽처들 중 하나에서의 예측 소스 블럭의 변위를 표현한다. 움직임 벡터들을 효율적으로 표현하기 위해, 이들은 통상적으로 블럭 지정 예측 움직임 벡터들에 대하여 달리 코딩된다. 통상적인 비디오 코덱에 있어서, 예측된 움직임 벡터들은 미리 정해진 방식으로, 예컨대 인접 블럭들의 인코딩된 또는 디코딩된 움직임 벡터들의 중간값을 계산하여 생성된다. 움직임 벡터 예측을 생성하는 다른 방식은, 시간적 참조 픽처 내의 인접 블럭들 및/또는 동일-위치의 블럭들로부터의 후보 예측들의 리스트를 생성하는 것 및 선택된 후보를 움직임 벡터 예측자로서 시그널링하는 것이다. 움직임 벡터 값들을 예측하는 것 외에, 어떤 참조 픽처(들)가 움직임-보상된 예측에 대하여 사용되는지가 예측될 수 있고, 이 예측 정보는 예컨대, 사전에 코딩/디코딩된 픽처의 참조 인덱스에 의해 표현될 수 있다. 참조 인덱스는 통상적으로 시간적 참조 픽처 내의 인접 블럭들 및/또는 동일-위치의 블럭들로부터 예측된다. 또한, 통상적인 고효율 비디오 코덱은, 흔히 머징(merging)/머지(merge) 모드라고 불리는 부가적인 움직임 정보 코딩/디코딩 메커니즘을 채용하고, 여기서 각각의 가용 참조 픽처 리스트에 대한 움직임 벡터 및 상응하는 참조 픽처 인덱스를 포함하는 모든 움직임 필드 정보가 예측되고 어떠한 수정/보정도 없이 사용된다. 유사하게, 움직임 필드 정보를 예측하는 것은 시간적 참조 픽처들 내의 인접 블럭들 및/또는 동일-위치의 블럭들의 움직임 필드 정보를 이용해서 수행되고, 이용된 움직임 필드 정보는 가용 인접/동일-위치의 블럭들의 움직임 필드 정보로 채워진 움직임 필드 후보 리스트 사이에서 시그널링된다.

    통상적인 비디오 코덱은 단방향-예측(uni-prediction) 및 양방향 예측(bi-prediction)의 이용을 가능하게 하고, 단방향-예측에서는 단일의 예측 블럭이 (디)코딩된 블럭에 대하여 사용되고, 양방향-예측에서는 2개의 예측 블럭이 (디)코딩된 블럭에 대하여 예측을 형성하도록 결합된다. 일부 비디오 코덱은 가중 예측을 가능하게 하고, 여기서는 예측 블럭들의 샘플 값들이 잔차 정보를 가산하기 전에 가중된다. 예컨대, 승산 가중 팩터 및 가산 오프셋이 적용될 수 있다. 몇몇 비디오 코덱으로 가능한 명시적인 가중 예측에 있어서, 가중 팩터 및 오프셋은 예컨대, 각각의 허용 참조 픽처 인덱스에 대한 슬라이스 헤더에서 코딩될 수 있다. 몇몇 비디오 코덱으로 가능한 묵시적인 가중 예측에 있어서, 가중 팩터 및/또는 오프셋은 코딩되는 것이 아니라, 예컨대 참조 픽처들의 상대적인 픽처 순서 카운트(POC) 거리에 기초하여 도출된다.

    통상적인 비디오 코덱에 있어서, 움직임 보상 이후의 예측 잔차는 먼저 변환 커널(transform kernel)(DCT와 유사)에 의해 변환되고 나서 코딩된다. 그 이유는, 많은 경우들에 있어서는 종종 잔차와 변환 사이에 약간의 상관관계가 여전히 존재한다는 것이 이 상관관계를 줄이고 더욱 효율적인 코딩을 제공하는 것을 도울 수 있기 때문이다.

    통상적인 비디오 인코더는 최적의 코딩 모드, 예컨대 원하는 마크로블럭 모드(Macroblock mode) 및 연관 움직임 벡터를 찾기 위해 라그랑지안 비용 함수(Lagrangian cost functions)를 이용한다. 이러한 종류의 비용 함수는 손실형 코딩 방법(lossy coding methods)에 기인한 (정확한 또는 추정된) 이미지 왜곡과 이미지 영역에서 픽셀 값들을 표현하는데 필요한 (정확한 또는 추정된) 정보량을 결부시키기 위해 가중 팩터(λ)를 이용한다:

    여기서, C는 최소화될 라그랑지안 비용이고, D는 모드 및 움직임 벡터가 고려되어 있는 이미지 왜곡(예컨대, 평균 제곱 에러(Mean Squared Error))이고, R은 디코더에서 이미지 블럭을 재구성하기 위해 필요한 데이터를 표현하는데 필요한 비트 수(후보 움직임 벡터를 표현하기 위한 데이터량을 포함)이다.

    비디오 코딩 표준 및 표준명세서는 인코더가 코딩된 픽처를 코딩된 슬라이스들로 또는 그와 유사하게 분할하는 것을 허용할 수 있다. 인-픽처 예측(in-picture prediction)은 통상적으로 슬라이스 경계들에 걸쳐서는 불능화된다. 따라서, 슬라이스들은 코딩된 픽처를 독립적으로 디코딩 가능한 부분들로 분할하는 방식으로서 간주될 수 있다. H.264/AVC 및 HEVC에 있어서, 인-픽처 예측은 슬라이스 경계들에 걸쳐서 불능화될 수 있다. 따라서, 슬라이스들은 코딩된 픽처를 독립적으로 디코딩 가능한 부분들로 분할하는 방식으로서 간주될 수 있고, 그에 따라 슬라이스들은 종종 전송용 기본 유닛으로서 간주된다. 많은 경우에 있어서, 인코더는 비트스트림에서 슬라이스 경계들에 걸쳐 어떤 타입의 인-픽처 예측이 턴 오프되는지를 지시할 수 있고, 디코더 동작은 예컨대 어떤 예측 소스들을 이용 가능하다고 결론지을 때 이 정보를 고려한다. 예컨대, 이웃하는 마크로블럭 또는 CU로부터의 샘플들은, 해당 이웃하는 마크로블럭 또는 CU가 상이한 슬라이스에 상주하는 경우에는, 인트라 예측에 대해서는 이용할 수 없는 것으로서 간주될 수 있다.

    H.264/AVC 또는 HEVC 인코더의 출력 및 H.264/AVC 또는 HEVC 디코더의 입력에 대한 기본 유닛은, 제각기 네트워크 추상 계층(Network Abstraction Layer (NAL)) 유닛이다. 패킷-지향 네트워크를 통한 전송 또는 구조화된 파일로의 저장을 위해, NAL 유닛은 패킷 또는 유사한 구조로 캡슐화될 수 있다. H.264/AVC 및 HEVC에서는, 프레이밍(framing) 구조를 제공하지 않는 전송 또는 저장 환경에 대하여 바이트스트림(bytestream) 포맷이 지정되어 있다. 바이트스트림 포맷은 각각의 NAL 유닛의 앞쪽에 시작 코드(start code)를 붙여서 NAL 유닛들을 서로 구분한다. NAL 유닛 경계들의 오(false) 검출을 피하기 위해, 인코더는 바이트-지향 시작 코드 실행 금지 알고리즘을 가동하고, 이 알고리즘은 시작 코드가 달리 발생하게 되면 NAL 유닛 페이로드에 실행 금지 바이트(emulation prevention byte)를 가산한다. 패킷-지향 시스템과 스트림-지향 시스템 사이의 직관적인 게이트웨이 동작을 가능하게 하기 위해, 시작 코드 실행 금지는 바이트스트림 포맷이 사용되고 있는지의 여부에 관계없이 항상 수행될 수 있다. NAL 유닛은 추종해야 할 데이터의 타입 및 해당 데이터를 포함하는 바이트의 의 지시를 필요에 따라 실행 금지 바이트와 함께 내재되는 RBSP 형태로 포함하는 신택스 구조로서 정의될 수 있다. 로우 바이트 시퀀스 페이로드(raw byte sequence payload (RBSP))는 NAL 유닛에 캡슐화되는 정수 개의 바이트를 포함하는 신택스 구조로서 정의될 수 있다. RBSP는 비어 있거나, 또는 RBSP 정지 비트로 이어지며 0과 동일한(equal to 0) 0(zero)개 이상의 후속 비트들로 이어지는 신택스 요소들을 포함하는 데이터 비트들의 문자열 형식을 갖는다.

    NAL 유닛은 헤더 및 페이로드로 구성된다. H.264/AVC 및 HEVC에 있어서, NAL 유닛 헤더는 NAL 유닛의 타입을 지시한다.

    H.264/AVC NAL 유닛 헤더는, 0과 동일할(equal to 0) 때에는 NAL 유닛에 포함된 코딩된 슬라이스가 비-참조 픽처의 일부임을 지시하고, 0보다 클(greater than 0) 때에는 NAL 유닛에 포함된 코딩된 슬라이스가 참조 픽처의 일부임을 지시하는 2-비트 nal_ref_idc 신택스 요소를 포함한다. SVC 및 MVC NAL 유닛의 헤더는 스케일러빌리티(scalability) 및 멀티뷰(multiview) 계층구성과 관련된 다양한 지시를 부가적으로 포함할 수 있다.

    HEVC에 있어서는, 모든 지정된 NAL 유닛 타입에 대하여 2-바이트 NAL 유닛 헤더가 사용된다. NAL 유닛 헤더는 하나의 예비 비트(reserved bit), 6-비트 NAL 유닛 타입 지시, 시간적 레벨(1 이상으로 되는 것이 필요해질 수 있음)에 대한 3-비트 nuh_temporal_id_plus1 지시 및 6-비트 nuh_layer_id 신택스 요소를 포함한다. temporal_id_plus1 신택스 요소는 NAL 유닛에 대한 시간적 식별자로서 간주될 수 있으며, 0(zero)-기반의 TemporalId 변수는 다음과 같이 도출될 수 있다: 즉 TemporalId = temporal_id_plus1 - 1. 0과 동일한 TemporalId는 최하위 시간적 레벨에 대응한다. temporal_id_plus1의 값은 2개의 NAL 유닛 헤더 바이트를 수반하는 시작 코드 실행을 피하기 위해 0이 아닐(non-zero) 필요가 있다. 선택된 값 이상의 TemporalId를 갖는 모든 VCL NAL 유닛을 제외하고 또한 그 밖의 모든 VCL NAL 유닛을 포함함으로써 생성된 비트스트림은 적합한 상태를 유지한다. 그 결과, TID와 동일한 TemporalId를 갖는 픽처는 TID보다 큰 TemporalId를 갖는 임의의 픽처를 인터 예측 기준으로서 이용하지 않는다. 부-계층(sub-layer) 또는 시간적 부-계층은 TemporalId 변수의 특정 값을 갖는 VCL NAL 유닛 및 연관된 비-VCL NAL 유닛으로 구성되는 시간적 스케일러블 비트스트림의 시간적 스케일러블 계층으로 되도록 정의될 수 있다. HEVC의 nuh_layer_id 신택스 요소는 스케일러빌리티 계층구성에 대한 정보를 구비할 수 있다.

    NAL 유닛은 비디오 코딩 계층(Video Coding Layer (VCL)) NAL 유닛 및 비-VCL NAL 유닛으로 분류될 수 있다. VCL NAL 유닛은 통상적으로 코딩된 슬라이스 NAL 유닛이다. H.264/AVC에 있어서, 코딩된 슬라이스 NAL 유닛은 하나 이상의 코딩된 마크로블럭을 표현하는 신택스 요소를 포함하고, 코딩된 마크로블럭 각각은 비압축 픽처 내의 샘플들의 블럭에 대응한다. HEVC에 있어서, VCL NAL 유닛은 하나 이상의 CU를 표현하는 신택스 요소를 포함한다.

    H.264/AVC에 있어서, 코딩된 슬라이스 NAL 유닛은 순간적 디코딩 리프레시(Instantaneous Decoding Refresh (IDR)) 픽처 내의 코딩된 슬라이스 또는 비-IDR 픽처 내의 코딩된 슬라이스로 되는 것으로 지시될 수 있다.

    HEVC에 있어서, 코딩된 슬라이스 NAL 유닛은 하기의 타입들 중 하나로 되는 것으로 지시될 수 있다:

    HEVC에 있어서, 픽처 타입들에 대한 약어는 다음과 같이 정의될 수 있다: 트레일링(TRAIL) 픽처, 시간적 부-계층 액세스(Temporal Sub-layer Access (TSA)), 점진적인 시간적 부-계층 액세스(Step-wise Temporal Sub-layer Access (STSA)), 램덤 액세스 디코더블 리딩(Random Access Decodable Leading (RADL)) 픽처, 랜덤 액세스 스킵드 리딩(Random Access Skipped Leading (RASL)) 픽처, 브로큰 링크 액세스(Broken Link Access (BLA)) 픽처, 순간적 디코딩 리프레시(Instantaneous Decoding Refresh (IDR)) 픽처, 클린 랜덤 액세스(Clean Random Access (CRA)) 픽처.

    인트라 랜덤 액세스 지점(IRAP) 픽처라고 인용될 수도 있는 랜덤 액세스 지점(Random Access Point (RAP)) 픽처는 각각의 슬라이스 또는 슬라이스 세그먼트가 포괄적인 16 내지 23 범위의 nal_unit_type을 갖는 픽처이다. 독립적인 계층에서 IRAP 픽처는 인트라-코딩된 슬라이스들만을 포함한다. nuh_layer_id 값 currLayerId를 갖는 예측된 계층에 속하는 IRAP 픽처는 P, B, 및 I 슬라이스를 포함할 수 있고, currLayerId와 동일한 nuh_layer_id를 갖는 다른 픽처들로부터 인터 예측을 사용할 수 없고, 그 직접 참조 계층들로부터 계층 간 예측을 사용할 수 있다. HEVC의 현 버전에 있어서, IRAP 픽처는 BLA 픽처, CRA 픽처 또는 IDR 픽처일 수 있다. 베이스 계층을 포함하는 비트스트림 내의 제 1 픽처는 IRAP 픽처이다. 필요한 파라미터 세트들이 활성화될 필요가 있을 때 이용 가능하다면, 독립적인 계층에서의 IRAP 픽처 및 디코딩 순서상 독립적인 계층에서의 모든 후속 비-RASL 픽처들은 디코딩 순서상 IRAP 픽처에 선행하는 임의의 픽처의 디코딩 프로세스를 수행하지 않고 정확하게 디코딩될 수 있다. RAP 픽처가 아닌 인트라-코딩된 슬라이스들만을 포함하는 픽처들이 비트스트림에 존재할 수 있다. nuh_layer_id 값 currLayerId를 갖는 예측된 계층에 속하는 IRAP 픽처 및 디코딩 순서상 currLayerId와 동일한 nuh_layer_id를 갖는 모든 후속 비-RASL 픽처들은, 필요한 파라미터 세트가 활성화될 필요가 있을 때 이용 가능한 경우 및 currLayerId와 동일한 nuh_layer_id를 갖는 계층의 각각의 직접 참조 계층의 디코딩이 개시되어 있을 경우(즉, currLayerId와 동일한 nuh_layer_id를 갖는 계층의 직접 참조 계층들의 모든 nuh_layer_id 값들과 동일한 refLayerId에 대하여 LayerInitializedFlag[refLayerId]가 1과 동일할 경우), 디코딩 순서상 IRAP 픽처에 선행하는 currLayerId와 동일한 nuh_layer_id를 갖는 임의의 픽처들의 디코딩 프로세스를 수행하지 않고 정확하게 디코딩될 수 있다.

    HEVC에 있어서, CRA 픽처는 디코딩 순서상 비트스트림 내의 제 1 픽처일 수 있거나, 또는 비트스트림 내에서 나중에 나타날 수 있다. HEVC에서의 CRA 픽처는 디코딩 순서상 CRA 픽처에 후속하지만 출력 순서에 있어서는 CRA 픽처에 선행하는 소위 리딩 픽처(leading picture)들을 허용한다. 리딩 픽처들 중 일부, 소위 RASL 픽처들은 CRA 픽처 이전에 디코딩된 픽처들을 참조로서 이용할 수 있다. 디코딩 및 출력 순서상 CRA 픽처에 후속하는 픽처들은, CRA 픽처에서 랜덤 액세스가 수행되는 경우에 디코딩이 가능하기 때문에, IDR 픽처의 클린 랜덤 액세스 기능과 유사하게 클린 랜덤 액세스가 달성될 수 있다.

    CRA 픽처는 연관된 RADL 또는 RASL 픽처를 가질 수 있다. CRA 픽처가 디코딩 순서상 비트스트림에서 제 1 픽처인 경우, 해당 CRA 픽처는 디코딩 순서상 코딩된 비디오 시퀀스의 제 1 픽처이고, 임의의 연관된 RASL 픽처들은 비트스트림 내에 존재하지 않는 픽처들에 대한 참조를 포함할 수 있기 때문에 디코더에 의해 출력되지 않으며 디코딩이 가능하지 않을 수 있다.

    리딩 픽처는 출력 순서상 연관된 RAP 픽처에 선행하는 픽처이다. 연관된 RAP 픽처는 디코딩 순서상 이전의 RAP 픽처이다(존재하는 경우). 리딩 픽처는 RADL 픽처 또는 RASL 픽처일 수 있다.

    모든 RASL 픽처는 연관된 BLA 또는 CRA 픽처의 리딩 픽처이다. 연관된 RAP 픽처가 BLA 픽처이거나 또는 비트스트림 내의 제 1 코딩된 픽처인 경우, RASL 픽처가 비트스트림 내에 존재하지 않는 픽처들에 대한 참조를 포함할 수 있기 때문에, RASL 픽처는 출력되지 않으며 정확하게 디코딩되지 않을 수 있다. 그러나, RASL 픽처의 연관된 RAP 픽처 이전의 RAP 픽처로부터 디코딩을 시작했다면, RASL 픽처는 정확하게 디코딩될 수 있다. RASL 픽처들은 비-RASL 픽처들의 디코딩 프로세스에 대한 참조 픽처로서 사용되지 않는다. 존재하는 경우, 모든 RASL 픽처들은 디코딩 순서상 동일한 연관된 RAP 픽처의 모든 트레일링 픽처들에 선행한다. HEVC 표준의 일부 드래프트에서는, RASL 픽처가 TFD(Tagged for Discard) 픽처에 대하여 참조되었다.

    모든 RADL 픽처들은 리딩 픽처이다. RADL 픽처들은 동일한 연관된 RAP 픽처의 트레일링 픽처들의 디코딩 프로세스에 대한 참조 픽처로서 사용되지 않는다. 존재하는 경우, 모든 RADL 픽처들은 디코딩 순서상 동일한 연관된 RAP 픽처의 모든 트레일링 픽처들에 선행한다. RADL 픽처들은 디코딩 순서상 연관된 RAP 픽처에 선행하는 어떠한 픽처도 참조하지 않기 때문에, 연관된 RAP 픽처로부터 디코딩을 시작하는 경우에는 정확하게 디코딩될 수 있다. HEVC 표준의 일부 드래프트에서는, RADL 픽처가 DLP(Decodable Leading Picture)에 대하여 참조되었다.

    CRA 픽처로부터 시작하는 비트스트림의 일부가 다른 비트스트림에 포함되는 경우, CRA 픽처와 연관된 RASL 픽처들은, 그들의 참조 픽처들 중 일부는 결합된 비트스트림에 존재하지 않을 수도 있기 때문에, 정확하게 디코딩되지 않을 수 있다. 상기와 같은 스플라이싱(splicing; 결합) 동작을 직관적으로 만들기 위해, CRA 픽처의 NAL 유닛 타입은 그것이 BLA 픽처임을 지시하도록 변경될 수 있다. BLA 픽처와 연관된 RASL 픽처들은 정확하게 디코딩되지 않을 수 있고, 그렇기 때문에 출력/디스플레이되지 않는다. 또한, BLA 픽처와 연관된 RASL 픽처들은 디코딩에서 생략될 수 있다.

    BLA 픽처는 디코딩 순서상 비트스트림 내의 제 1 픽처일 수 있거나, 또는 비트스트림에서 나중에 나타날 수 있다. 각각의 BLA 픽처는 새로운 코딩된 비디오 시퀀스를 개시하고, 디코딩 프로세스에 대하여 IDR 픽처와 유사한 효과를 갖는다. 그러나, BLA 픽처는 비어 있지 않은(non-empty) 참조 픽처 세트를 지정하는 신택스 요소들을 포함할 수 있다. BLA 픽처가 BLA_W_LP와 동일한 nal_unit_type을 갖는 경우, BLA 픽처는 디코더에 의해 출력되지 않으며 디코딩되지 않을 수 있는 연관된 RASL 픽처들을 가질 수 있는데, 이는 RASL 픽처들이 비트스트림에 존재하지 않는 픽처들에 대한 참조를 포함할 수 있기 때문이다. BLA 픽처가 BLA_W_LP와 동일한 nal_unit_type을 갖는 경우, BLA 픽처는 또한 디코딩되도록 지정되는 연관된 RADL 픽처들을 가질 수 있다. BLA 픽처가 BLA_W_DLP와 동일한 nal_unit_type을 갖는 경우, BLA 픽처는 연관된 RASL 픽처들을 갖지 않는 대신에, 디코딩되도록 지정되는 연관된 RADL 픽처들을 가질 수 있다. BLA 픽처가 BLA_N_LP와 동일한 nal_unit_type을 갖는 경우, BLA 픽처는 어떠한 연관된 리딩 픽처를 갖지 않는다.

    IDR_N_LP와 동일한 nal_unit_type을 갖는 IDR 픽처는 비트스트림에 존재하는 연관된 리딩 픽처들을 갖지 않는다. IDR_W_LP와 동일한 nal_unit_type을 갖는 IDR 픽처는 비트스트림에 존재하는 연관된 RASL 픽처들을 갖지 않는 대신에, 비트스트림 내의 연관된 RADL 픽처들을 가질 수 있다.

    nal_unit_type의 값이 TRAIL_N, TSA_N, STSA_N, RADL_N, RASL_N, RSV_VCL_N10, RSV_VCL_N12, 또는 RSV_VCL_N14와 동일할 경우, 디코딩된 픽처는 동일한 시간적 부-계층의 임의의 다른 픽처에 대한 참조로 사용되지 않는다. 즉, HEVC에 있어서, nal_unit_type의 값이 TRAIL_N, TSA_N, STSA_N, RADL_N, RASL_N, RSV_VCL_N10, RSV_VCL_N12, 또는 RSV_VCL_N14와 동일할 경우, 디코딩된 픽처는 TemporalId의 동일한 값을 갖는 임의의 픽처의 RefPicSetStCurrBefore, RefPicSetStCurrAfter 및 RefPicSetLtCurr 중 어느 하나에 포함되지 않는다. TRAIL_N, TSA_N, STSA_N, RADL_N, RASL_N, RSV_VCL_N10, RSV_VCL_N12, 또는 RSV_VCL_N14와 동일한 nal_unit_type을 갖는 코딩된 픽처는 동일한 TemporalId 값을 갖는 다른 픽처들의 디코더빌리티(decodability)에 영향을 주지 않고 폐기될 수 있다.

    트레일링 픽처는 출력 순서상 연관된 RAP 픽처에 후속하는 픽처로서 정의될 수 있다. 트레일링 픽처인 임의의 픽처는 RADL_N, RADL_R, RASL_N 또는 RASL_R과 동일한 nal_unit_type을 갖지 않는다. 리딩 픽처인 임의의 픽처는, 디코딩 순서상, 동일한 RAP 픽처와 연관되는 모든 트레일링 픽처들에 선행하도록 강제될 수 있다. BLA_W_DLP 또는 BLA_N_LP와 동일한 nal_unit_type을 갖는 BLA 픽처와 연관되는 비트스트림에는 RASL 픽처들이 존재하지 않는다. BLA_N_LP와 동일한 nal_unit_type을 갖는 BLA 픽처와 연관되거나 또는 IDR_N_LP와 동일한 nal_unit_type을 갖는 IDR 픽처와 연관되는 비트스트림에는 RADL 픽처들이 존재하지 않는다. CRA 또는 BLA 픽처와 연관된 임의의 RASL 픽처는, 출력 순서상, CRA 또는 BLA 픽처와 연관된 임의의 RADL 픽처에 선행하도록 강제될 수 있다. CRA 픽처와 연관된 임의의 RASL 픽처는, 출력 순서상, 디코딩 순서에 있어서 CRA 픽처에 선행하는 임의의 다른 RAP 픽처에 후속하도록 강제될 수 있다.

    HEVC에 있어서는, 시간적 부-계층 스위칭 지점을 지시하는데 사용될 수 있는 2가지 픽처 타입, 즉 TSA 및 STSA 픽처 타입이 존재한다. N까지의 TemporalId를 갖는 시간적 부-계층들이, TSA 또는 STSA 픽처(배타적) 및 TSA 또는 STSA 픽처가 N+1과 동일한 TemporalId를 가질 때까지 디코딩되었을 경우, TSA 또는 STSA 픽처는 N+1과 동일한 TemporalId를 갖는 모든 후속 픽처들(디코딩 순서상)의 디코딩을 가능하게 한다. TSA 픽처 타입은 TSA 픽처 자체에, 및 디코딩 순서상 TSA 픽처에 후속하는 동일한 부-계층 내의 모든 픽처들에 대하여 제한을 부과할 수 있다. 이 픽처들 중 어느 것도, 디코딩 순서상 TSA 픽처에 선행하는 동일한 부-계층 내의 임의의 픽처로부터 인터 예측을 사용하는 것이 허용되지 않는다. TSA 정의는 디코딩 순서상 TSA 픽처에 후속하는 보다 높은 부-계층 내의 픽처들에 대하여 추가로 제한을 부과할 수 있다. 이 픽처들 중 어느 것도, 해당 픽처가 TSA 픽처와 동일한 또는 보다 높은 부-계층에 속하는 경우에 디코딩 순서상 TSA 픽처에 선행하는 픽처를 참조하는 것이 허용되지 않는다. TSA 픽처들은 0보다 큰(greater than 0) TemporalId를 갖는다. STSA는 TSA 픽처와 유사하지만, 디코딩 순서상 STSA 픽처에 후속하는 보다 높은 부-계층들 내의 픽처들에 대해서는 제한을 부과하지 않기 때문에, STSA 픽처가 상주하는 부-계층 상에서만 업-스위칭이 가능하다.

    비-VCL NAL 유닛은, 예컨대 다음과 같은 타입들 중 하나일 수 있다: 시퀀스 파라미터 세트(sequence parameter set), 픽처 파라미터 세트(picture parameter set), 부가적인 인핸스먼트 정보(supplemental enhancement information (SEI)) NAL 유닛, 액세스 유닛 구분자(access unit delimiter), 시퀀스 NAL 유닛의 종단(end of sequence NAL unit), 비트스트림 NAL 유닛의 종단(end of bitstream NAL unit), 또는 필러 데이터 NAL 유닛(filler data NAL unit). 파라미터 세트는 디코딩된 픽처의 재구성을 위해 필요해질 수 있는 반면, 다수의 다른 비-VCL NAL 유닛은 디코딩된 샘플 값들의 재구성에는 필요하지 않다.

    코딩된 비디오 시퀀스를 통해 변경되지 않고 유지되는 파라미터들은 시퀀스 파라미터 세트에 포함될 수 있다. 시퀀스 파라미터 세트는, 디코딩 프로세스에 의해 필요해질 수 있는 파라미터들 외에도, 버퍼링, 픽처 출력 타이밍, 렌더링, 및 리소스 예약에 대하여 중요할 수 있는 파라미터들을 포함하는 비디오 유용성 정보(VUI)를 선택적으로 포함할 수 있다. 시퀀스 파라미터 세트를 구비하도록 H.264/AVC에서 지정된 3개의 NAL 유닛이 존재한다: 즉, 시퀀스에 있어서 H.264/AVC VCL NAL 유닛에 대한 데이터를 모두 포함하는 시퀀스 파라미터 세트 NAL 유닛, 보조적인 코딩된 픽처들에 대한 데이터를 포함하는 시퀀스 파라미터 세트 확장 NAL 유닛, 및 MVC 및 SVC VCL NAL 유닛에 대한 서브세트 시퀀스 파라미터 세트. HEVC에 있어서, 시퀀스 파라미터 세트 RBSP는 버퍼링 기간 SEI 메시지를 포함하는 하나 이상의 SEI NAL 유닛 또는 하나 이상의 픽처 파라미터 세트 RBSP에 의해 참조될 수 있는 파라미터를 포함한다. 픽처 파라미터 세트는 몇몇 코딩된 픽처에서 변경되지 않을 것 같은 파라미터들을 포함한다. 픽처 파라미터 세트 RBSP는 하나 이상의 코딩된 픽처의 코딩된 슬라이스 NAL 유닛에 의해 참조될 수 있는 파라미터들을 포함할 수 있다.

    HEVC에 있어서, 비디오 파라미터 세트(VPS)는, 각각의 슬라이스 세그먼트 헤더에서 탐색된 신택스 요소에 의해 참조된 PPS에서 탐색된 신택스 요소에 의해 참조된 SPS에서 탐색된 신택스 요소의 콘텐츠에 의해 결정된 바와 같이, 0(zero)개 이상의 전체 코딩된 비디오 시퀀스들에 적용하는 신택스 요소를 포함하는 신택스 구조로서 정의될 수 있다.

    비디오 파라미터 세트 RBSP는 하나 이상의 시퀀스 파라미터 세트 RBSP에 의해 참조될 수 있는 파라미터들을 포함할 수 있다.

    비디오 파라미터 세트(VPS), 시퀀스 파라미터 세트(SPS), 및 픽처 파라미터 세트(PPS)간의 관계 및 계층구성은 아래와 같이 기술될 수 있다. VPS는 파라미터 세트 계층구성에 있어서 및 스케일러빌리티 및/또는 3D 비디오의 콘텍스트에 있어서 SPS보다 한 레벨 상위에 위치한다. VPS는 전체 코딩된 비디오 시퀀스에서 모든(스케일러빌리티 또는 뷰) 계층들에 걸쳐 모든 슬라이스에 대하여 공통인 파라미터들을 포함할 수 있다. SPS는, 전체 코딩된 비디오 시퀀스에서 특정 (스케일러빌리티 또는 뷰) 계층에 있는 모든 슬라이스들에 대하여 공통이며 다수의 (스케일러빌리티 또는 뷰) 계층들에 의해 공유될 수 있는 파라미터들을 포함한다. PPS는, 특정 계층 표현(하나의 액세스 유닛에서 하나의 스케일러빌리티 또는 뷰 계층의 표현)에서 모든 슬라이스에 대하여 공통이며 다수의 계층 표현들에서 모든 슬라이스들에 의해 공유될 것 같은 파라미터들을 포함한다.

    VPS는 비트스트림 내의 계층들의 종속성 관계에 관한 정보 뿐만 아니라 전체 코딩된 비디오 시퀀스에서 모든 (스케일러빌리티 또는 뷰) 계층에 걸쳐 모든 슬라이스들에 적용 가능한 많은 다른 정보를 제공할 수 있다. VPS는 3개의 부분, 즉 베이스 VPS, VPS 확장, 및 VPS VUI를 포함하는 것으로 간주될 수 있고, 여기서 VPS 확장 및 VPS VUI는 선택적으로 존재할 수 있다. HEVC에 있어서, 베이스 VPS는 vps_extension( ) 신택스 구조 없이 video_parameter_set_rbsp( ) 신택스 구조를 포함하는 것으로 간주될 수 있다. video_parameter_set_rbsp( ) 신택스 구조는 주로 이미 HEVC 버전 1에 대하여 지정되었고 베이스 계층 디코딩용으로 이루어질 수 있는 신택스 요소들을 포함한다. HEVC에 있어서, VPS 확장은 vps_extension( ) 신택스 구조를 포함하는 것으로 간주될 수 있다. vps_extension( ) 신택스 구조는 주로 다중-계층 확장규격을 위해 HEVC 버전 2에서 지정되었고, 계층 종속성 관계를 지시하는 신택스 요소와 같이, 하나 이상의 비-베이스 계층의 디코딩용으로 이루어질 수 있는 신택스 요소들을 포함한다. VPS VUI는 디코딩 또는 그 밖의 목적들에 유용할 수 있는 신택스 요소를 포함하지만, HEVC 디코딩 프로세스에서 사용될 필요는 없다.

    H.264/AVC 및 HEVC 신택스는 파라미트 세트들의 다수의 인스턴스(instance)를 허용하고, 각각의 인스턴스는 고유한 식별자로 식별된다. 파라미터 세트들에 필요한 메모리 사용량을 제한하기 위해, 파라미터 세트 식별자들에 대한 값 범위는 제한되어 있다. H.264/AVC 및 HEVC에 있어서, 각각의 슬라이스 헤더는 슬라이스를 포함하는 픽처의 디코딩에 대하여 활성인 픽처 파라미터 세트의 식별자를 포함하고, 각각의 픽처 파라미터 세트는 액티브 시퀀스 파라미터 세트(active sequence parameter set)의 식별자를 포함한다. 그 결과, 픽처 파라미터 세트 및 시퀀스 파라미트 세트의 전송은 슬라이스들의 전송과 정확하게 동기화될 필요가 없다. 대신에, 슬라이스 데이터에 대하여 사용된 프로토콜에 비해 신뢰할 수 있는 전송 메커니즘을 이용하여 파라미터 세트 "out-of-band(대역 외)"의 전송을 허용하는, 액티브 시퀀스 파라미터 세트 및 픽처 파라미터 세트가 참조되기 전의 임의의 순간에 수신되는 것으로 충분하다. 예컨대, 파라미터 세트들은 실시간 전송 프로토콜(Real-time Transport Protocol (RTP)) 세션에 대한 세션 설명(description)에 있어서 파라미터로서 포함될 수 있다. 파라미터 세트들이 대역 내에서 전송되는 경우, 해당 세트들은 에러 로버스트성(error robustness)을 향상시키기 위해 반복될 수 있다.

    대역 외 전송, 시그널링 또는 저장은 액세스의 용이함 또는 세션 절충과 같은 전송 에러에 대한 용인 이외의 다른 목적들에 대하여 부가적으로 또는 대안적으로 사용될 수 있다. 예컨대, ISO 베이스 미디어 파일 포맷(ISO Base Media File Format)에 적합한 파일 내의 트랙의 샘플 엔트리(smaple entry)는 파라미터 세트들을 포함할 수 있는 반면, 비트스트림 내의 코딩된 데이터는 해당 파일 내의 또는 다른 파일 내의 어딘가에 저장된다. 비트스트림을 따르는(along the bitstream)(예컨대, 비트스트림을 따라 지시하는)이라는 구문은 청구항들 및 기술된 실시예들에 있어서 대역 외 데이터가 비트스트림과 연관되는 방식으로 대역 외 전송, 시그널링, 또는 저장을 참조하도록 사용될 수 있다. 비트스트림을 따르는 디코딩(decoding along the bitstream) 등의 구문은 비트스트림과 연관되는 참조된 대역 외 데이터(대역 외 전송, 시그널링, 또는 저장으로부터 취득될 수 있음)를 디코딩하는 것을 참조할 수 있다.

    파라미터 세트는 슬라이스로부터 또는 다른 액티브 파라미터 세트로부터, 또는 경우에 따라 버퍼링 주기 SEI 메시지(buffering period SEI message)와 같은 다른 신택스 구조로부터 참조에 의해 활성화될 수 있다.

    SEI NAL 유닛은, 출력 픽처들의 디코딩에 대해서는 필요 없지만 픽처 출력 타이밍, 렌더링, 에러 검출, 에러 은닉(consealment), 및 리소스 예약과 같이, 관련 프로세스를 보조할 수 있는 하나 이상의 SEI 메시지를 포함할 수 있다. 몇 가지 SEI 메시지가 H.264/AVC 및 HEVC에서 지정되고, 사용자 데이터 SEI 메시지는 기관 및 기업이 자체 용도로 SEI 메시지를 지정하게 할 수 있다. H.264/AVC 및 HEVC는 지정된 SEI 메시지에 대한 신택스 및 시맨틱을 포함하지만, 수신처에서의 메시지의 취급을 위한 프로세스는 정의되어 있지 않다. 그 결과, 인코더는 SEI 메시지를 생성할 때 H.264/AVC 표준 또는 HEVC 표준을 따르도록 하는데 필요하고, H.264/AVC 표준 또는 HEVC 표준에 적합한 디코더들은, 제각기 출력 순서 적합성에 대하여 SEI 메시지를 처리할 필요가 없다. H.264/AVC 및 HEVC에서 SEI 메시지의 신택스 및 시맨틱을 포함해야 하는 이유들 중 하나는 상이한 시스템 사양들이 부가 정보를 동일하게 해석해서 상호 운용될 수 있게 하려는 것이다. 시스템 사양은 인코딩 종단 및 디코딩 종단에서 특정한 SEI 메시지의 사용을 필요로 할 수 있고, 부가적으로 수신처에서 특정한 SEI 메시지를 취급하는 프로세스가 지정될 수 있어야 한다.

    몇 가지의 중첩 SEI 메시지가 AVC 및 HEVC 표준에서 지정되거나 또는 달리 제안되어 있다. 중첩 SEI 메시지의 사상은 하나 이상의 SEI 메시지를 중첩 SEI 메시지 내에 포함하고, 포함된 SEI 메시지를 비트스트림의 서브세트 및/또는 디코딩된 데이터의 서브세트와 연계시키는 메커니즘을 제공하려는 것이다. 중첩 SEI 메지시가 중첩 SEI 메시지 자체가 아닌 하나 이상의 SEI 메시지를 포함하는 것이 필요해질 수 있다. 중첩 SEI 메시지에 내포된 SEI 메시지는 중첩된 SEI 메시지로서 인용될 수 있다. 중첩 SEI 메시지에 내포되지 않은 SEI 메지시는 비-중첩된 SEI 메시지로서 인용될 수 있다. HEVC의 스케일러블 중첩 SEI 메시지는 중첩된 SEI 메시지가 적용되는 비트스트림 서브세트(서브-비트스트림 추출 프로세스에 기인함) 또는 계층들의 세트를 식별할 수 있다. 비트스트림 서브세트는 서브-비트스트림으로서 인용될 수도 있다.

    코딩된 픽처는 픽처의 코딩된 표현이다. H.264/AVC에 있어서 코딩된 픽처는 픽처의 디코딩에 필요한 VCL NAL 유닛을 포함한다. H.264/AVC에 있어서, 코딩된 픽처는 기본 코딩된 픽처(primary coded picture) 또는 중복 코딩된 픽처(redundant coded picture)일 수 있다. 기본 코딩된 픽처는 유효한 비트스트림의 디코딩 프로세스에서 사용되는 반면, 중복 코딩된 픽처는 기본 코딩된 픽처가 성공적으로 디코딩될 수 없을 때에만 디코딩되어야 하는 중복 표현이다. HEVC에 있어서는, 중복 코딩된 픽처가 지정되어 있지 않다.

    H.264/AVC에 있어서, 액세스 유닛(AU)은 기본 코딩된 픽처 및 그것과 연관되는 NAL 유닛들을 포함한다. H.264/AVC에 있어서, 액세스 유닛 내에서 NAL 유닛들의 출현 순서는 다음과 같이 제한된다. 선택적인 액세스 유닛 구분자 NAL 유닛은 액세스 유닛의 시작을 지시할 수 있다. 이어서, 0(zero)개 이상의 SEI NAL 유닛으로 이어진다. 다음으로, 기본 코딩된 픽처의 코딩된 슬라이스들이 나타난다. H.264/AVC에 있어서, 기본 코딩된 픽처의 코딩된 슬라이스는 0(zero)개 이상의 중복 코딩된 픽처들에 대한 코딩된 슬라이스들로 이어질 수 있다. 중복 코딩된 픽처는 픽처의 또는 픽처의 일부의 코딩된 표현이다. 중복 코딩된 픽처는, 예컨대 전송 손실 또는 물리적 저장 매체에서의 오류로 인해 기본 코딩된 픽처가 디코더에 의해 수신되지 않았을 경우에, 디코딩될 수 있다.

    H.264/AVC에 있어서, 액세스 유닛은 기본 코딩된 픽처를 보완하는 픽처인 보조적인 코딩된 픽처를 또한 포함할 수 있고, 예컨대 디스플레이 프로세스에서 사용될 수 있다. 보조적인 코딩된 픽처는, 예컨대 디코딩된 픽처에서 샘플들의 투명도 레벨을 지정하는 알파 채널 또는 알파 평면으로서 사용될 수 있다. 알파 채널 또는 평면은 계층화된 구성 또는 렌더링 시스템에서 사용될 수 있으며, 여기서 출력 픽처는 적층 구성에 있어서 적어도 부분적으로 투명한 픽처들을 중첩하는 것에 의해 형성된다. 보조적인 코딩된 픽처는 단색 중복 코딩된 픽처와 동일한 신택스 및 시맨틱 제한을 갖는다. H.264/AVC에 있어서, 보조적인 코딩된 픽처는 기본 코딩된 픽처와 동일한 수의 마크로블럭을 포함한다.

    HEVC에 있어서, 코딩된 픽처는 해당 픽처의 모든 코딩 트리 유닛을 포함하는 픽처의 코딩된 표현으로서 정의될 수 있다. HEVC에 있어서, 액세스 유닛(AU)은 지정된 분류 규칙에 따라 서로 연관되며, 디코딩 순서가 연속적이고, nuh_layer_id의 임의의 특정 값을 갖는 최대 하나의 픽처를 포함하는 NAL 유닛들의 세트로서 정의될 수 있다. 액세스 유닛은, 코딩된 픽처의 VCL NAL 유닛들을 포함하는 것 외에, 비-VCL NAL 유닛들도 포함할 수 있다.

    비트스트림은, 하나 이상의 코딩된 비디오 시퀀스를 형성하는 코딩된 픽처들 및 연관 데이터의 표현을 형성하는, NAL 유닛 스트림 또는 바이트 스트림 형태의 비트들의 시퀀스로서 정의될 수 있다. 제 1 비트스트림은 통신 프로토콜의 동일한 파일에서 또는 동일한 접속에서와 같이, 동일한 논리 채널에서 제 2 비트스트림으로 이어질 수 있다. 기본 스트림(elementary stream)(비디오 코딩의 콘텍스트에서)은 하나 이상의 비트스트림의 시퀀스로서 정의될 수 있다. 제 1 비트스트림의 종단은, 비트스트림의 종단(end of bitstream (EOB)) NAL 유닛으로서 인용될 수 있으며 해당 비트스트림의 최종 NAL 유닛인 특정 NAL 유닛에 의해 지시될 수 있다. HEVC 및 그 현재 드래프트 확장규격에 있어서, EOB NAL 유닛은 0과 동일한 nuh_layer_id를 가질 필요가 있다.

    H.264/AVC에 있어서, 코딩된 비디오 시퀀스는 포괄적인 IDR 액세스 유닛으로부터, 어느 쪽이든 먼저 나타나는, 배타적인 다음 IDR 액세스 유닛까지, 또는 비트스트림의 종단까지 디코딩 순서에 있어서 연속적인 액세스 유닛들의 시퀀스로 되는 것으로 정의된다.

    HEVC에 있어서, 코딩된 비디오 시퀀스(CVS)는, 예컨대 디코딩 순서상, 1과 동일한 NoRaslOutputFlag를 갖는 IRAP 액세스 유닛에 이어서, 1과 동일한 NoRaslOutputFlag를 갖는 IRAP 액세스 유닛인 임의의 후속 액세스 유닛까지이되, 해당 유닛을 포함하지는 않는 모든 후속 액세스 유닛을 포함하는, 1과 동일한 NoRaslOutputFlag를 갖는 IRAP 액세스 유닛이 아닌 0(zero)개 이상의 액세스 유닛으로 구성되는 액세스 유닛들의 시퀀스로서 정의될 수 있다. IRAP 액세스 유닛은 베이스 계층 픽처가 IRAP 픽처인 액세스 유닛으로서 정의될 수 있다. 디코딩 순서상 비트스트림 내의 해당 특정 계층이 디코딩 순서상 동일한 nuh_layer_id 값을 갖는 시퀀스 NAL 유닛의 종단을 추종하는 제 1 IRAP 픽처인, 제 1 픽처인 각각의 IDR 픽처, 각각의 BLA 픽처, 및 각각의 IRAP 픽처에 대해서는, NoRaslOutputFlag의 값이 1과 동일하다. 다중-계층 HEVC에 있어서, 각각의 IRAP 픽처에 대하여, 그 nuh_layer_id가, IdDirectRefLayer[nuh_layer_id][j]와 동일한 refLayerId의 모든 값들에 대해서는 LayerInitializedFlag[nuh_layer_id]가 0과 동일하고 LayerInitializedFlag[refLayerId]가 1과 동일할 때, NoRaslOutputFlag의 값은 1과 동일하고, 여기서 j는 포괄적인 0 내지 NumDirectRefLayers[nuh_layer_id]―1의 범위 안에 있다. 반면에, NoRaslOutputFlag의 값은 HandleCraAsBlaFlag와 같다. 1과 동일한 NoRaslOutputFlag는 NoRaslOutputFlag가 설정되는 IRAP 픽처와 연관된 RASL 픽처들이 디코더에 의해 출력되지 않는다는 점에 영향을 준다. 디코더를 제어할 수 있는 플레이어 또는 수신처와 같은 외부 엔티티로부터 HandleCraAsBlaFlag의 값을 디코더에 제공하기 위한 수단이 존재할 수 있다. HandleCraAsBlaFlag는, 예컨대 비트스트림 내에서 새로운 위치를 찾거나 브로드캐스트에 채널을 맞춰 디코딩을 시작하고 나서 CRA 픽처로부터의 디코딩을 시작하는 플레이어에 의해 1로 설정될 수 있다. CRA 픽처에 대하여 HandleCraAsBlaFlag가 1과 동일할 경우, CRA 픽처는 마치 BLA 픽처였던 것처럼 취급 및 디코딩된다.

    HEVC에 있어서, 코딩된 비디오 시퀀스는 (상기 표준명세서에 대하여) 부가적으로 또는 대안으로서, 시퀀스의 종단(EOS) NAL 유닛으로서 인용될 수 있는 특정 NAL 유닛이 비트스트림에서 나타나고 0과 동일한 nuh_layer_id를 가질 때, 종단에 대하여 지정될 수 있다.

    HEVC에 있어서, 코딩된 비디오 시퀀스 그룹(CVSG)은, 예컨대 디코딩 순서상, 이미 활성화되어 있지 않던 VPS RBSP firstVpsRbsp를 활성화하는 IRAP 액세스 유닛에 이어서, 비트스트림의 종단까지 또는 firstVpsRbsp와는 다른 VPS RBSP를 활성화하는 액세스 유닛까지이되, 해당 유닛을 제외하고, 디코딩 순서에 있어서 어느 쪽이든 더 빠른, 디코딩 순서상, firstVpsRbsp가 액티브 VPS RBSP인 모든 후속 액세스 유닛들로, 집합적으로 구성되는 디코딩 순서상 하나 이상의 연속적인 CVS들로서 정의될 수 있다.

    픽처 그룹(group of pictures (GOP)) 및 그 특성들은 다음과 같이 정의될 수 있다. GOP는 이전의 어떤 픽처들이 디코딩되었는지의 여부에 관계없이 디코딩될 수 있다. 개방형 GOP는, 개방형 GOP의 초기 인트라 픽처로부터 디코딩을 시작할 때 출력 순서상 초기 인트라 픽처에 선행하는 픽처들이 정확하게 디코딩되지 않을 수 있는 픽처들로 이루어진 그룹이다. 즉, 개방형 GOP의 픽처들은 이전의 GOP에 속하는 픽처들을 (인터 예측에서) 참조할 수 있다. H.264/AVC 디코더는 H.264/AVC 비트스트림 내의 복구 지점 SEI 메시지로부터 개방형 GOP를 시작하는 인트라 픽처를 인식할 수 있다. HEVC 디코더는, 특정 NAL 유닛 타입, CRA NAL 유닛 타입이 그 코딩된 슬라이스들에 대하여 사용될 수 있기 때문에, 개방형 GOP를 시작하는 인트라 픽처를 인식할 수 있다. 폐쇄형 GOP는, 폐쇄형 GOP의 초기 인트라 픽처로부터 디코딩을 시작할 때 모든 픽처들이 정확하게 디코딩될 수 있는 픽처들로 이루어진 그룹이다. 즉, 폐쇄형 GOP에 있어서는, 어떠한 픽처도 이전의 GOP들 내의 임의의 픽처들을 참조하지 않는다. H.264/AVC 및 HEVC에 있어서, 폐쇄형 GOP는 IDR 픽처로부터 시작할 수 있다. HEVC에 있어서, 폐쇄형 GOP는 BLA_W_RADL 또는 BLA_N_LP 픽처로부터 시작할 수도 있다. 개방형 GOP 코딩 구조는, 참조 픽처들의 선택에 있어서의 융통성이 더 많다는 점에서, 압축에 있어서는 폐쇄형 GOP 코딩 구조에 비해 잠재적으로 더욱 효율적이다.

    픽처 구조(Structure of Pictures (SOP))는, 디코딩 순서상 제 1 코딩된 픽처가 최하위 시간적 부-계층에서의 참조 픽처이고 잠재적으로 디코딩 순서상 제 1 코딩된 픽처를 제외한 어떠한 코딩된 픽처도 RAP 픽처가 아닌, 디코딩 순서상 연속적인 하나 이상의 코딩된 픽처로서 정의될 수 있다. 이전 SOP에서의 모든 픽처는 디코딩 순서상 현재 SOP에서의 모든 픽처에 선행하고, 다음 SOP에서의 모든 픽처는 디코딩 순서상 현재 SOP에서의 모든 픽처에 후속한다. SOP는 계층적이고 반복적인 인터 예측 구조를 나타낼 수 있다. 픽처 그룹(GOP)이라는 용어는 때때로 SOP라는 용어와 상호 대체 가능하게 사용될 수 있고, SOP의 시맨틱과 동일한 시맨틱을 갖는다.

    H.264/AVC 및 HEVC의 비트스트림 신택스는 특정 픽처가 임의의 다른 픽처의 인터 예측에 대한 참조 픽처인지의 여부를 지시한다. H.264/AVC 및 HEVC에 있어서, 임의의 코딩 타입(I, P, B)의 픽처는 침조 픽처 또는 비-참조 픽처일 수 있다.

    H.264/AVC는 디코더에서의 메모리 소비를 제어하기 위해 디코딩된 참조 픽처 표기를 위한 프로세스를 지정한다. M으로서 인용되는, 인터 예측에 사용된 참조 픽처의 최대 개수는 시퀀스 파라미터 세트에서 결정된다. 참조 픽처가 디코딩될 때, "used for reference(참조에 사용)"로서 표기된다. 참조 픽처의 디코딩이 M개 이상의 픽처를 "used for reference"로서 표기했다면, 적어도 하나의 픽처는 "unused for reference(참조에 미사용)"로서 표기된다. 디코딩된 참조 픽처 표기에 대해서는 2가지 유형의 동작, 즉 적응형 메모리 제어 및 슬라이딩 윈도우가 존재한다. 디코딩된 참조 픽처 표기에 대한 동작 모드는 픽처를 기준으로 선택된다. 적응형 메모리 제어는 픽처들이 "unused for reference"로서 표기되는 명시적인 시그널링을 가능하게 하고, 또한 장기(long-term) 인덱스를 단기(short-term) 참조 픽처에 할당할 수도 있다. 적응형 메모리 제어는 비트스트림 내의 메모리 관리 제어 동작(memory management control operation (MMCO))의 존재를 필요로 할 수 있다. MMCO 파라미터는 디코딩된 참조 픽처 표기 신택스 구조에 포함될 수 있다. 슬라이딩 윈도우 동작 모드가 사용되고 있고 "used for reference"로서 표기된 M개의 픽처가 존재하면, "used for reference"로서 표기되는 단기 참조 픽처들 중에서 제 1 디코딩된 픽처였던 단기 참조 픽처가 "unused for reference"로서 표기된다. 즉, 이 슬라이딩 윈도우 동작 모드는 단기 참조 픽처들 중에서 선입선출(first-in-first-out) 버퍼링 동작으로 귀결된다.

    H.264/AVC에서의 메모리 관리 제어 동작들 중 하나는 현재 픽처를 제외한 모든 참조 픽처가 "unused for reference"로서 표기되게 한다. 순간적 디코딩 리프레시(IDR) 픽처는 인트라-코딩된 슬라이스들만을 포함하고, 유사한 참조 픽처들의 "reset(리셋)"을 야기한다.

    HEVC에 있어서는, 참조 픽처 표기 신택스 구조 및 관련 디코딩 프로세스는 사용되지 않고, 대신에 참조 픽처 세트(RPS) 신택스 구조 및 디코딩 프로세스가 유사한 목적으로 대신 사용된다. 픽처에 대하여 유효한 또는 활성인 참조 픽처 세트는 픽처에 대하여 참조로서 사용된 모든 참조 픽처 및 디코딩 순서상 임의의 후속 픽처들에 대하여 "used for reference"로서 표기가 유지되는 모든 참조 픽처를 포함한다. RefPicSetStCurr0 (RefPicSetStCurrBefore로도 알려져 있음), RefPicSetStCurr1 (RefPicSetStCurrAfter로도 알려져 있음), RefPicSetStFoll0, RefPicSetStFoll1, RefPicSetLtCurr, 및 RefPicSetLtFoll로서 인용되는 참조 픽처 세트의 6개의 서브세트가 존재한다. RefPicSetStFoll0 및 RefPicSetStFoll1은 공동으로 하나의 서브세트 RefPicSetStFoll을 형성하는 것으로 간주될 수도 있다. 6개의 서브세트의 표기법은 다음과 같다. "Curr"은 현재 픽처의 참조 픽처 리스트에 포함되어서 현재 픽처에 대한 인터 예측 참조로서 사용될 수 있는 참조 픽처를 의미한다. "Foll"은 현재 픽처의 참조 픽처 리스트에 포함되지는 않지만 디코딩 순서상 후속 픽처들에서 참조 픽처로서 사용될 수 있는 참조 픽처를 의미한다. "St"는 일반적으로 그 POC 값의 특정 수의 최하위 비트(least significant bits)를 통해 식별될 수 있는 단기 참조 픽처를 의미한다. "Lt"는 일반적으로 앞서 언급한 특정 수의 최하위 비트에 의해 표현될 수 있는 것보다 현재 픽처에 대하여 큰 POC 값들의 차분을 갖고 명확하게 식별되는 장기 참조 픽처를 의미한다. "0"은 현재 픽처의 것보다 작은 POC 값을 갖는 해당 참조 픽처들을 의미한다. "1"은 현재 픽처의 것보다 큰 POC 값을 갖는 해당 참조 픽처들을 의미한다. RefPicSetStCurr0, RefPicSetStCurr1, RefPicSetStFoll0 및 RefPicSetStFoll1은 총괄하여 참조 픽처 세트의 단기 서브세트로서 인용된다. RefPicSetLtCurr 및 RefPicSetLtFoll은 총괄하여 참조 픽처 세트의 장기 서브세트로서 인용된다.

    HEVC에 있어서, 참조 픽처 세트는 시퀀스 파라미터 세트에서 지정되며 참조 픽처 세트에 대한 인덱스를 통해 슬라이스 헤더에서 사용될 수 있다. 참조 픽처 세트는 또한 슬라이스 헤더에서 지정될 수도 있다. 참조 픽처 세트는 독립적으로 코딩될 수 있거나 또는 다른 참조 픽처 세트로부터 예측될 수 있다(인터-RPS 예측으로서 알려짐). 양 타입의 참조 픽처 세트 코딩에 있어서는, 플래그 (used_by_curr_pic_X_flag)가, 참조 픽처가 현재 픽처에 의해 참조용으로 사용되는지(*Curr 리스트에 포함됨) 또는 아닌지(*Foll 리스트에 포함됨)의 여부를 지시하는 각각의 참조 픽처에 대하여 부가적으로 송신된다. 현재 슬라이스에 의해 사용되는 참조 픽처 세트에 포함되는 픽처들은 "used for reference"로서 표기되고, 현재 슬라이스에 의해 사용되는 참조 픽처 세트에 없는 픽처들은 "unused for reference"로서 표기된다. 현재 픽처가 IDR 픽처이면, RefPicSetStCurr0, RefPicSetStCurr1, RefPicSetStFoll0, RefPicSetStFoll1, RefPicSetLtCurr, 및 RefPicSetLtFoll은 모두 비워지도록 설정된다.

    디코딩된 픽처 버퍼(DPB)는 인코더에서 및/또는 디코더에서 사용될 수 있다. 디코딩된 픽처를 버퍼링하는 두 가지 이유는, 인터 예측에서 참조하기 위한 것 및 디코딩된 픽처를 출력 순서로 재배열하기 위한 것이다. H.264/AVC 및 HEVC가 참조 픽처 표기 및 출력 재배열에 대하여 상당한 융통성을 제공함에 따라, 참조 픽처 버퍼링 및 출력 픽처 버퍼링을 위한 별도의 버퍼들이 메모리 자원을 소모할 수 있다. 이런 이유로, DPB는 참조 픽처 및 출력 재배열에 대한 통일된 디코딩된 픽처 버퍼링 프로세스를 포함할 수 있다. 디코딩된 픽처는, 더 이상 참조로서 사용되지 않고 출력할 필요가 없을 때 DPB로부터 제거될 수 있다.

    H.264/AVC 및 HEVC의 다수의 코딩 모드에 있어서, 인터 예측의 참조 픽처는 참조 픽처 리스트에 대한 인덱스로 지시된다. 인덱스는, 통상적으로 작은 인덱스일수록 상응하는 신택스 요소에 대하여 더 짧은 값을 갖게 하는 가변 길이 코딩(variable length coding)으로 코딩될 수 있다. H.264/AVC 및 HEVC에 있어서는, 각각의 양방향 예측(B) 슬라이스에 대하여 2개의 참조 픽처 리스트(참조 픽처 리스트 0 및 참조 픽처 리스트 1)가 생성되고, 각각의 인터-코딩된(P) 슬라이스에 대하여 하나의 참조 픽처 리스트(참조 픽처 리스트 0)가 형성된다.

    참조 픽처 리스트 0 및 참조 픽처 리스트 1과 같은 참조 픽처 리스트는 통상적으로 두 스텝으로 구성될 수 있는데, 먼저, 초기 참조 픽처 리스트가 생성된다. 초기 참조 픽처 리스트는, 예컨대 frame_num, POC, temporal_id(또는 TemporalId 또는 양쪽 모두), 또는 GOP 구조와 같은 예측 계층구성에 대한 정보, 또는 그 임의의 조합에 근거하여 생성될 수 있다. 다음으로, 초기 참조 픽처 리스트는 슬라이스 헤더에 포함될 수 있는 참조 픽처 리스트 수정 신택스 구조로도 알려져 있는 참조 픽처 리스트 재배열(reference picture list reordering (RPLR)) 커맨드에 의해 재배열될 수 있다. H.264/AVC에 있어서, RPLR 커맨드는 각각의 참조 픽처 리스트의 개시에 대하여 배열되는 픽처들을 지시한다. 이 두 번째 스텝은 또한, 참조 픽처 리스트 수정 프로세스로서 인용될 수도 있고, RPLR 커맨드는 참조 픽처 리스트 수정 신택스 구조에 포함될 수 있다. 참조 픽처 세트가 사용되면, 참조 픽처 리스트 0은 먼저 RefPicSetStCurr0을, 이어서 RefPicSetStCurr1을, 이어서 RefPicSetLtCurr을 포함하도록 초기화될 수 있다. 참조 픽처 리스트 1은 먼저 RefPicSetStCurr1을, 이어서 RefPicSetStCurr0을 포함하도록 초기화될 수 있다. HEVC에 있어서, 초기 참조 픽처 리스트는 참조 픽처 리스트 수정 신택스 구조를 통해 수정될 수 있고, 여기서 초기 참조 픽처 리스트의 픽처들은 리스트에 대한 엔트리 인덱스를 통해 식별될 수 있다. 즉, HEVC에 있어서, 참조 픽처 리스트 수정은 최종 참조 픽처 리스트의 각각의 엔트리에 걸쳐 루프를 포함하는 신택스 구조로 인코딩되고, 여기서 각각의 루프엔트리는 초기 참조 픽처 리스트에 대한 고정-길이의 코딩된 인덱스(fixed-length coded index)이며 최종 참조 픽처 리스트에서 픽처를 오름차순으로 지시한다.

    H.264/AVC 및 HEVC를 포함하는 다수의 코딩 표준은 특정 블럭에 대한 인터 예측을 위해 다수의 참조 픽처들 중 어느 것이 사용되는지를 지시하는데 사용될 수 있는 참조 픽처 리스트에 대한 참조 픽처 인덱스를 도출하기 위한 디코딩 프로세스를 가질 수 있다. 참조 픽처 인덱스는 몇몇 인터 코딩 모드에서 인코더에 의해 비트스트림 내로 코딩될 수 있거나, 또는 예컨대 몇몇 다른 인터 코딩 모드에서 이웃하는 블럭들을 이용하여 (인코더 및 디코더에 의해) 도출될 수 있다.

    움직임 벡터를 비트스트림에서 효율적으로 표현하기 위해, 움직임 벡터는 블럭-지정 예측된 움직임 벡터에 대하여 상이하게 코딩될 수 있다. 다수의 비디오 코덱에 있어서, 예측된 움직임 벡터는 미리 정해진 방식으로, 예컨대 인접 블럭들의 인코딩된 또는 디코딩된 움직임 벡터들의 중간값을 계산함으로써 생성된다. 때때로, 어드밴스드 움직임 벡터 예측(advanced motion vector prediction (AMVP))으로 인용되는 움직임 벡터 예측을 생성하기 위한 다른 방식은, 시간적 참조 픽처 내의 인접 블럭들 및/또는 동일-위치의 블럭들로부터의 후보 예측들의 리스트를 생성하는 것 및 선택된 후보를 움직임 벡터 예측자로서 시그널링하는 것이다. 움직임 벡터 값들을 예측하는 것에 더하여, 미리 코딩/디코딩된 픽처의 참조 인덱스가 예측될 수 있다. 참조 인덱스는 통상적으로 시간적 참조 픽처 내의 인접 블럭들 및/또는 동일-위치의 블럭들로부터 예측된다. 움직임 벡터의 차분 코딩(differential coding)은 통상적으로 슬라이스 경계들에 걸쳐서는 불능화된다.

    HEVC 코덱과 같은 많은 고효율 비디오 코덱은, 흔히 머징/머지 모드/프로세스/메커니즘이라고 불리는 부가적인 움직임 정보 코딩/디코딩 메커니즘을 채용하고, 여기서 블럭/PU의 모든 움직임 필드 정보가 예측되고 어떠한 수정/보정도 없이 사용된다.

    스케일러블 비디오 코딩은 하나의 비트스트림이, 예컨대 상이한 비트레이트들, 해상도들 또는 프레임 레이트들에서 콘텐츠의 다중 표현을 포함할 수 있는 코딩 구조를 참조할 수 있다. 이들 경우에 있어서는, 수신기가 그 특성(예컨대, 디스플레이 장치에 가장 부합하는 해상도)에 따라 바람직한 표현을 추출할 수 있다. 대안으로서, 서버 또는 네트워크 요소가, 예컨대 네트워크 특성 또는 수신기의 처리 능력에 따라 수신기에 송신될 비트스트림의 부분들을 추출할 수 있다. 스케일러블 비트스트림은, 통상적으로 최하위 품질 비디오 가용성을 제공하는 "베이스 계층(base layer)"과, 하위 계층들과 함께 수신 및 디코딩시에 비디오 품질을 향상시키는 하나 이상의 인핸스먼트 계층들로 구성된다. 인핸스먼트 계층들의 코딩 효율을 개선하기 위해, 해당 계층의 코딩된 표현은 하위 계층들에 의존하는 것이 일반적이다. 예컨대, 인핸스먼트 계층의 움직임 및 모드 정보는 하위 계층들로부터 예측될 수 있다. 유사하게, 하부 계층들의 픽셀 데이터는 인핸스먼트 계층에 대한 예측을 생성하는데 사용될 수 있다.

    몇몇 스케일러블 비디오 코딩 스킴에 있어서, 비디오 신호는 베이스 계층 및 하나 이상의 인핸스먼트 계층들에 인코딩될 수 있다. 인핸스먼트 계층은, 예컨대 시간 해상도(즉, 프레임 레이트), 공간 해상도, 또는 단순히 다른 계층 또는 그 일부에 의해 표현된 비디오 콘텐츠의 품질을 향상시킬 수 있다. 각각의 계층은, 그 종속 계층들 모두와 함께, 예컨대 특정한 공간 해상도, 시간 해상도 및 품질 레벨에서의 비디오 신호의 하나의 표현이다. 이 문헌에 있어서는, 스케일러블 계층을, 그 종속 계층들 모두와 함께, "스케일러블 계층 표현(scalable layer representation)"이라고 한다. 스케일러블 계층 표현에 대응하는 스케일러블 비트스트림의 부분이 추출 및 디코딩되어서 특정한 적합도로 오리지널 신호의 표현을 생성할 수 있다.

    스케일러빌리티 모드 또는 스케일러빌리티 차원은 하기의 것들을 포함할 수 있지만, 이들에 한정되는 것은 아니다:

    ― 품질 스케일러빌리티(quality scalability): 베이스 계층 픽처는 인핸스먼트 계층 픽처보다 낮은 품질로 코딩되고, 이는 예컨대 인핸스먼트 계층에서보다 베이스 계층에서 더 큰 양자화 파라미터 값(즉, 변환 계수 양자화에 대한 더 큰 양자화 스텝 사이즈)을 이용해서 달성될 수 있다. 품질 스케일러빌리티는, 아래에서 기술되는 바와 같이, 미세-입자 또는 미세-입도 스케일러빌리티(FGS), 중간-입자 또는 중간-입도 스케일러빌리티(MGS), 및/또는 성긴-입자 또는 성긴-입도 스케일러빌리티(CGS)로 추가적으로 분류될 수 있다.

    ― 공간적 스케일러빌리티(spatial scalability): 베이스 계층 픽처는 인핸스먼트 계층 픽처보다 낮은 해상도(즉, 적은 샘플을 가짐)로 코딩된다. 공간적 스케일러빌리티 및 품질 스케일러빌리티, 특히 그 성긴-입자 스케일러빌리티 타입은 때때로 동일한 타입의 스케일러빌리티로 간주될 수 있다.

    ― 비트-깊이 스케일러빌리티(bit-depth scalability): 베이스 계층 픽처는 인핸스먼트 계층 픽처(예컨대, 10 또는 12비트)보다 낮은 비트-깊이(예컨대, 8비트)로 코딩된다.

    ― 색차 포맷 스케일러빌리티(chroma format scalability): 베이스 계층 픽처는 인핸스먼트 계층 픽처(예컨대, 4:4:4 포맷)보다 색차 샘플 어레이들에 있어서 낮은 공간 해상도(예컨대, 4:2:0 색차 포맷으로 코딩됨)를 제공한다.

    ― 컬러 영역 스케일러빌리티(color gamut scalability): 인핸스먼트 계층 픽처는 베이스 계층 픽처보다 풍부한/넓은 컬러 표현 범위를 갖고 - 예컨대, 인핸스먼트 계층은 UHDTV (TIU-R BT.2020) 컬러 영역을 가질 수 있고, 베이스 계층은 ITU-R BT.709 컬러 영역을 가질 수 있다.

    ― 뷰 스케일러빌리티(view scalability), 멀티뷰 코딩으로 인용될 수도 있음. 베이스 계층은 제 1 뷰를 표현하는 반면, 인핸스먼트 계층은 제 2 뷰를 표현한다.

    - 깊이 스케일러빌리티(depth scalability), 깊이-개선 코딩으로 인용될 수도 있음. 비트스트림의 하나의 계층 또는 몇 개의 계층이 텍스처 뷰(들)(texture view(s))를 표현할 수 있고, 한편 그 밖의 계층 또는 계층들이 깊이 뷰(들)(depth view(s))를 표현할 수 있다.

    ― 관심 영역 스케일러빌리티(region-of-interest scalability)(아래에서 기술되는 바와 같음).

    ― 비월-순행 스케일러빌리티(interlaced-to-progressive scalability)(필드-프레임 스케일러빌리티로도 알려져 있음): 베이스 계층의 코딩된 비월 소스 콘텐츠 재료가 인핸스먼트 계층으로 개선되어서 순행 소스 콘텐츠를 표현한다. 베이스 계층에서 코딩된 비월 소스 콘텐츠는 코딩된 필드, 필드 쌍을 표현하는 코딩된 프레임, 또는 그들의 혼합을 포함할 수 있다. 비월-순행 스케일러빌리티에 있어서, 베이스 계층 픽처는 하나 이상의 인핸스먼트-계층 픽처에 대하여 적절한 참조 픽처로 되도록 리샘플링될 수 있다.

    ― 하이브리드 코덱 스케일러빌리티(hybrid codec scalability)(코딩 표준 스케일러빌리티로도 알려져 있음): 하이브리드 코덱 스케일러빌리티에 있어서, 베이스 계층 및 인핸스먼트 계층의 비트스트림 신택스, 시맨틱 및 디코딩 프로세스는 상이한 비디오 코딩 표준들로 지정된다. 따라서, 베이스 계층 픽처는 인핸스먼트 계층 픽처와는 다른 코딩 표준 또는 포맷에 따라 코딩된다. 예컨대, 베이스 계층은 H.264/AVC로 코딩될 수 있고, 인핸스먼트 계층은 HEVC 다중-계층 확장규격으로 코딩될 수 있다. 보다 일반적으로, 하이브리드 코덱 스케일러빌리티에 있어서, 하나 이상의 계층은 하나의 코딩 표준 또는 표준명세서에 따라 코딩될 수 있고, 그 밖의 하나 이상의 계층은 다른 코딩 표준 또는 표준명세서에 따라 코딩될 수 있다. 예컨대, H.264/AVC의 MVC 확장규격에 따라 코딩된 2개의 계층(그 중에서 하나는 H.264/AVC에 따라 코딩된 베이스 계층임)과, MV-HEVC에 따라 코딩된 하나 이상의 부가적인 계층들이 존재할 수 있다. 또한, 동일한 비트스트림의 상이한 계층들이 코딩되게 하는 코딩 표준 또는 표준명세서의 수는 하이브리드 코덱 스케일러빌리티에서 둘로 한정되지 않을 수 있다.

    다수의 스케일러빌리티 타입들이 결합되어 함께 적용될 수 있음을 이해해야 한다. 예컨대, 컬러 영역 스케일러빌리티 및 비트-깊이 스케일러빌리티가 결합될 수 있다.

    SHVC는 컬러 영역 스케일러빌리티에 대한 3D 조회 테이블(LUT)에 기초하여 가중 예측 또는 컬러-맵핑 프로세스의 이용을 가능하게 한다. 3D LUT 해법은 다음과 같이 기술될 수 있다. 각각의 컬러 성분의 샘플 값 범위는 먼저 2×2×2의 8분 공간(octant)까지 형성하는 2개의 범위로 분할되고, 이후 휘도 범위가 8×2×2의 8분 공간까지로 되는 4개의 부분까지 추가로 분할될 수 있다. 각각의 8분 공간 내에서, 컬러 맵핑을 수행하기 위해 교차 컬러 성분 선형 모델(cross color component linear model)이 적용된다. 각각의 8분 공간에 대하여, 4개의 정점이 비트스트림에 대하여 인코딩 및/또는 디코딩되어서 8분 공간 내에서 선형 모델을 표현한다. 컬러-맵핑 테이블은 각각의 컬러 성분에 대하여 별도로 비트스트림에 대하여 인코딩 및/또는 디코딩된다. 컬러 맵핑은 세 스텝을 수반하는 것으로 간주될 수 있고: 먼저, 정해진 참조-계층 샘플 트리플릿 (Y, Cb, Cr)이 속하는 8분 공간이 결정된다. 다음으로, 컬러 성분 조정 프로세스의 적용을 통해 휘도 및 색차의 샘플 위치들이 정렬될 수 있다. 이어서, 결정된 8분 공간에 대하여 지정된 선형 맵핑이 적용된다. 맵핑은 교차-성분 성질을 가질 수 있고, 즉 하나의 컬러 성분의 입력 값은 다른 컬러 성분의 맵핑된 값에 영향을 미칠 수 있다. 부가적으로, 계층 간 리샘플링이 또한 필요해지는 경우, 리샘플링 프로세스에 대한 입력은 컬러-맵핑되어 있는 픽처이다. 컬러-맵핑은 제 1 비트-깊이의 샘플들을 다른 비트-깊이의 샘플들에 대하여 맵핑할 수 있다(다만, 맵핑하지 않아도 됨).

    참조-계층 픽처 및 인핸스먼트-계층 픽처의 공간적 대응은 추론될 수 있거나 또는 하나 이상의 소위 참조 계층 위치 오프셋 타입들로 지시될 수 있다. HEVC에 있어서, 참조 계층 위치 오프셋은 인코더에 의해 PPS에 포함될 수 있으며 디코더에 의해 PPS로부터 디코딩될 수 있다. 참조 계층 위치 오프셋은 ROI 스케일러빌리티를 달성하는데 사용될 수 있지만, 이것에 한정되는 것은 아니다. 참조 계층 위치 오프셋은 하나 이상의 스케일링된 참조 픽처 오프셋, 참조 영역 오프셋, 및 리샘플링 위상 세트를 포함할 수 있다. 스케일링된 참조 계층 오프셋은, 참조 계층에서 디코딩된 픽처 내의 참조 영역의 좌상(top-left) 휘도 샘플과 연결되는 현재 픽처 내의 샘플 사이의 수평 및 수직 오프셋과, 참조 계층에서 디코딩된 픽처 내의 참조 영역의 우하(bottom-right) 휘도 샘플과 연결되는 현재 픽처 내의 샘플 사이의 수평 및 수직 오프셋을 지정하는 것으로 간주될 수 있다. 다른 방식은, 스케일링된 참조 계층 오프셋에 대하여, 인핸스먼트 계층 픽처의 각각의 코너 샘플들에 대한 업샘플링된(upsampled) 참조 영역의 코너 샘플들의 위치를 지정하는 것이다. 스케일링된 참조 계층 오프셋 값들은 서명될 수 있다. 참조 영역 오프셋은, 참조 계층에서 디코딩된 픽처 내의 참조 영역의 좌상 휘도 샘플과 동일한 디코딩된 픽처의 좌상 휘도 샘플 사이의 수평 및 수직 오프셋 뿐만 아니라, 참조 계층에서 디코딩된 픽처 내의 참조 영역의 우하 휘도 샘플과 동일한 디코딩된 픽처의 우하 휘도 샘플 사이의 수평 및 수직 오프셋을 지정하는 것으로 간주될 수 있다. 참조 영역 오프셋 값들은 서명될 수 있다. 리샘플링 위상 세트는 직접 참조 계층 픽처의 리샘플링 프로세스에서 사용된 위상 오프셋을 지정하는 것으로 간주될 수 있다. 휘도 성분 및 색차 성분에 대하여 상이한 위상 오프셋들이 제공될 수 있다.

    하이브리드 코덱 스케일러빌리티는, 시간적, 품질, 공간적, 멀티뷰, 깊이-개선, 보조 픽처, 비트-깊이, 컬러 영역, 색차 포맷, 및/또는 ROI 스케일러비티와 같은 임의의 타입의 스케일러빌리티와 함께 사용될 수 있다. 하이브리드 코덱 스케일러빌리티는 다른 유형의 스케일러빌리티와 함께 사용될 수 있기 때문에, 상이한 스케일러빌리티 유형 분류를 형성하는 것으로 간주될 수 있다.

    하이브리드 코덱 스케일러빌리티의 사용은, 예컨대 인핸스먼트 계층 비트스트림에서 지시될 수 있다. 예컨대, 다중-계층 HEVC에 있어서, 하이브리드 코덱 스케일러빌리티의 사용은, 예컨대 신택스 요소 vps_base_layer_internal_flag를 이용해서 VPS에서 지시될 수 있다.

    계층이라는 용어는 뷰 스케일러빌리티 및 깊이 인핸스먼트를 포함하는 임의의 타입의 스케일러빌리티의 콘텍스트에서 사용될 수 있다. 인핸스먼트 계층은, SNR, 공간적, 멀티뷰, 깊이, 비트-깊이, 색차 포맷, 및/또는 컬러 영역 인핸스먼트와 같은 임의의 타입의 인핸스먼트를 참조할 수 있다. 베이스 계층은, 베이스 뷰, SNR/공간적 스케일러빌리티에 대한 베이스 계층, 또는 깊이-개선 비디오 코딩에 대한 텍스처 베이스 뷰와 같은 임의의 타입의 베이스 비디오 시퀀스를 참조할 수 있다.

    몇몇 스케일러블 비디오 코딩 스킴은, 액세스 유닛 내의 모든 픽처들이 IRAP 픽처이거나 또는 액세스 유닛 내의 어떠한 픽처도 IRAP 픽처가 아닌 방식으로 IRAP 픽처들이 계층들을 가로질러 정렬되는 것을 필요로 할 수 있다. HEVC의 다중-계층 확장규격과 같은 다른 스케일러블 비디오 코딩 스킴은, 정렬되지 않은, 즉 액세스 유닛 내의 하나 이상의 픽처들이 IRAP 픽처이고, 액세스 유닛 내의 하나 이상의 다른 픽처들은 IRAP 픽처가 아닌, IRAP 픽처들을 허용할 수 있다. 계층들을 가로질러 정렬되지 않은 IRAP 픽처들 또는 유사한 픽처들을 갖는 스케일러블 비트스트림은, 예컨대 베이스 계층에서 더욱 빈번한 IRAP 픽처들의 제공에 사용될 수 있고, 여기서는 예를 들면, 보다 작은 공간 해상도로 인해 보다 작은 코딩된 사이즈를 가질 수 있다. 디코딩의 계층적 개시(layer-wise start-up)를 위한 프로세스 또는 메커니즘은 비디오 디코딩 스킴에 포함될 수 있다. 이런 이유로, 디코더는, 베이스 계층이 IRAP 픽처를 포함할 때 비트스트림의 디코딩을 시작할 수 있고, IRAP 픽처들을 포함할 때 다른 계층들의 디코딩을 점진적으로 시작할 수 있다. 즉, 디코딩 메커니즘 또는 프로세스의 계층적 개시에 있어서, 디코더는, 부가적인 인핸스먼트 계층들로부터의 후속 픽처들이 디코딩 프로세스에서 디코딩됨에 따라, 디코딩된 계층의 수를 계속해서 증가시킨다(여기서, 계층들은 인핸스먼트를 공간 해상도, 품질 레벨, 뷰, 깊이와 같은 부가적인 성분, 또는 그 조합으로 표현할 수 있음). 디코딩된 계층들의 수의 계속적인 증가는, 예컨대 (품질 및 공간적 스케일러빌리티의 경우에) 픽처 품질의 계속적인 향상으로서 여겨질 수 있다.

    계층적 개시 메커니즘은 특정한 인핸스먼트 계층에서 디코딩 순서상 제 1 픽처의 참조 픽처들에 대하여 이용 불가 픽처들을 생성할 수 있다. 대안으로서, 디코더는, 디코딩 순서상, 계층의 디코딩이 시작될 수 있는 IRAP 픽처에 선행하는 픽처들의 디코딩을 생략할 수 있다. 생략될 수 있는 이들 픽처는 인코더에 의해 또는 비트스트림 내의 다른 엔티티에 의해 특별하게 레이블링될 수 있다. 예컨대, 하나 이상의 특정 NAL 유닛 타입이 그것들에 대하여 사용될 수 있다. 이들 픽처는, NAL 유닛 타입으로 특별하게 표기되는지 또는 예컨대, 디코더에 의해 추론되는지의 여부에 관계없이, 교차-계층 랜덤 액세스 스킵(cross-layer random access skip (CL-RAS)) 픽처로 인용될 수 있다. 디코더는 생성된 이용 불가 픽처들 및 디코딩된 CL-RAS 픽처들의 출력을 생략할 수 있다.

    계층적 개시 메커니즘은, 해당 인핸스먼트 계층의 모든 참조 픽처가 참조 계층들 내의 IRAP 픽처와 유사하게 초기화되어 있을 때, 해당 인핸스먼트 계층 내의 IRAP 픽처로부터 인핸스먼트 계층 픽처들의 출력을 시작할 수 있다. 즉, 출력 순서상 상기와 같은 IRAP 픽처에 선행하는 (동일한 계층 내의) 임의의 픽처들은 디코더로부터 출력되지 않을 수 있거나 및/또는 디스플레이되지 않을 수 있다. 경우에 따라, 상기와 같은 IRAP 픽처와 연관된 디코딩 가능한 리딩 픽처들이 디코더에 의해 출력될 수 있지만, IRAP 픽처와 연관된 RASL 픽처들과 같이, 상기와 같은 IRAP 픽처에 선행하는 다른 픽처들은 디코더에 의해 출력되지 않을 수 있거나 및/또는 디스플레이되지 않을 수 있다.

    스플라이싱으로 인용될 수도 있는 코딩된 비디오 데이터의 연결(concatenation)이 발생할 수 있으며, 예컨대 코딩된 비디오 시퀀스들은 브로드캐스트 또는 스트리밍되거나 또는 대형 메모리에 저장되는 비트스트림에 연결된다. 예컨대, 광고 또는 선전을 표현하는 코딩된 비디오 시퀀스들은 영화 또는 그 밖의 "일차(primary)" 콘텐츠와 연결될 수 있다.

    스케일러블 비디오 비트스트림은 계층들을 가로질러 정렬되지 않는 IRAP 픽처들을 포함할 수 있다. 그러나, 반드시 모든 계층일 필요는 없지만, 그 제 1 액세스 유닛에서 베이스 계층 내에 IRAP 픽처를 포함하는 코딩된 비디오 시퀀스의 연결을 가능하게 하는 것이 편리할 수 있다. 제 1 코딩된 비디오 시퀀스 이후에 스플라이싱되는 제 2 코딩된 비디오 시퀀스는 계층적 디코딩 개시 프로세스를 트리거해야 한다. 그것은, 상기 제 2 코딩된 비디오 시퀀스의 제 1 액세스 유닛이 그 모든 계층 내에 IRAP 픽처를 포함하지 않을 수 있기 때문이고, 그런 이유로 해당 액세스 유닛 내의 비-IRAP 픽처들에 대한 몇몇 참조 픽처들은 (연결된 비트스트림에서) 이용 가능하지 않을 수 있으며, 그에 따라 디코딩될 수 없다. 따라서, 이하에서 스플라이서(splicer)로 인용되는, 코딩된 비디오 시퀀스들을 연결하는 엔티티는, 디코더(들)에서 계층적 개시 프로세스를 트리거하도록 제 2 코딩된 비디오 시퀀스의 제 1 액세스 유닛을 수정해야 한다.

    지시(indication)(들)는 비트스트림 신택스에 존재해서 계층적 개시 프로세스의 트리거링을 지시할 수 있다. 이러한 지시(들)는 인코더 또는 스플라이서에 의해 발생될 수 있으며, 디코더에 의해 준수될 수 있다. 이러한 지시(들)는 특정한 픽처 타입(들) 또는 NAL 유닛 타입(들)에 대해서만, 예컨대 IDR 픽처에 대해서만 사용될 수 있거나, 또는 임의의 픽처 타입(들)에 대하여 사용될 수 있다. 보편성을 잃지 않고, 슬라이스 세그먼트 헤더에 포함되는 것으로 간주되는 cross_layer_bla_flag로 불리는 지시를 아래에서 참조한다. 임의의 다른 명칭을 갖거나 또는 임의의 다른 신택스 구조에 포함되는 유사한 지시가 부가적으로 또는 대안으로서 사용될 수 있음을 이해해야 한다.

    계층적 개시 프로세스를 트리거하는 지시(들)와 무관하게, 특정 NAL 유닛 타입(들) 및/또는 픽처 타입(들)이 계층적 개시 프로세스를 트리거할 수 있다. 예컨대, 베이스-계층 BLA 픽처가 계층적 개시 프로세스를 트리거할 수 있다.

    계층적 개시 메커니즘은 하기의 경우들 중 하나 이상의 경우에 개시될 수 있다:

    비트스트림의 초기.

    코딩된 비디오 시퀀스의 초기의, 특별한 제어시, 예컨대 브로드캐스트에 채널을 맞추거나 파일 또는 스트림 내의 위치를 찾기 위한 응답으로서, 예컨대 디코딩 프로세스가 시작 또는 재시작될 때. 디코딩 프로세스는, 비디오 플레이어 등과 같은 외부 수단에 의해 제어될 수 있는, 예컨대 NoClrasOutputFlag로 인용되는 변수를 입력할 수 있다.

    베이스-계층 BLA 픽처.

    1과 동일한 cross_layer_bla_flag를 갖는 베이스-계층 IDR 픽처(또는 1과 동일한 cross_layer_bla_flag를 갖는 베이스-계층 IRAP 픽처).

    1과 동일한 HandleCraAsBlaFlag를 갖는 베이스-계층 CRA 픽처, 여기서 디코딩 프로세스는 외부 수단에 의해 제어될 수 있는 변수 HandleCraAsBlaFlag를 입력한다.

    계층적 개시 메커니즘이 개시될 때, 디코딩 프로세스는 그에 따라 변수들을 설정할 수 있다. 예컨대, 변수 NoClrasOutputFlag는 1과 동일하게 설정될 수 있다.

    디코딩 프로세스는 계층적 개시 프로세스가 사용되는지의 여부를 특정 변수가 제어하는 방식으로 지정될 수 있다. 예컨대, 변수 NoClrasOutputFlag가 사용될 수 있는데, 0과 동일할 때 정상 디코딩 동작을 지시하고, 1과 동일할 때 계층적 개시 동작을 지시하거나, 또는 NoClrasOutputFlag가 1과 동일하게 설정되는 액세스 유닛이 모든 계층들에 IRAP 픽처를 포함할 때 모든 계층이 일반적으로 디코딩되는 디코딩의 시작을 지시한다.

    계층적 개시 메커니즘이 개시될 때, DPB 내의 모든 픽처는 "unused for reference"로서 표기될 수 있다. 즉, 모든 계층 내의 모든 픽처는 "unused for reference"로서 표기될 수 있으며, 계층적 개시 메커니즘을 개시하는 픽처 또는 디코딩 순서상 임의의 후속 픽처에 대한 예측을 위한 참조로서 사용되지 않게 된다.

    계층적 개시를 위한 디코딩 프로세스는, 예컨대 각각의 계층(가능하게는 베이스 계층을 제외하고, 가능하게는 그 밖의 독립적인 계층들도 마찬가지로 제외)에 대한 엔트리를 가질 수 있는 2개의 어레이 변수 LayerInitializedFlag[i] 및 FirstPicInLayerDecodedFlag[i]에 의해 제어될 수 있다. 예컨대 1과 동일한 NoClrasOutputFlag에 대한 응답으로서, 계층적 개시 프로세스가 호출되는 경우, 이들 어레이 변수들은 그들의 디폴트 값으로 재설정될 수 있다. 예컨대, 63개의 계층이 가능해지는 경우(예컨대, 6-비트 nuh_layer_id를 가짐), 변수들은 다음과 같이 재설정될 수 있다: 즉 LayerInitializedFlag[i]는 포괄적인 0 내지 62의 모든 i 값에 대하여 0과 동일하게 설정되고, FirstPicInLayerDecodedFlag[i]는 포괄적인 1 내지 62의 모든 i 값에 대하여 0과 동일하게 설정된다.

    디코딩 프로세스는 하기와 같이 RASL 픽처들의 출력의 제어 또는 그와 유사한 것을 포함할 수 있다. 현재 픽처가 IRAP 픽처인 경우, 다음의 내용이 적용된다:

    - LayerInitializedFlag[nuh_layer_id]가 0과 동일하면, 변수 NoRaslOutputFlag는 1과 동일하게 설정된다.

    - 그밖에, 일부 외부 수단이 변수 HandleCraAsBlaFlag를 현재 픽처에 대한 값으로 설정할 수 있으면, 변수 HandleCraAsBlaFlag는 외부 수단에 의해 제공된 값과 동일하게 설정되고, 변수 NoRaslOutputFlag는 HandleCraAsBlaFlag와 동일하게 설정된다.

    - 그밖에, 변수 HandleCraAsBlaFlag는 0과 동일하게 설정되고, 변수 NoRaslOutputFlag는 0과 동일하게 설정된다.

    디코딩 프로세스는 계층에 대하여 LayerInitializedFlag를 갱신하기 위해 하기의 내용을 포함할 수 있다. 현재 픽처가 IRAP 픽처이고 하기의 내용 중 어느 하나가 참인 경우, LayerInitializedFlag[nuh_layer_id]는 1과 동일하게 설정된다.

    - nuh_layer_id는 0과 동일하다.

    - RefLayerId[nuh_layer_id][j]와 동일한 refLayerId의 모든 값에 대하여 LayerInitializedFlag[nuh_layer_id]가 0과 동일하고 LayerInitializedFlag[refLayerId]가 1과 동일하며, 여기서 j는 포괄적인 0 내지 NumDirectRefLayers[nuh_layer_id]―1의 범위 내이다.

    FirstPicInLayerDecodedFlag[nuh_layer_id]가 0과 동일한 경우, 현재 픽처를 디코딩하기 전에 이용 불가 참조 픽처들을 생성하는 디코딩 프로세스가 호출될 수 있다. 이용 불가 참조 픽처들을 생성하는 디코딩 프로세스는 참조 픽처 세트 내의 각각의 픽처에 대하여 디폴트 값들을 갖는 픽처들을 생성할 수 있다. 이용 불가 참조 픽처들을 생성하는 프로세스는 주로 CL-RAS 픽처들에 대한 신택스 제한의 표준명세서에 대해서만 지정되고, 여기서 CL-RAS 픽처는 layerId와 동일한 nuh_layer_id를 갖는 픽처로서 정의될 수 있고, LayerInitializedFlag[layerId]는 0과 동일하다. HRD 동작에 있어서는, CL-RAS 픽처들이 CPB 도착 및 제거 시간의 도출에 있어서 고려될 필요가 있다. 디코더는 임의의 CL-RAS 픽처들을 무시할 수 있는데, 이들 픽처는 출력을 위해 지정되지 않기 때문이고, 출력을 위해 지정되는 임의의 다른 픽처들의 디코딩 프로세스에는 영향을 주지 않는다.

    교차-계층 랜덤 액세스 스킵드(CL-RAS) 픽처들은, 계층적 개시 메커니즘이 호출되는 경우(예컨대, NoClrasOutputFlag가 1과 동일한 경우), CL-RAS 픽처가 비트스트림에 존재하지 않는 픽처들에 대한 참조를 포함할 수 있기 때문에, CL-RAS 픽처들이 출력되지 않고 정확하게 디코딩되지 않을 수도 있다는 성질을 가질 수 있다. CL-RAS 픽처들은 비-CL-RAS 픽처들의 디코딩 프로세스에 대한 참조 픽처로서 사용되지 않도록 지정될 수 있다.

    CL-RAS 픽처들은 추론될 수 있다. 예컨대, LayerInitializedFlag[layerId]가 0과 동일한 경우, layerId와 동일한 nuh_layer_id를 갖는 픽처가 CL-RAS 픽처라고 추론될 수 있다. 0보다 큰 nuh_layer_id를 갖는 코딩된 픽처의 디코딩이 시작되는 경우, CL-RAS 픽처는 LayerInitializedFlag[layerId]가 0과 동일해지도록 layerId와 동일한 nuh_layer_id를 갖는 픽처로서 정의될 수 있다.

    계층 트리(layer tree)는, 계층들로 이루어진 세트 내의 각각의 계층이 직접 또는 간접 예측된 계층이거나 또는 해당 계층들의 세트 내의 적어도 하나의 다른 계층의 직접 또는 간접 참조 픽처로 되도록 하는 계층들의 세트로서 정의될 수 있고, 또한 해당 계층들의 세트 외측의 계층은 직접 또는 간접 예측된 계층 또는 해당 계층들의 세트 내의 임의의 계층의 직접 또는 간접 참조 계층이 아니다. 직접 예측된 계층은 다른 계층이 직접 참조 계층인 계층으로서 정의될 수 있다. 직접 참조 계층은, 해당 계층이 직접 참조 계층인 다른 계층의 계층 간 예측에 사용될 수 있는 계층으로서 정의될 수 있다. 간접 예측된 계층은 다른 계층이 간접 참조 계층인 계층으로서 정의될 수 있다. 간접 참조 계층은, 제 2 계층의 직접 참조 계층이 아니라, 해당 계층이 간접 참조 계층인 제 2 계층의 직접 참조 계층 또는 직접 참조 계층의 간접 참조 계층인 제 3 계층의 직접 참조 계층인 계층으로서 정의될 수 있다. 독립적인 계층은 어떠한 직접 참조 계층도 갖지 않는 계층으로서 정의될 수 있다. 베이스 계층은 최하위의 가능한 계층 식별자 값을 갖는 계층으로서 정의될 수 있다. 예컨대, HEVC에 있어서 베이스 계층은 0과 동일한 nuh_layer_id를 갖는 계층으로서 정의될 수 있다. 독립적인 비-베이스 계층은 독립적인 계층이지만 베이스 계층은 아닌 계층으로서 정의될 수 있다.

    대안으로서, 계층 트리는 각각의 계층이 해당 계층 트리 내의 적어도 하나의 다른 계층과 계층 간 예측 관계를 갖는 계층들의 세트로서 정의될 수 있고, 또한 계층 트리 외측의 계층은 해당 계층 트리 내의 임의의 계층과 계층 간 예측 관계를 갖는 계층이 아니다.

    계층 서브트리(layer subtree)는 해당 서브세트 내의 계층들의 참조 계층들을 모두 포함하는 계층 트리의 계층들의 서브세트로서 정의될 수 있다.

    비트스트림이 반드시 해당 비트스트림 내에 포함된 또는 외부에서 제공된(하이브리드 코덱 스케일러빌리티의 경우) 베이스 계층(즉, 다중-계층 HEVC 확장규격에서 0과 동일한 nuh_layer_id를 갖는 계층)을 가질 필요는 없으며, 최하위 계층이 독립적인 비-베이스 계층일 수 있다는 것이 제안되어 있다. 베이스 계층이 또는 0과 동일한 nuh_layer_id가 예시들 및 실시예들에서 참조되는 경우, 해당 예시들 및 실시예들은 독립적인 비-베이스 계층에 대하여 또는 독립적인 비-베이스 계층의 것과 동일한 nuh_layer_id에 대하여 유사하게 적용되거나 또는 실현될 수 있다는 점을 이해할 필요가 있다. 비트스트림에 존재하는 최하위 nuh_layer_id를 갖는 계층이 비트스트림의 베이스 계층으로서 간주될 수 있다.

    HEVC에 있어서, VPS 플래그 vps_base_layer_internal_flag 및 vps_base_layer_available_flag는 다음과 같이 베이스 계층의 존재 및 가용성을 지시하기 위해 사용될 수 있고: 즉, vps_base_layer_internal_flag가 1과 동일하고 vps_base_layer_available_flag가 1과 동일하면, 베이스 계층은 비트스트림 내에 존재한다. 그밖에, vps_base_layer_internal_flag가 0과 동일하고 vps_base_layer_available_flag가 1과 동일하면, 베이스 계층은 외부 수단에 의해 다중-계층 HEVC 디코딩 프로세스에 제공되고, 즉 디코딩된 베이스 계층 픽처 뿐만 아니라 디코딩된 베이스 계층 픽처에 대한 특정 변수 및 신택스 요소가 다중-계층 HEVC 디코딩 프로세스에 제공된다. 그밖에, vps_base_layer_internal_flag가 1과 동일하고 vps_base_layer_available_flag가 0과 동일하면, 베이스 계층은 이용 가능하지 않지만(비트스트림에 존재하지도 않고 외부 수단에 의해 제공되지도 않음), VPS는 해당 베이스 계층이 마치 비트스트림에 존재했던 것처럼 베이스 계층의 정보를 포함한다. 그밖에(vps_base_layer_internal_flag가 0과 동일하고 vps_base_layer_available_flag가 0과 동일한 경우), 베이스 계층은 이용 가능하지 않지만(비트스트림에 존재하지도 않고 외부 수단에 의해 제공되지도 않음), VPS는 해당 베이스 계층이 마치 외부 수단에 의해 제공되었던 것처럼 베이스 계층의 정보를 포함한다.

    코딩 표준은 서브-비트스트림 추출 프로세스를 포함할 수 있으며, 이는 예컨대, SVC, MVC, 및 HEVC에서 지정된다. 서브-비트스트림 추출 프로세스는, 통상적으로 NAL 유닛을 제거함으로써, 비트스트림을 비트스트림 서브세트로서 인용될 수도 있는 서브-비트스트림으로 전환하는 것에 관련된다. 서브-비트스트림도 여전히 표준에 적합하게 유지된다. 예컨대, HEVC에 있어서, 선택된 값보다 큰 TemporalId 값을 갖는 모든 VCL NAL 유닛을 제외하고 그 밖의 VCL NAL 유닛을 모두 포함하는 것에 의해 생성된 비트스트림은 적합하게 유지된다.

    HEVC 표준(버전 2)은 3가지의 서브-비트스트림 추출 프로세스를 포함한다. HEVC 표준의 10절에 있는 서브-비트스트림 추출 프로세스는, 베이스 계층이 외부 계층이거나(이 경우에는 vps_base_layer_internal_flag가 0과 동일함) 또는 이용할 수 없는 계층인(이 경우에는 vps_base_layer_available_flag가 0과 동일함) 비트스트림에 대해서도 최종 서브-비트스트림에 대한 비트스트림 적합성 요건이 사용될 수 있도록 F.10.1 절에서 완화되는 것을 제외하면, F.10.1 절에서의 프로세스와 동일하다. 0과 동일한 nuh_layer_id를 갖는 VCL NAL 유닛은 0과 동일한 vps_base_layer_available_flag를 갖는 비트스트림에 존재하지 않고, 최하위 nuh_layer_id 값을 갖는 계층은 시맨틱 및/또는 디코딩 프로세스에서 베이스 계층처럼 취급될 수 있다. HEVC 표준(버전 2)의 F.10.3 절은, 결국 베이스 계층을 포함하지 않는 서브-비트스트림으로 되는, 부가적인 계층 세트들에 대한 서브-비트스트림 추출 프로세스를 지정한다. 3가지의 서브-비트스트림 추출 프로세스는 모두 유사하게 동작하고: 즉 서브-비트스트림 추출 프로세스는 TemporalId 및/또는 nuh_layer_id 값들의 리스트를 입력으로서 취하고, 입력 TemporalId 값보다 큰 TemporalId 또는 nuh_layer_id 값들의 입력 리스트 내의 값들 중에 없는 nuh_layer_id 값을 갖는 모든 NAL 유닛을 비트스트림으로부터 제거함으로써 서브-비트스트림(비트스트림 서브세트라고도 알려져 있음)을 도출한다. F.10.3 절은 특별히 0과 동일한 nuh_layer_id를 갖는 특정한 타입의 NAL 유닛을 다루고, 또한 VPS에서 vps_base_layer_available_flag의 값을 설정한다. F.10.3 절의 프로세스는 다음과 같이 지정될 수 있다:

    - 출력 비트스트림 outBitstream이 입력 비트 스트림 inBitstream과 동일하게 설정된다.

    - VPS_NUT, SPS_NUT, PPS_NUT, EOS_NUT, 및 EOB_NUT와 동일하지 않은 nal_unit_type을 갖고 nuh_layer_id 값들의 입력 리스트, 즉 layerIdListTarget 내의 임의의 값과 동일하지 않은 nuh_layer_id를 갖는 NAL 유닛들은 outBitstream으로부터 제거된다.

    - VPS_NUT, SPS_NUT, PPS_NUT, 또는 EOS_NUT와 동일한 nal_unit_type을 갖고 0 또는 layerIdListTarget 내의 임의의 값과 동일하지 않은 nuh_layer_id를 갖는 NAL 유닛들은 outBitstream으로부터 제거된다.

    - 입력 TemporalId, 즉 tIdTarget보다 큰 TemporalId를 갖는 모든 NAL 유닛은 outBitstream으로부터 제거된다.

    - 각각의 VPS 내의 vps_base_layer_available_flag는 0과 동일하게 설정된다.

    코딩 표준 또는 시스템은 디코딩이 동작하는 스케일러블 계층 및/또는 부-계층을 지시할 수 있거나 및/또는 디코딩된 스케일러블 계층 및/또는 부-계층을 포함하는 서브-비트스트림과 연관될 수 있는 동작 지점(operation point)이라는 용어 등을 참조할 수 있다. 동작 지점에 대한 몇몇 비-제한적인 정의가 하기에서 제공된다.

    HEVC에 있어서, 동작 지점은 다른 비트스트림, 목표 최상위 TemporalId, 및 목표 계층 식별자 리스트를 입력으로 해서 서브-비트스트림 추출 프로세스의 동작에 의해 다른 비트스트림으로부터 생성된 비트스트림으로서 정의된다.

    HEVC의 VPS는 계층 세트들 및 이 계층 세트들에 대한 HRD 파라미터들을 지정한다. 계층 세트는 서브-비트스트림 추출 프로세스 내의 목표 계층 식별자 리스트로서 사용될 수 있다. HEVC에 있어서, 계층 세트는 다른 비트스트림, 6과 동일한 목표 최상위 TemporalId, 및 해당 계층 세트와 연관되는 계층 식별자 리스트와 동일한 목표 계층 식별자 리스트를 입력으로 해서 서브-비트스트림 추출 프로세스의 동작에 의해 다른 비트스트림으로부터 생성된 비트스트림 내에서 표현되는 계층들의 세트로서 정의될 수 있다.

    부가적인 계층 세트는 하나 이상의 비-베이스 계층 서브트리의 계층들의 세트를 갖는 비트스트림의 계층들의 세트로서 정의될 수 있다. 부가적인 계층 세트는 해당 부가적인 계층 세트에서 제외된 계층들에 의존하지 않는 계층들의 세트로서 이해될 수 있다. HEVC에 있어서, HEVC 버전 1에서 지정된 VPS 신택스는 부가적인 계층 세트의 지시를 가능하게 하지 않고, 즉 HEVC 버전 1에서 지정된 VPS에서 지시된 계층 세트들 내에 베이스 계층이 존재할 필요가 있다. HEVC 버전 2에서 지정된 VPS 확장 신택스는 부가적인 계층 세트들에 대한 지시를 가능하게 한다.

    계층 세트들 및 부가적인 계층 세트들은, 예컨대 출력 계층 세트들의 도출 및 지시에 있어서 이들을 사용하게 되는 경우, 동등하게 취급될 수 있다. 문맥에서 달리 지시되지 않는 한, 계층 세트라는 용어는 위에서 정의된 바와 같이 계층 세트라는 용어와 부가적인 계층 세트라는 용어를 모두 포괄하는 총괄적인 용어로서 이해될 수 있다.

    출력 계층은 디코딩된 픽처들이 디코딩 프로세스에 의해 출력되는 계층으로서 정의될 수 있다. 출력 계층들은 다중-계층 비트스트림의 어떤 서브세트가 디코딩되는지에 의존할 수 있다. 디코딩 프로세스에 의해 출력된 픽처들은 추가로 처리될 수 있으며, 예컨대 YUV 컬러 공간으로부터 RGB로의 컬러 공간 변환이 수행될 수 있으며, 이들이 디스플레이될 수 있다. 그러나, 추가적인 처리 및/또는 디스플레이는 디코더 외부에서의 프로세스 및/또는 디코딩 프로세스로 간주될 수 있으며, 일어나지 않을 수도 있다.

    다중-계층 비디오 비트스트림에 있어서, 동작 지점 정의는 목표 출력 계층 세트에 대한 고려를 포함할 수 있다. 예컨대, 동작 지점은 다른 비트스트림, 목표 최상위 시간적 부-계층(예컨대, 목표 최상위 TemporalId), 및 목표 계층 식별자 리스트를 입력으로 해서 서브-비트스트림 추출 프로세스의 동작에 의해 다른 비트스트림으로부터 생성되며 출력 계층들의 세트와 연관되는 비트스트림으로서 정의될 수 있다. 대안으로서, 출력 동작 지점(output operation point)과 같은 다른 용어가 동작 지점 및 관련 출력 계층들의 세트를 참조할 때 사용될 수 있다. 예컨대, MV-HEVC/SHVC에 있어서, 출력 동작 지점은 입력 비트스트림, 목표 최상위 TemporalId, 및 목표 계층 식별자 리스트를 입력으로 해서 서브-비트스트림 추출 프로세스의 동작에 의해 입력 비트스트림으로부터 생성되며 출력 계층들의 세트와 연관되는 비트스트림으로서 정의될 수 있다.

    출력 계층 세트(output layer set (OLS))는 지정된 계층 세트들 중 한 세트의 계층들로 구성되는 계층 세트로서 정의될 수 있으며, 여기서 해당 계층 세트 내의 하나 이상의 계층이 출력 계층으로 지시된다. 출력 계층은, 출력 계층 세트를 목표 출력 계층 세트로서 사용해서 디코더 및/또는 HRD가 동작할 때 출력되는 출력 계층 세트의 계층으로서 정의될 수 있다. MV-HEVC/SHVC에 있어서, 목표 출력 계층 세트인 출력 계층 세트의 인덱스와 동일한 TargetOlsIdx를 설정하는 것에 의해, 변수 TargetOlsIdx는 어느 출력 계층 세트가 목표 출력 계층 세트인지 지정할 수 있다. 목표 출력 계층 세트는 인덱스가 TargetOlsIdx와 동일한 출력 계층 세트로서 정의될 수 있다. TargetOlsIdx는, 예컨대 HRD에 의해 설정될 수 있거나, 및/또는 예컨대 디코더에 의해 제공된 인터페이스를 통해 플레이어 등과 같은 외부 수단에 의해 설정될 수 있다. MV-HEVC/SHVC에 있어서, 출력 계층은 TargetOlsIdx가 출력 계층 세트의 인덱스와 동일할 경우에 출력되는 출력 계층 세트의 계층으로서 정의될 수 있다.

    필수 계층(necessary layer)은 출력 계층 세트와 연관된 출력 동작 지점 내의 계층으로서 정의될 수 있으며, 해당 계층은 출력 계층 세트의 출력 계층이거나 또는 출력 계층 세트의 출력 계층의 참조 계층이다.

    MV-HEVC/SHVC는 특정한 메커니즘을 이용해서 또는 출력 계층들을 명시적으로 지시함으로써 VPS에서 지정된 각각의 계층 세트에 대한 "디폴트(default)" 출력 계층 세트의 도출을 가능하게 한다. 두 가지의 특정 메커니즘이 지정되어 있다: 즉, "디폴트" 출력 계층 세트에 있어서 각각의 계층이 출력 계층이거나 또는 최상위 계층만이 출력 계층임이 VPS에서 지정될 수 있다. 앞서 언급한 특정 메커니즘들을 이용하여 계층이 출력 계층인지의 여부의 결정시에는, 보조 픽처 계층들은 고려에서 제외될 수 있다. 또한, "디폴트" 출력 계층 세트들에 대하여, VPS 확장은 출력 계층들이라고 지시된 선택된 계층들을 갖는 부가적인 출력 계층 세트들을 지정할 수 있다.

    특정 계층 세트, 부가적인 계층 세트, 또는 출력 계층 세트는 인덱스를 통해 참조될 수 있고, 인덱스들은 해당 순서의 계층 세트들에 따라 할당될 수 있고, 부가적인 계층 세트들 및 출력 계층 세트들은 VPS에서 지시된다. 출력 계층 세트들이 계층 세트들 및 부가적인 계층들과 동일한 인덱스 공간을 사용할 수 있기 때문에, 각각의 계층 세트 및 부가적인 계층 세트에 대한 "디폴트" 출력 계층 세트들은 각각의 계층 세트 또는 부가적인 계층의 인덱스를 갖고, 부가적인 출력 계층 세트들은 계층 세트들 또는 부가적인 계층 세트들에 의해 사용된 값들을 넘는 인덱스 값들을 사용한다.

    송신기, 게이트웨이 등은 스케일러블 비디오 비트스트림의 전송된 계층들 및/또는 부-계층들을 선택할 수 있다. 계층 추출, 계층들의 추출, 또는 계층 다운-스위칭(layer down-switching)이라는 용어들은 송신기, 게이트웨이 등에 의해 수신된 비트스트림에서 이용할 수 있는 것보다 적은 수의 계층을 전송하는 것을 참조할 수 있다. 계층 업-스위칭(layer up-switching)은, 계층 업-스위칭에 앞서 전송된 것들에 비해 추가적인 계층(들)을 송신기, 게이트웨이 등에 의해 전송하는 것, 즉 계층 다운-스위칭에서 조기에 전송이 중단되었던 하나 이상의 계층의 전송을 재시작하는 것을 참조할 수 있다. 계층 다운-스위칭 및/또는 업-스위칭과 유사하게, 송신기, 게이트웨이 등은 시간적 부-계층들의 다운-스위칭 및/또는 업-스위칭을 수행할 수 있다. 송신기, 게이트웨이 등은 계층 및 부-계층 다운-스위칭 및/또는 업-스위칭을 모두 수행할 수도 있다. 계층 및 부-계층 다운-스위칭 및/또는 업-스위칭은 동일한 액세스 유닛 등에서(즉, 사실상 동시에) 수행될 수 있거나, 또는 상이한 액세스 유닛 등에서(즉, 사실상 구별되는 시간들에) 수행될 수 있다.

    일정한 출력 계층 세트는 최상위 계층이 각각의 액세스 유닛에서 변경되지 않는 사용 사례 및 비트스트림에 적합하고, 최상위 계층이 하나의 액세스 유닛에서 다른 액세스 유닛으로 변경되는 사용 사례를 지원하지 않을 수 있다. 따라서, 인코더가 비트스트림 내에서의 대체 출력 계층들의 사용을 지정할 수 있고 대체 출력 계층들의 지정된 사용에 응답하여 디코더가 동일한 액세스 유닛 내에서의 출력 계층 내에 픽처가 없을 경우에 대체 출력 계층으로부터 디코딩된 픽처를 출력하는 것이 제안되어 있다. 대체 출력 계층들을 지시하는 방법은 여러 가지가 있다. 예컨대, 출력 계층 세트 내의 각각의 출력 계층은 최소 대체 출력 계층과 연관될 수 있고, 출력-계층적 신택스 요소(output-layer-wise syntax element)(들)는 각각의 출력 계층에 대하여 대체 출력 계층(들)을 지정하는데 사용될 수 있다. 대안으로서, 대체 출력 계층 세트 메커니즘은 단 하나의 출력 계층만을 포함하는 출력 계층 세트들에 대해서만 사용되도록 제한될 수 있고, 출력-계층-세트적 신택스 요소(output-layer-set-wise syntax element)(들)는 출력 계층 세트의 출력 계층에 대하여 대체 출력 계층(들)을 지정하는데 사용될 수 있다. 대안으로서, HEVC에서 지정된 바와 같이, 대체 출력 계층 세트 메커니즘은 단 하나의 출력 계층만을 포함하는 출력 계층 세트들에 대해서만 사용되도록 제한될 수 있고, 출력-계층-세트적 (output-layer-set-wise) 플래그(HEVC에 있어서는 alt_output_layer_flag[olsIdx])는 출력 계층의 임의의 직접 또는 간접 참조 계층이 출력 계층 세트의 출력 계층에 대한 대체 출력 계층으로서 기능할 수 있음을 지정하는데 사용될 수 있다. 대안으로서, 대체 출력 계층 세트 메커니즘은 지정된 출력 계층 세트들이 전부 단 하나의 출력 계층만을 포함하는 비트스트림 또는 CVS에 대해서만 사용되도록 제한될 수 있고, 대체 출력 계층(들)은 비트스트림적 또는 VCS적 신택스 요소(bitstream- or CVS-wise syntax element)(들)에 의해 지시될 수 있다. 대체 출력 계층(들)은, 예컨대 최소 대체 출력 계층(예컨대, 직접 또는 간접 참조 계층들의 리스트 내의 그 계층 식별자 또는 그 인덱스를 이용)을 지시하는 대체 출력 계층들(예컨대, 직접 또는 간접 참조 계층들의 리스트의 그들의 계층 식별자들 또는 인덱스들을 이용), 또는 임의의 직접 또는 간접 참조 계층이 대체 출력 계층임을 지정하는 플래그를, 예를 들면 VPS 내에 열거함으로써 지정될 수 있다. 하나 이상의 대체 출력 계층이 사용될 수 있게 되는 경우, 지시된 최소 대체 출력 계층까지 내림차순의 계층 식별자 순서로 액세스 유닛 내에 존재하는 제 1 직접 또는 간접 계층 간 참조 픽처가 출력되는 것으로 지정될 수 있다.

    스케일러블 코딩 내의 픽처 출력은, 예컨대 다음과 같이 제어될 수 있다: 즉, 각각의 픽처에 대하여 PicOutputFlag는 먼저 디코딩 프로세스에 있어서 단일-계층 비트스트림에 대한 것과 유사하게 도출된다. 예컨대, 해당 픽처에 대하여 비트스트림에 포함된 pic_output_flag는 PicOutputFlag의 도출에 있어서 고려될 수 있다. 액세스 유닛이 디코딩되어 있을 경우, 출력 계층들 및 가능한 대체 출력 계층들은 해당 액세스 유닛의 각각의 픽처에 대하여 PicOutputFlag를 갱신하는데 사용된다.

    비트스트림이 대체 출력 계층 메커니즘의 사용을 지정하는 경우, 디코딩 프로세스로부터 디코딩된 픽처 출력을 제어하게 될 경우 디코딩 프로세스는 다음과 같이 동작할 수 있다. 여기서, HEVC 디코딩이 사용되고 있고 alt_output_layer_flag[TargetOlsIdx]가 1과 동일하지만, 디코딩 프로세스는 다른 코덱들과 유사하게 실현될 수 있는 것으로 가정한다. 픽처의 디코딩이 완료될 때, 해당 픽처에 대한 변수 PicOutputFlag는 다음과 같이 설정될 수 있다:

    LayerInitializedFlag[nuh_layer_id]가 0과 동일하면, PicOutputFlag는 0과 동일하게 설정된다.

    반면에, 현재 픽처가 RASL 픽처이고 연관된 IRAP 픽처의 NoRaslOutputFlag가 1과 동일하면, PicOutputFlag는 0과 동일하게 설정된다.

    반면에, PicOutputFlag는 pic_output_flag와 동일하게 설정되고, 여기서 pic_output_flag는 해당 픽처와 연관된, 예컨대 해당 픽처의 코딩된 슬라이스들의 슬라이스 헤더에 구비된 신택스 요소이다. 부가적으로, 액세스 유닛의 최종 픽처의 디코딩이 완료되는 경우, 액세스 유닛의 각각의 디코딩된 픽처의 PicOutputFlag는 (다음 픽처의 디코딩에 앞서) 다음과 같이 갱신될 수 있다:

    alt_output_layer_flag[TargetOlsIdx]가 1과 동일하고, 현재의 액세스 유닛이 출력 계층에 픽처를 포함하지 않거나 또는 0과 동일한 PicOutputFlag를 갖는 출력 계층에 픽처를 포함하면, 다음과 같은 순서의 스텝들이 적용된다:

    리스트 nonOutputLayerPictures는, 1과 동일한 PicOutputFlag를 갖는 한편, 출력 계층의 참조 계층들의 nuh_layer_id 값들 중에서 nuh_layer_id 값들을 갖는 액세스 유닛의 픽처들의 리스트로 되게 설정된다.

    리스트 nonOutputLayerPictures가 비어 있지 않을 경우, 리스트 nonOutputLayerPictures 중에서 최상위 nuh_layer_id 값을 갖는 픽처는 리스트 nonOutputLayerPictures로부터 제거된다.

    리스트 nonOutputLayerPictures에 포함되는 각각의 픽처에 대한 PicOutputFlag는 0과 동일하게 설정된다.

    반면에, 출력 계층에 포함되지 않는 픽처들에 대한 PicOutputFlag는 0과 동일하게 설정된다.

    이전의 단락에서 기술된 바와 같이, 대체 출력 계층 메커니즘이 사용되고 있을 경우, 액세스 유닛의 디코딩된 픽처(들)가 디코딩 프로세스에 의해 출력되는 것으로 결정될 수 있기 전에 액세스 유닛의 디코딩이 완료될 필요가 있을 수 있다.

    인터넷 식별자(uniform resource identifier (URI))는 리소스의 명칭을 식별하는데 사용된 문자들의 문자열로서 정의될 수 있다. 상기와 같은 식별은 특정한 프로토콜을 이용해서 네트워크를 통한 리소스의 표현과의 상호작용을 가능하게 한다. URI는 URI에 대한 구체적인 신택스 및 연관된 프로토콜을 지정하는 스킴을 통해 정의된다. URL(uniform resource locator) 및 URN(uniform resource name)은 URI의 형식들이다. URL은, 웹 리소스를 식별하고, 그 기본 액세스 메커니즘 및 네트워크 위치를 모두 지정하는, 해당 리소스의 표현에 따라 행동하거나 해당 표현을 취득하는 수단을 지정하는 URI로서 정의될 수 있다. URN은 특정 명칭 공간(namespace)에서 명칭으로 리소스를 식별하는 URI로서 정의될 수 있다. URN은 그 위치 또는 그것에 액세스하는 방법을 암시하지 않고 리소스를 식별하는데 사용될 수 있다.

    가용 미디어 파일 포맷 표준은 ISO 베이스 미디어 파일 포맷(ISOBMFF로 약기될 수 있는 ISO/IEC 14496-12), MPEG-4 파일 포맷(MP4 포맷으로도 알려져 있는 ISO/IEC 14496-14), NAL 유닛 구조의 비디오에 대한 파일 포맷(ISO/IEC 14496-15) 및 3GPP 파일 포맷(3GP 포맷으로도 알려져 있는 3GPP TS 26.244)을 포함한다. ISO/IEC 14496-15는 H.264/AVC 및/또는 HEVC의 비트스트림들 및/또는 그들의 확장규격의 저장을 ISOBMFF 호환 파일로 지정한다. ISO 파일 포맷은 위에서 언급한 모든 파일 포맷(ISO 파일 포맷 자체는 제외)의 도출을 위한 베이스이다. 이들 파일 포맷(ISO 파일 포맷 자체를 포함)은 일반적으로 ISO 계열의 파일 포맷으로 불린다.

    ISOBMFF의 몇몇 개념, 구조, 및 사양은 컨테이너 파일 포맷의 일례로서 후술되고, 그에 기초하여 실시예들이 구현될 수 있다. 본 발명의 양태들은 ISOBMFF에 한정되는 것이 아니고, 오히려 본 발명이 부분적으로 또는 완전히 실현될 수 있는 가능한 기준에 대하여 설명이 이루어진다.

    ISO 베이스 미디어 파일 포맷에서의 하나의 빌딩 블럭을 박스(box)라고 부른다. 각각의 박스는 헤더(header) 및 페이로드(payload)를 구비할 수 있다. 박스 헤더는 박스의 타입 및 박스의 사이즈를 바이트 단위로 나타낸다. 박스는 다른 박스들을 둘러쌀 수 있고, ISO 파일 포맷은 특정 타입의 박스 내에서 어떤 박스 타입들이 허용되는지를 지정한다. 또한, 몇 가지 박스의 존재는 각각의 파일에 있어서 의무사항일 수 있지만, 그 밖의 박스들의 존재는 선택사항일 수 있다. 부가적으로, 몇 가지 박스 타입의 경우에는, 파일 내에 하나 이상의 박스가 존재하는 것이 허용될 수 있다. 따라서, ISO 베이스 미디어 파일 포맷은 계층적인 박스 구조를 지정하는 것으로 간주될 수 있다. ISO 베이스 미디어 파일의 각각의 박스는 4개의 문자 코드(4CC)에 의해 식별될 수 있다. 헤더는 박스의 타입 및 사이즈에 관한 정보를 제공할 수 있다.

    ISO 계열의 파일 포맷에 따라, 파일은 별도의 박스들에 둘러싸일 수 있는 미디어 데이터 및 메타데이터를 포함할 수 있다. 예시적인 실시예에 있어서, 미디어 데이터는 미디어 데이터(mdat) 박스에 제공될 수 있고, 무비(moov) 박스는 메타데이터를 둘러싸는데 사용될 수 있다. 경우에 따라, 동작될 파일에 대하여, mdat 및 moov 박스가 모두 존재해야 한다. 무비(moov) 박스는 하나 이상의 트랙을 포함할 수 있고, 각각의 트랙은 하나의 상응하는 트랙(trak) 박스에 속할 수 있다. 각각의 트랙은 트랙 타입을 지정하는 4개의 문자 코드에 의해 식별되는 핸들러(handler)와 연관된다. 비디오, 오디오, 및 이미지 시퀀스 트랙을 통칭해서 미디어 트랙이라고 부를 수 있고, 이들은 기본 미디어 스트림을 포함한다. 그 밖의 트랙 타입들은 힌트(hint) 트랙 및 시간 지정(timed) 메타데이터 트랙을 포함한다. 트랙들은 오디오 또는 비디오 프레임과 같은 샘플을 포함한다. 미디어 트랙은 미디어 압축 포맷(및 ISO 베이스 미디어 파일 포맷에 대한 그 캡슐화)에 따라 형식화된 샘플(미디어 샘플이라고 인용될 수도 있음)을 참조한다. 힌트 트랙은 지시된 통신 프로토콜을 통한 전송을 위한 패킷을 구성하는 쿡북 명령어(cookbook instructions)을 포함하는 힌트 샘플을 참조한다. 쿡북 명령어는 패킷 헤더 구성에 대한 안내를 포함할 수 있고 패킷 페이로드 구성을 포함할 수 있다. 패킷 페이로드 구성에 있어서는, 다른 트랙들 또는 아이템들에 있는 데이터가 참조될 수 있다. 상술한 바와 같이, 예컨대 다른 트랙들 또는 아이템들에 있는 데이터는, 패킷 구성 프로세스 동안 특정 트랙 또는 아이템에서의 어느 데이터 부분이 패킷에 복사되도록 명령을 받는지에 대하여 참조에 의해 지시될 수 있다. 시간 지정 메타데이터 트랙은 참조된 미디어를 기술하는 샘플 및/또는 힌트 샘플을 참조할 수 있다. 한 가지 미디어 타입의 프레젠테이션을 위해서, 하나의 미디어 트랙이 선택될 수 있다. 트랙의 샘플들은, 예컨대 샘플들의 지시된 디코딩 순서에 있어서 1씩 증가될 수 있는 샘플 번호들과 묵시적으로 연관될 수 있다. 트랙 내의 제 1 샘플은 샘플 번호 1과 연관될 수 있다.

    'trak' 박스는 샘플 테이블(Sample Table) 박스를 포함한다. 샘플 테이블 박스는, 예컨대 트랙 내의 미디어 샘플들의 시간 및 데이터 인덱싱을 모두 포함한다. 샘플 테이블 박스는 샘플 설명(Sample Description) 박스를 포함할 필요가 있다. 샘플 설명 박스는 해당 박스에 포함된 샘플 엔트리의 수를 지정하는 엔트리 카운트 필드를 포함한다. 샘플 설명 박스는 적어도 하나의 샘플 엔트리를 포함할 필요가 있다. 샘플 엔트리 포맷은 트랙에 대한 핸들러 타입에 의존한다. 샘플 엔트리들은 사용된 코딩 타입에 관한 상세한 정보 및 그 코딩에 필요한 임의의 초기화 정보를 제공한다.

    ISO 베이스 미디어 파일 포맷은 프레젠테이션이 하나의 파일에 포함되도록 제한하지 않는다. 이와 같이, 프레젠테이션은 몇 개의 파일 내에 포함될 수 있다. 일례로서, 하나의 파일은 전체 프레젠테이션에 대한 메타데이터를 포함할 수 있으며, 이로써 자립형 프레젠테이션을 만들기 위해 미디어 데이터를 모두 포함할 수 있다. 그 밖의 파일들은, 사용될 경우, ISO 베이스 미디어 파일 포맷으로 형식화될 필요가 없을 수도 있으며, 미디어 데이터를 포함하도록 사용될 수 있고, 또한 미사용 미디어 데이터, 또는 그 밖의 정보를 포함할 수 있다. ISO 베이스 미디어 파일 포맷은 프레젠테이션 파일의 구조에만 관련된다. 미디어-데이터 파일들의 포맷은, 미디어 파일들에서의 미디어-데이터가 ISO 베이스 미디어 파일 포맷 또는 그 파생 포맷들에서 지정된 대로 형식화되는 경우에 있어서는, ISO 베이스 미디어 파일 포맷 또는 그 파생 포맷들에 의해서만 제한될 수 있다.

    외부 파일들을 참조하는 기능은 데이터 참조를 통해 실현될 수 있다. 일부 예시에 있어서, 각각의 트랙에 포함된 샘플 설명 박스는 사용된 코딩 타입에 관한 상세한 정보 및 해당 코딩에 필요한 임의의 초기화 정보를 각각 제공하는 샘플 엔트리들로 이루어진 리스트를 제공할 수 있다. 청크(chunk)의 모든 샘플 및 트랙 단편(track fragment)의 모든 샘플은 동일한 샘플 엔트리를 이용할 수 있다. 청크는 하나의 트랙에 대하여 인접한 샘플들의 세트로서 정의될 수 있다. 각각의 트랙에 포함될 수도 있는 데이터 참조(Data Reference)(dref) 박스는 URL(uniform resource locator)들, URN(uniform resource name)들, 및/또는 메타데이터를 포함하는 파일에 대한 자체-참조들로 이루어진 인덱싱된 리스트를 규정할 수 있다. 샘플 엔트리는 데이터 참조 박스의 하나의 인덱스를 지정할 수 있으며, 이로써 각각의 청크 또는 트랙 단편의 샘플들을 포함하는 파일을 지시하게 된다.

    무비 단편(movie fragment)들은, 예컨대 레코딩 애플리케이션이 충돌하거나, 메모리 공간을 소진하거나, 또는 몇몇 다른 사고가 발생하는 경우에 데이터 손실을 피하기 위해, 예컨대 ISO 파일들에의 콘텐츠의 레코딩시에 사용될 수 있다. 무비 단편이 없으면, 파일 포맷이 그 파일의 하나의 인접 영역에 기록된 해당 모든 메타데이터, 예컨대 모든 무비 박스를 필요로 할 수 있기 때문에 데이터 손실이 발생할 수 있다. 또한, 파일의 레코딩시에, 이용 가능한 스토리지의 사이즈에 대하여 무비 박스를 버퍼링할 만큼 충분한 양의 메모리 공간(예컨대, 랜덤 액세스 메모리(RAM))이 없을 수도 있고, 무비를 닫을 때 무비 박스의 콘텐츠의 재연산이 너무 느려질 수 있다. 또한, 무비 단편들은 정규 ISO 파일 파서(parser)를 이용한 파일의 동시 레코딩 및 재생을 가능하게 할 수 있다. 또한, 무비 단편들이 사용되는 경우 계속적인 다운로딩, 예컨대 파일의 동시 수신 및 재생을 위해 보다 적은 초기 버퍼링 기간이 필요해질 수 있고, 또한 동일한 미디어 콘텐츠를 갖지만 무비 단편들이 없이 구성된 파일에 비해 초기 무비 박스는 더 작다.

    무비 단편 특징은 무비 박스 내에 존재할 수 있는 메타데이터를 다수의 부분으로 분할하는 것을 가능하게 할 수 있다. 각각의 부분은 트랙의 특정 기간에 대응할 수 있다. 즉, 무비 단편 특징은 파일 메타데이터 및 미디어 데이터의 인터리빙(interleaving)을 가능하게 할 수 있다. 결국, 무비 박스의 사이즈는 제한될 수 있으며 위에서 언급한 사용 사례가 실현된다.

    일부 예시에 있어서, 무비 단편에 대한 미디어 샘플은 moov 박스와 동일한 파일 내에 있으면, mdat 박스 내에 있을 수 있다. 그러나, 무비 단편들의 메타데이터의 경우, moof 박스가 제공될 수 있다. moof 박스는 이전에 moov 박스에 있었던 재생 시간의 특정 기간에 대한 정보를 포함할 수 있다. moov 박스는 여전히 단독으로 유효한 무비를 표현할 수 있지만, 또한 무비 단편들이 동일한 파일을 뒤따르게 됨을 지시하는 mvex 박스를 포함할 수 있다. 무비 단편들은 moov 박스와 연관되는 프레젠테이션을 제때 확장할 수 있다.

    무비 단편 내에는, 어디든 트랙당 0개부터 복수 개까지의 트랙 단편들로 이루어진 세트가 존재할 수 있다. 트랙 단편들은 결국 어디든 0개부터 복수 개까지의 트랙 런(track run)을 포함할 수 있고, 각각의 문서는 해당 트랙에 대한 샘플들의 인접하는 런이다. 이러한 구조 내에서는, 많은 필드들이 선택사항이며 기본값으로 될 수 있다. moof 박스에 포함될 수 있는 메타데이터는, moov 박스에 포함될 수 있고 경우에 따라 상이하게 코딩될 수 있는 메타데이터의 서브세트로 한정될 수 있다. moof 박스에 포함될 수 있는 박스들에 관한 상세는 ISO 베이스 미디어 파일 포맷 표준명세서에서 확인할 수 있다. 자립형 무비 단편은 파일 순서상 연속적인 moof 박스 및 mdat 박스로 구성되는 것으로 정의될 수 있고, 여기서 mdat 박스는 무비 단편의 샘플들(moof 박스는 메타데이터를 제공)을 포함하고 임의의 다른 무비 단편의 샘플들(즉, 임의의 다른 moof 박스)을 포함하지 않는다.

    ISO 베이스 미디어 파일 포맷은 특정 샘플들과 연관될 수 있는 시간 지정 메타데이터에 대한 3가지 메커니즘: 즉 샘플 그룹, 시간 지정 메타데이터 트랙, 및 샘플 보조 정보를 포함한다. 파생된 표준명세서는 유사한 기능에 이들 3가지 메커니즘의 하나 이상을 제공할 수 있다.

    ISO 베이스 미디어 파일 포맷과, AVC 파일 포맷 및 SVC 파일 포맷과 같은 그 파생 포맷에 있어서의 샘플 그룹화(sample grouping)는, 그룹화 기준에 기초하여, 트랙 내의 각각의 샘플이 하나의 샘플 그룹의 멤버가 되도록 할당하는 것으로 정의될 수 있다. 샘플 그룹화에서의 샘플 그룹은 인접한 샘플들로 이루어지는 것에 한정되지 않으며 인접하지 않는 샘플들을 포함할 수 있다. 트랙 내의 샘플들에 대하여 하나 이상의 샘플 그룹화가 있을 수 있기 때문에, 각각의 샘플 그룹화는 그룹화의 타입을 지시하기 위한 타입 필드를 가질 수 있다. 샘플 그룹화는 2개의 연결 데이터 구조에 의해 표현될 수 있고: 즉 (1) SampleToGroup 박스(sbgp 박스)는 샘플 그룹들에 대한 샘플들의 할당을 나타내고; (2) SampleGroupDescription 박스(sgpd 박스)는 그룹의 특성들을 기술하는 각각의 샘플 그룹에 대한 샘플 그룹 엔트리를 포함한다. 상이한 그룹화 기준에 기초하여 SampleToGroup 및 SampleGroupDescription의 다수의 인스턴스들이 있을 수 있다. 이들은 그룹화의 타입을 지시하는데 사용된 타입 필드에 의해 구별될 수 있다.

    마트로스카(Matroska) 파일 포맷은 비디오, 오디오, 픽처, 또는 자막(subtitle) 트랙 중 어느 것을 하나의 파일로 저장할 수 있다(한정되는 것은 아님). 마트로스카 파일 확장자는 비디오(자막 및 오디오와 함께)에 대하여 .mkv, 입체 비디오에 대하여 .mk3d, 오디오-단독 파일에 대하여 .mka, 및 자막 단독에 대하여 .mks를 포함한다. 마트로스카는 WebM과 같은 파생된 파일 포맷에 대한 기준 포맷으로서 사용될 수 있다.

    마트로스카는 기준으로서 확장성 이진 메타 언어(Extensible Binary Meta Language (EBML))를 사용한다. EBML은 XML의 원리에 의해 영향을 받은 이진 및 옥텟(octet)(바이트) 정렬된 포맷을 지정한다. EBML 자체는 이진 마크업 기술의 일반화된 설명이다. 마트로스카 파일은 EBML "문서(document)"를 마크업하는 요소(Element)들로 구성된다. 요소(Element)들은 요소 ID(Element ID), 요소의 사이즈에 대한 디스크립터, 및 이진 데이터 자체를 포함한다. 요소들은 중첩될 수 있다.

    마트로스카의 세그먼트 요소(Segment Element)는 다른 최고-레벨(레벨 1) 요소들에 대한 컨테이너이다. 마트로스카 파일은 하나의 세그먼트를 포함할 수 있다(다만, 하나의 세그먼트로 구성되는 것에 한정되지 않음). 마트로스카 파일들 내의 멀티미디어 데이터는, 통상적으로 몇 초 정도의 멀티미디어 데이터를 각각 포함하는 클러스터(Cluster)(또는 클러스터 요소(Cluster Element))들로 편성된다. 클러스터는, 결국 블럭 요소(Block Element)들을 포함하게 되는 BlockGroup 요소들을 포함한다. 큐 요소(Cues Element)는 랜덤 액세스 또는 탐색을 도울 수 있고 탐색 지점들에 대한 파일 포인터 또는 각각의 타임스탬프를 포함할 수 있는 메타데이터를 포함한다.

    채용할 수 있는 전송 파일 포맷 또는 세그먼트 포맷은 서로 다른 클래스들로 거칠게 분류될 수 있다. 하나의 예시적인 클래스에 있어서, 전송된 파일들은 라이브 파일 재생에 사용될 수 있는 기존의 파일 포맷을 따를 수 있다. 예컨대, 전송된 파일들은 ISO 베이스 미디어 파일 포맷 또는 3세대 파트너십 프로젝트(Third Generation Partnership Project (3GPP)) 파일 포맷의 순행 다운로드 프로파일을 따를 수 있다. 다른 예시적인 클래스에 있어서, 전송된 파일들은 라이브 파일 재생에 사용된 기존의 파일 포맷에 따라 형식화된 파일들과 유사할 수 있다. 예컨대, 전송된 파일들은, 개별적으로 재생하기 위한 자립형은 아닌 서버 파일의 단편들일 수 있다. 다른 해법에 있어서, 전송될 파일들은 라이브 파일 재생에 사용될 수 있는 기존의 파일 포맷을 따를 수 있고, 해당 파일들은 부분적으로만 전송될 수 있기 때문에, 이러한 파일들을 재생하려면 부분적인 파일들을 관리하는 인식 및 능력이 필요할 수 있다.

    다목적 인터넷 전자우편(Multipurpose Internet Mail Extension (MIME))은 인터넷 상에서 서로 다른 종류의 데이터 파일들, 예컨대 비디오 및 오디오, 이미지, 소프트웨어 등을 송신 및 수신할 수 있게 하는 이메일 프로토콜에 대한 확장 규격이다. 인터넷 미디어 타입은 파일이 포함하는 데이터의 타입을 지시하기 위해 인터넷 상에서 사용되는 식별자이다. 이러한 인터넷 미디어 타입을 콘텐츠 타입이라고 부를 수도 있다. 상이한 미디어 포맷들을 포함할 수 있는 몇 가지 MIME 타입/서브타입 조합이 존재한다. 콘텐츠 타입 정보는 미디어 전송의 초기에 송신 엔티티에 의해 MIME 헤더에 포함될 수 있다. 그에 따라, 수신 엔티티는 이용 가능한 코덱들의 세트가 주어지면 특정 요소들이 렌더링될 수 있는지를 결정하기 위해 상기와 같은 미디어 콘텐츠의 상세를 검사하는 것이 필요할 수 있다. 특히 종단 시스템이 한정된 리소스를 갖고 있거나, 또는 종단 시스템에의 접속이 한정된 대역폭을 갖고 있는 경우에는, 콘텐츠가 렌더링될 수 있다면 콘텐츠 타입만을 아는 것이 도움이 될 수 있다.

    RFC 6381은, 전체 컨테이너 포맷 내에 포함된 미디어 포맷들에 의해 또는 컨테이너 포맷의 프로파일(들)에 의해 채용된 코덱들의 명확한 사양을 허용하도록, 다양한 MIME 타입들 또는 타입/서브타입 조합들과 함께 사용되는 2개의 파라미터, 즉 'codecs(코덱)' 및 'profiles(프로파일)'을 지정한다.

    포함된 미디어를 렌더링하도록 지시받은 특정 코덱으로 콘텐츠를 레이블링함으로써, 수신 시스템은 해당 코덱이 종단 시스템에 의해 지원되는지를 결정할 수 있고, 지원되지 않는 경우, 적절한 조치(예컨대, 콘텐츠를 거부, 상황의 통지를 발송, 콘텐츠를 지원되는 타입으로 트랜스코딩, 필요한 코덱을 페치 및 인스톨, 지시받은 코덱의 서브세트를 지원하기에 충분할지를 결정하기 위한 추가 검사 등)를 취할 수 있다.

    유사하게, 프로파일은 콘텐츠가 준수하는 표준명세서의 전체적인 지시를 수신기에 제공할 수 있다. 이는 몇몇 표준명세서에 대한 컨테이너 포맷 및 그 콘텐츠의 호환성의 지시이다. 수신기는 규정된 프로파일들 중 그것이 지원하는 것 및 그들이 의미하는 내용을 보기 위해 검사에 의해 콘텐츠를 취급하고 렌더링할 수 있는 범위를 산출할 수 있다.

    MIME에 대한 하나의 동기가 메시지 부분의 특정 미디어 타입을 식별할 수 있는 능력이지만, MIME 타입 및 서브타입을 검토해서 어떤 특정 미디어 포맷이 본문 부분에 포함되는지 또는 콘텐츠를 렌더링하기 위해 어떤 코덱이 지시되는지를 지득하지 못할 수도 있다.

    세트로부터 선택된 코덱들을 포함하는 몇 가지 미디어 타입/서브타입(현재 등록되어 있거나 또는 등록 계류 상태로 배치됨)이 있다. 'codecs' 및/또는 'profiles' 파라미터가 없을 경우, 콘텐츠를 렌더링하는데 필요한 코덱 또는 그 밖의 특징들을 결정하기 위해 각각의 미디어 요소를 검사하는 것이 필요할 수 있다.

    코덱 파라미터의 파라미터 값은 다음과 같이 지정될 수 있다: 단일 값, 또는 본문 부분에서 콘텐츠를 렌더링하기 위해 지시된 코덱(들)을 식별하는, 쉼표로 구분된 값들의 리스트. 각각의 값은 하나 이상의 점으로 구분된 요소들을 포함할 수 있다. 제 1 요소의 명칭 공간은 MIME 타입에 의해 결정된다. 각각의 후속 요소에 대한 명칭 공간은 선행 요소에 의해 결정된다.

    다중-계층 HEVC 확장규격에 있어서, 프로파일-티어-레벨 조합은 각각의 출력 계층 세트의 각각의 필수 계층에 대하여 지시된다. 다중-계층 HEVC 확장규격에 대하여, 적합성 지점은 프로파일-티어-레벨 조합들의 리스트로서 정의될 수 있고, 여기서 해당 리스트는 특정 출력 계층 세트의 각각의 필수 계층에 대한 프로파일-티어-레벨 조합을 포함한다. 어떤 계층들이 필수 계층이고 어떤 계층들이 출력 계층인지에 따라, 디코딩된 픽처 버퍼 요건이 달라지는 한편, 디코딩된 픽처 버퍼 요건이 레벨 표준명세서의 일부이기 때문에, 서로 다른 출력 계층 세트들에서 동일한 계층에 대하여 상이한 프로파일-티어-레벨 값(특히 상이한 레벨 값)이 지시될 수 있다. 디코더 기능들은 프로파일-티어-레벨 조합들의 리스트로서 지시될 수 있다. 이렇게 언급된 이유로, 코덱 MIME 파라미터 내의 단일 프로파일-티어-레벨 값은, 예컨대 ISOBMFF 호환 파일에 저장된 다중-계층 HEVC 비트스트림을 기술하기에는 충분치 않을 수 있다.

    ISOBMFF-기반 파일에 대한 MIME 타입의 코덱 파라미터는 다음과 같이, 프로파일-레벨 시그널링이 비트스트림적(bitstream-wise) 또는 서브-비트스트림적(sub-bitstream-wise)이라기 보다는 오히려 계층적(또는 비트스트림-분할적(bitstream-partition-wise))인 그러한 계층화된 코덱(예컨대, 다중-계층 HEVC 확장규격)에 대하여 지정될 수 있다. 하기의 단락들은 코덱 파라미터를 참조하지만, 다른 명칭의 파라미터가 대안으로서 또는 부가적으로 참조될 수 있음을 이해할 필요가 있다.

    RFC 6381에서 규정된 바와 같이, MIME 타입의 'codecs' 파라미터가 사용되는 경우, 하기의 단락들은 MIME 타입이 ISOBMFF 계열의 파일 포맷을 식별하고 'codecs' 파라미터가 ISO/IEC 14496-15로부터의 샘플-엔트리 코드로 시작할 때 서브-파라미터들을 실증한다. 그러나, 코덱 파라미터가 ISOBMFF 이외의 다른 컨테이너 포맷 및/또는 AVC 또는 HEVC 이외의 코덱에 대하여 유사하게 지정될 수 있음을 이해할 필요가 있다.

    코덱 파라미터는 하기의 구조(RFC 6381에 지정된 바와 같음)를 가질 수 있다:

    ListItem1 (, ListItemN )*

    여기서, 별표('*')는 0회 이상의 반복을 지시한다.

    각각의 ListItem은 하기의 구조를 가질 수 있다:

    SampleEntryType1.ProfileTierLevel1(.SampleEntryTypeN.ProfileTierLevelN)*

    분리 문자 '.'는 동등하게 임의의 다른 분리 문자로 될 수 있거나, 또는 가능하게는 상이한 위치 또는 목적에 대해서는, 몇몇 상이한 분리 문자가 사용될 수 있다. 예컨대, SampleEntryTypeN 의 앞에 '.'을 대신해서 분리 문자 '!'가 사용될 수 있다.

    SampleEntryTypeProfileTierLevel 의 쌍은 프로파일-티어-레벨 부-문자열(profile-tier-level sub-string)로서 인용될 수 있다.

    샘플 엔트리 타입( SampleEntryType )은 코딩된 데이터를 포함하는 트랙의 샘플 엔트리의 4-문자 코드일 수 있다. 프로파일-티어-레벨 부-문자열 표준명세서는 단일-계층 HEVC에 대한 코덱 MIME 타입 표준명세서에 비해 변경 없이 유지될 수 있다.

    샘플 엔트리 타입이, AVC(H.264), 스케일러블 비디오 코딩(SVC) 또는 멀티뷰 비디오 코딩(MVC)을 지시하는, 어드밴스드 비디오 코딩 표준명세서(ITU-T 권고 H.264 또는 ISO/IEC 14496-10)로부터 코덱을 지시하는, 'avc1', 'avc2', 'avc3', 'avc4', 'svc1', 'svc2', 'mvc1', 'mvc2', 'mvc3', 및 'mvc4'와 같은 코드일 경우, ProfileTierLevel 요소는 H.264/AVC에서 지정된 (서브세트) 시퀀스 파라미터 세트 NAL 유닛에서 다음 3 바이트의 16진수 표현이다:

    profile_idc;

    constraint_set 플래그를 포함하는 바이트(현재 constraint_set0_flag 내지 constraint_set5_flag, 및 reserved_zero_2bits); 및

    level_idc.

    샘플 엔트리 'avc1', 'avc2', 'avc3', 및 'avc4'는 반드시 미디어만이 AVC NAL 유닛을 포함한다고 지시하는 것은 아니라는 점에 유의해야 한다. 실제로, 미디어는 SVC 또는 MVC 프로파일로서 인코딩되어서, SVC 또는 MVC NAL 유닛을 포함할 수 있다. 어떤 코덱이 사용되는지를 결정할 수 있도록 하기 위해, 추가 정보가 필요해질 수 있다(profile_idc). 또한, H.264/AVC에서는 reserved_zero_2bits가 0과 동일해질 필요가 있지만, ITU-T | ISO/IEC에 의해 장래에는 그에 대하여 다른 값들이 지정될 수 있다.

    SVC 또는 MVC 콘텐츠가 AVC-호환 가능한 형식으로 코딩될 경우, 샘플 설명은 AVC 구성 레코드 및 SVC 또는 MVC 구성 레코드를 모두 포함할 수 있다. 그러한 환경하에서는, 2가지 구성 레코드가 모두 상이한 AVC 프로파일, 레벨, 및 호환성 지표 값을 포함할 수 있기 때문에, 2가지 구성 레코드가 모두 보고되도록 권고될 수 있다. 따라서, 보고된 코덱은, 각각에 'avcoti' 정보를 형성하는 구성 레코드들 중 하나로부터의 값들과 함께, 샘플 설명 코드(예컨대, 'avc1')를 2배로 포함하게 된다.

    샘플 엔트리 타입이 고효율 비디오 코딩 표준명세서(ITU-T 권고 H.265 또는 ISO/IEC 23008-2)로부터 코덱을 지시하는, 'hev1', 'hvc1', 'lhv1' 또는 'lhe1'과 같은 코드일 경우, 프로파일-티어-레벨 부-문자열은, 예컨대 마침표(".")에 의해 구분된, 하기의 리스트에 있는 일련의 코드 및 값들로서 지정된다. 값들은, 일반적으로 HEVC 디코더 구성 레코드로부터 취득될 수 있는, HEVC 비트스트림의 상응하는 profile_tier_level( ) 신택스 구조의 값들에 부합된다. 모든 수치적 인코딩(numeric encodings)에 있어서는, 리딩 제로(leading zero; 선행 제로)들이 생략될 수 있다.

    10진수로서 인코딩된 general_profile_idc로 이어진, general_profile_space 1, 2, 3에 대하여 문자 없이(general_profile_space == 0), 또는 'A', 'B', 'C'로서 인코딩된 general_profile_space;

    16진수로 인코딩된 general_profile_compatibility_flags(리딩 제로들이 생략될 수 있음);

    10진수로서 인코딩된 general_level_idc로 이어진, 'L'(general_tier_flag==0) 또는 'H'(general_tier_flag==1)로서 인코딩된 general_tier_flag;

    general_progressive_source_flag를 포함하는 바이트로부터 시작하고, 각각 16진수로서 인코딩되며, 각 바이트의 인코딩이 마침표로 구분된, 제한 플래그들의 6바이트 각각; 0(제로)인 트레일링 바이트(trailing byte)들은 생략될 수 있다.

    샘플 엔트리 타입이 고효율 비디오 코딩 표준명세서로부터의 코덱을 지시하는, 'hev1' 또는 'hvc1'과 같은 코드이고, 비트스트림이 하나의 계층만을 포함할 경우, 코덱 파라미터의 값은 프로파일-티어-레벨 부-문자열이다. 예컨대, codecs=hev1.1.80.L93.B0은 순행, 비-압축 스트림, 메인 프로파일, 메인 티어, 레벨 3.1(progressive, non-packed stream, Main Profile, Main Tier, Level 3.1)을 지시한다.

    샘플 엔트리 타입이 고효율 비디오 코딩 표준명세서의 계층화된 HEVC 확장규격을 지시하는, 'lhv1' 또는 'lhe1'과 같은 코드이거나, 또는 비트스트림이 하나 이상의 필수 계층을 갖는 출력 계층 세트를 포함하는 경우, 예컨대 '.' 또는 '!'일 수 있는 분리 문자는 코덱 파라미터가 제공되는 출력 계층 세트의 필수 계층에 대응하는 각각의 프로파일-티어-레벨 부-문자열을 구분하는데 사용될 수 있다. 필수 계층에 대응하는 각각의 프로파일-티어-레벨 부-문자열은 필수 계층의 profile_tier_level( ) 신택스 구조로부터의 일련의 값들로 구성된다. 프로파일-티어-레벨 부-문자열은 출력 계층 세트의 각각의 필수 계층에 대하여 존재하도록 요구될 수 있다. 예컨대, codecs=hev1.A1.80.L93.B0!hev1.A7.1.L120.B0 또는 codecs=hev1.A1.80.L93.B0.0.0.0.0.0.hev1.A7.1.L120.B0는 2-계층, 순행, 비-압축 스트림을 지시할 수 있고, 여기서 베이스 계층을 포함하는 트랙은 샘플 엔트리 타입 'hev1'을 사용하고, 베이스 계층은 메일 프로파일, 메인 티어, 레벨 3.1(Main Profile, Main Tier, Level 3.1)에 적합하고, 인핸스먼트 계층을 포함하는 트랙은 샘플 엔트리 타입 'hev1'을 사용하고(예컨대, 베이스 계층을 또한 포함하는 트랙 내에 포함될 수 있음), 인핸스먼트 계층은 스케일러블 메인 프로파일, 메인 티어, 레벨 4(Scalable Main Profile, Main Tier, Level 4)에 적합하다.

    코덱 파라미터 내의 예측된 계층에 대한 ListItem 에 단 하나의 프로파일-티어-레벨 부-문자열이 제공될 경우, 비트스트림 및 코덱 파라미터는, 예컨대 다음과 같이 제한될 수 있다. 각각의 계층은 별도의 트랙으로서 저장될 수 있고; 각각의 트랙에 대해서는 별도의 ListItem 이 존재해야 한다(예컨대, RFC 6381에 의해 지정된 쉼표로 구분된 리스트로서). 코덱 파라미터의 쉼표로 구분된 리스트는, 베이스 계층의 리스트 요소가 마지막을 나타나고 계층의 임의의 리스트 요소가 해당 리스트에서 이전에 나타나는 계층들에 의존하지 않게 되는 순서로 될 수 있다. 리스트 요소들의 순서는 대안으로서, 예컨대 베이스 계층의 리스트 요소가 가장 먼저 나타나고 계층의 임의의 리스트 요소가 해당 리스트에서 나중에 나타나는 계층들에 의존하지 않게 되도록, 상이하게 지정될 수 있다는 것을 이해할 필요가 있다. 쉼표로 구분된 리스트가 n개의 리스트 요소를 포함하는 경우, 비트스트림은, 포괄적인 1 내지 n의 범위에서 각각의 i 값에 대하여, 쉼표로 구분된 리스트의 후미로부터 i개의 리스트 요소에 대응하는 i개의 필수 계층들로 구성되도록 적어도 n개의 출력 계층 세트를 포함할 수 있다. 이러한 제한은 디코딩에 필요한 계층들의 개수 뿐만 아니라 그 프로파일, 티어, 및 레벨 요건을 결론짓는 것을 가능하게 할 수 있다.

    하기에서는, 코덱 파라미터의 값들의 몇 가지 예시가 제공된다:

    codecs=hev1.A1.80.L93.B0.0.0.0.0.0.lhv1.A7.1.L120.B0, hev1.A1.80.L93.B0.0.0.0.0.0.lhv1.A6.2.L120.B0은 2개의 출력 계층 세트, 즉 "스케일러블" 출력 계층 세트 및 "멀티뷰" 출력 계층 세트를 포함하는 비트스트림; 또는 동일한 파일에 저장된 2개의 비트스트림, 즉, "스케일러블" 출력 계층 세트를 포함하는 비트스트림 및 "멀티뷰" 출력 계층 세트를 포함하는 다른 비트스트림을 지시할 수 있다. "스케일러블" 출력 계층 세트는 2-계층, 순행, 비-압축 스트림이고, 여기서 베이스 계층을 포함하는 트랙은 샘플 엔트리 타입 'hev1'을 사용하고, 베이스 계층은 메인 프로파일, 메인 티어, 레벨 3.1(Main Profile, Main Tier, Level 3.1)에 적합하고, 인핸스먼트 계층을 포함하는 트랙은 샘플 엔트리 타입 'lhv1'을 사용하고, 인핸스먼트 계층은 스케일러블 메인 프로파일, 메인 티어, 레벨 4(Scalable Main Profile, Main Tier, Level 4)에 적합하다. "멀티뷰" 출력 계층 세트는 2-계층, 순행, 비-압축 스트림이고, 여기서 베이스 계층을 포함하는 트랙은 샘플 엔트리 타입 'hev1'을 사용하고, 베이스 계층은 메인 프로파일, 메인 티어, 레벨 3.1(Main Profile, Main Tier, Level 3.1)에 적합하고, 인핸스먼트 계층을 포함하는 트랙은 샘플 엔트리 타입 'lhv1'을 사용하고, 인핸스먼트 계층은 스케일러블 메인 프로파일, 메인 티어, 레벨 4(Scalable Main Profile, Main Tier, Level 4)에 적합하다. 두 출력 계층 세트에 대하여 동일한 트랙이 베이스 계층 트랙으로서 사용될 수 있다는 점에 유의한다. codecs=lhv1.A7.1.L120.B0, hev1.A1.80.L93.B0은 2-계층, 순행, 비-압축 스트림을 지시할 수 있고, 여기서 인핸스먼트 계층을 포함하는 트랙은 샘플 엔트리 타입 'lhv1'을 사용하고, 인핸스먼트 계층은 스케일러블 메인 프로파일, 메인 티어, 레벨 4(Scalable Main Profile, Main Tier, Level 4)에 적합하고, 베이스 계층을 포함하는 트랙은 샘플 엔트리 타입 'hev1'을 사용하고, 베이스 계층은 메인 프로파일, 메인 티어, 레벨 3.1(Main Profile, Main Tier, Level 3.1)에 적합하다. 각각의 계층은 별도의 트랙이다. 인핸스먼트 계층 및 베이스 계층을 필수 계층으로서 포함하는 출력 계층 세트, 및 베이스 계층만을 포함하는 출력 계층 세트가 존재한다. codecs=lhv1.A7.1.L120.B0, avc1.64081F는, 인핸스먼트 계층을 포함하는 트랙이 샘플 엔트리 타입 'lhv1'을 사용하고, 인핸스먼트 계층이 스케일러블 메인 프로파일, 메인 티어, 레벨 4(Scalable Main Profile, Main Tier, Level 4)에 적합하고, 인핸스먼트 계층이 순행, 비-압축 픽처들을 포함하고, 인핸스먼트 계층이 AVC-코딩된 베이스 계층으로부터 예측된다고 지시할 수 있다. AVC-코딩된 베이스 계층은 샘플 엔트리 타입 'avc1'을 사용하고, 그 베이스 계층은 순행 하이 프로파일, 레벨 3.1(Progressive High Profile, Level 3.1)에 적합하다.

    ISO/IEC 국제 표준 23009-1은 HTTP(DASH)를 통한 동적 적응형 스트리밍을 지정한다. MPEG-DASH의 몇몇 개념, 포맷, 및 동작은 실시예들을 구현할 수 있는 비디오 스트리밍 시스템의 일례로서 아래에서 기술된다. 본 발명의 양태들은 MPEG-DASH에 한정되는 것이 아니고, 오히려 본 발명이 부분적으로 또는 완전히 실현될 수 있는 가능한 기준에 대하여 설명이 이루어진다.

    HTTP(DASH)를 통한 동적 적응형 스트리밍에 있어서, 멀티미디어 콘텐츠는 캡처되어 HTTP 서버에 저장될 수 있고 HTTP를 이용해서 전달될 수 있다. 콘텐츠는 두 부분: 즉 가용 콘텐츠의 매니페스트(manifest), 그 다양한 대안들, 그들의 URL 어드레스, 및 그 밖의 특성들을 기술하는 미디어 프레젠테이션 설명(Media Presentation Description (MPD)); 및 단일의 또는 다수의 파일에, 실제 멀티미디어 비트스트림들을 청크 형태로 포함하는 세그먼트로 서버에 저장될 수 있다. 콘텐츠를 플레이하기 위해, DASH 클라이언트는, 예컨대 HTTP, 이메일, 썸 드라이브, 브로드캐스트, 또는 그 밖의 전송 방법들을 이용해서 MPD를 취득할 수 있다. MPD를 파싱함으로써, DASH 클라이언트는 프로그램 타이밍, 미디어-콘텐츠 가용성, 미디어 타입, 해상도, 최소 및 최대 대역폭, 및 멀티미디어 컴포넌트의 다양한 인코딩된 대안들의 존재, 접근성 특징 및 필요한 디지털 저작권 관리(digital rights management (DRM)), 네트워크 상의 미디어-컴포넌트 위치, 및 그 밖의 콘텐츠 특성들을 알게 될 수 있다. 이 정보를 사용해서, DASH 클라이언트는 적절한 인코딩된 대안을 선택할 수 있고, 예컨대 HTTP GET 요구를 이용해서 세그먼트들을 페치함으로써 콘텐츠의 스트리밍을 시작할 수 있다. 네트워크 스루풋 편차를 허용하기 위한 적절한 버퍼링 이후에, 클라이언트는 후속 세그먼트들의 페치를 지속할 수 있고, 또한 네트워크 대역폭 변동을 모니터링할 수 있다. 클라이언트는 적당한 버퍼링을 유지하기 위해 상이한 대안들의 세그먼트들(낮은 비트레이트 또는 높은 비트레이트를 가짐)을 페치함으로써 가용 대역폭에 맞게 어떻게 조정할지를 결정할 수 있다.

    미디어 프레젠테이션 설명(MPD)은 HTTP를 통한 동적 적응형 스트리밍을 확립하기 위해 클라이언트에게 정보를 제공할 수 있다. MPD는 GET 세그먼트(GET Segment)를 요구하기 위한 각각의 세그먼트(Segment)의 HTTP-URL(uniform resource locator)과 같은 미디어 프레젠테이션을 기술하는 정보를 포함할 수 있다. DASH에 있어서는, 도 6에 도시된 바와 같이 계층적인 데이터 모델이 미디어 프레젠테이션을 구성하는데 사용될 수 있다. 미디어 프레젠테이션은 하나 이상의 피리어드(Period)의 시퀀스를 포함할 수 있고, 각각의 피리어드(Period)는 하나 이상의 그룹(Group)을 포함할 수 있고, 각각의 그룹(Group)은 하나 이상의 적응 세트(Adaptation Set)를 포함할 수 있고, 각각의 적응 세트(Adaptation Set)는 하나 이상의 표현(Representation)을 포함할 수 있고, 각각의 표현(Representation)은 하나 이상의 세그먼트(Segment)를 포함할 수 있다. 표현은, 인코딩 선택에 의해, 예컨대 비트레이트, 해상도, 언어, 코덱 등에 의해 달라질 수 있는 미디어 콘텐츠 또는 그 서브세트의 대안적인 선택들 중 하나이다. 세그먼트(Segment)는 미디어 데이터의 특정 지속기간, 및 포함된 미디어 콘텐츠를 디코딩 및 제시하기 위한 메타데이터를 포함할 수 있다. 세그먼트는 URI(uniform resource indicator)에 의해 식별될 수 있고 HTTP GET 요구에 의해 요구될 수 있다. 세그먼트는 HTTP-URL 및 선택적으로 MPD에 의해 지정되는 바이트 범위와 연관된 데이터의 유닛으로서 정의될 수 있다.

    DASH MPD는 확장 가능 마크업 언어(Extensible Markup Language (XML))를 준수하며, 그에 따라 XML에 정의된 바와 같이 요소들 및 속성을 통해 지정된다. MPD는 하기의 협약을 이용해서 지정될 수 있다: 즉, XML 문서 내의 요소들은 Element 로서 대문자인 첫 글자에 의해 식별될 수 있고 볼드체로 나타날 수 있다. 요소 Element1 가 다른 요소 Element2 에 포함되는 것을 나타내기 위해서는, Element2.Element1 로 쓸 수 있다. 요소의 명칭이 2개 이상의 결합어로 구성되면, 낙타대문자, 예컨대 ImportantElement 가 사용될 수 있다. 요소들은 정확히 한 번 제시될 수 있거나, 또는 최소 및 최대 발생이 <minOccurs> ... <maxOccurs>에 의해 정의될 수 있다. XML 문서 내의 속성들은, 예컨대 @attribute와 같이, '@'-기호가 선행될 수 있고 소문자인 첫 글자에 의해 식별될 수 있다. 요소 Element 에 포함된 특정 속성 @attribute을 가리키기 위해, Element @attribute라고 쓸 수 있다. 속성의 명칭이 2개 이상의 결합어로 구성되면, 예컨대 @veryImportantAttribute와 같이, 첫 단어 이후에 낙타대문자가 사용될 수 있다. 속성은 XML에서의 상태를, 의무사항 (M), 선택사항 (O), 디폴트 값을 갖는 선택사항 (OD) 및 조건부 의무사항 (CM)으로서 할당할 수 있다.

    DASH에 있어서, 모든 디스크립터 요소는 동일하게 구성되고, 즉 이들 요소는 스킴을 식별하기 위해 URI를 제공하는 @schemeIdUri 속성과 선택적 속성 @value 및 선택적 속성 @Id를 포함한다. 요소의 시맨틱들은 채용된 스킴에 따라 다르다. 스킴을 식별하는 URI는 URN 또는 URL일 수 있다. 몇몇 디스크립터가 MPEG-DASH(ISO/IEC 23009-1)에서 지정되지만, 디스크립터들은 부가적으로 또는 대안으로서 다른 표준명세서에서 지정될 수 있다. MPEG-DASH 이외의 표준명세서들에서 지정되는 경우, MPD는 디스크립터 요소들을 사용하는 방법에 대해서는 어떠한 특정 정보도 제공하지 않는다. 적절한 스킴 정보로 설명 요소들을 예시하는 것은 DASH 포맷을 채용하는 애플리케이션 또는 사양에 달려 있다. 이 요소들 중 하나를 사용하는 애플리케이션 또는 사양은 URI 형태의 스킴 식별자(Scheme Identifier) 및 해당 스킴 식별자가 사용될 경우의 해당 요소에 대한 값 공간(value space)을 정의한다. 스킴 식별자는 @schemeIdUri 속성에 나타난다. 단순한 열거형 값들로 이루어진 세트가 필요해지는 경우에 있어서는, 각각의 값에 대하여 텍스트 문자열이 정의될 수 있고 이 문자열은 @value 속성에 포함될 수 있다. 구조화 데이터가 필요해지면, 임의의 확장 요소 또는 속성이 별도의 명칭 공간에서 정의될 수 있다. @id 값은 고유한 디스크립터를 또는 디스크립터들의 그룹을 참조하는데 사용될 수 있다. 후자의 경우에는, 속성 @id에 대하여 동일한 값들을 갖는 디스크립터들은 동의어로 되는 것이 필요할 수 있고, 즉 @id에 대하여 동일한 값을 갖는 디스크립터들 중 하나를 처리하는 것이면 충분하다. 요소 명칭, @schemeIdUri의 값 및 @value 속성의 값이 등가이면, 타입 DestriptorType의 두 요소는 등가이다. @schemeIdUri가 URN이면, 등가(equivalence)는 RFC 2141의 5절에서 정의된 바와 같이 어휘 등가(lexical equivalence)를 의미할 수 있다. @schemeIdUri가 URL이면, 등가는 RFC3986의 6.2.1절에서 정의된 바와 같이 문자-대-문자 기준에 있어서의 균등을 의미할 수 있다. @value 속성이 존재하지 않으면, 등가는 @schemeIdUri 만에 대한 등가로 결정될 수 있다. 확장 명칭 공간에서의 속성 및 요소는 등가를 결정하는데 사용되지 않을 수 있다. @id 속성은 등가 결정에 대해서는 무시될 수 있다.

    MPEG-DASH는 디스크립터들, 즉 EssentialProperty 및 SupplementalProperty를 지정한다. 요소 EssentialProperty의 경우, 미디어 프레젠테이션 작성자는, 해당 요소가 다른 EssentialProperty 요소와 동일한 @id를 공유하지 않는 한, 디스크립터의 성공적인 처리는 이 디스크립터를 포함하는 친 요소(parent element) 내의 정보를 적절히 사용하는 것이 필수적임을 나타낸다. EssentialProperty 요소들이 동일한 @id를 공유하면, @id에 대하여 동일한 값을 갖는 EssentialProperty 요소들 중 하나를 처리하는 것이면 충분하다. 각각의 별개의 @id 값의 적어도 하나의 EssentialProperty 요소가 처리될 것으로 예상된다. EssentialProperty 디스크립터에 대한 스킴 또는 값이 인식되지 않으면, DASH 클라이언트는 디스크립터를 포함하는 친 요소를 무시할 것으로 예상된다. MPD에는 @id에 대한 동일한 값을 갖고 @id에 대한 상이한 값들을 갖는 다수의 EssentialProperty 요소들이 존재할 수 있다.

    요소 SupplementalProperty의 경우, 미디어 프레젠테이션(Media Presentation) 작성자는 최적화된 처리를 위해 디스크립터가 DASH 클라이언트에 의해 사용될 수 있는 부가 정보를 포함하는 것을 나타낸다. SupplementalProperty 디스크립터에 대한 스킴 또는 값이 인식되지 않으면, DASH 클라이언트는 디스크립터를 무시할 것으로 예상된다. MPD에는 다수의 SupplementalProperty 요소가 존재할 수 있다.

    DASH 서비스는 온-디맨드(on-demand) 서비스 또는 라이브 서비스로서 제공될 수 있다. 전자의 경우에 있어서, MPD는 정적이며, 미디어 프레젠테이션(Media Presentation)의 모든 세그먼트(Segment)는 콘텐츠 제공자가 MPD를 공개할 때 이미 이용 가능하다. 그러나, 후자의 경우에 있어서, MPD는 MPD에 의해 채용된 세그먼트(Segment) URL 구성 방법에 따라 정적 또는 동적일 수 있고, 세그먼트(Segment)는 콘텐츠가 콘텐츠 제공자에 의해 생산되어 DASH 클라이언트에게 공개됨에 따라 지속적으로 생성될 수 있다. 세그먼트(Segment) URL 구성 방법은 템플릿-기반의 세그먼트(Segment) URL 구성 방법 또는 세그먼트(Segment) 리스트 생성 방법 중 어느 하나일 수 있다. 전자의 경우에 있어서, DASH 클라이언트는 세그먼트(Segment)를 요구하기 전에 MPD를 갱신하지 않고 세그먼트(Segment) URL을 구성하는 것이 가능할 수 있다. 후자의 경우에 있어서, DASH 클라이언트는 세그먼트(Segment) URL을 취하기 위해 갱신된 MPD를 주기적으로 다운로드하는 것이 필요할 수 있다. 이런 이유로, 라이브 서비스의 경우, 템플릿-기반의 세그먼트(Segment) URL 구성 방법이 세그먼트(Segment) 리스트 생성 방법보다 더 좋을 수 있다.

    DASH의 콘텍스트에 있어서는, 하기의 정의가 사용될 수 있다: 즉, 미디어 콘텐츠 컴포넌트 또는 미디어 컴포넌트는 미디어 스트림에 개별적으로 인코딩될 수 있는 할당된 미디어 컴포넌트 타입을 갖는 미디어 콘텐츠의 하나의 연속적인 컴포넌트로서 정의될 수 있다. 미디어 콘텐츠는 하나의 미디어 콘텐츠 피리어드 또는 인접하는 미디어 콘텐츠 피리어드들의 시퀀스로서 정의될 수 있다. 미디어 콘텐츠 컴포넌트 타입은 오디오, 비디오, 또는 텍스트와 같은 단일의 미디어 콘텐츠 타입으로서 정의될 수 있다. 미디어 스트림은 인코딩된 버전의 미디어 콘텐츠 컴포넌트로서 정의될 수 있다.

    초기화 세그먼트(Initialization Segment)는 미디어 세그먼트(Media Segment)에 캡슐화된 미디어 스트림을 제시하는데 필요한 메타데이터를 포함하는 세그먼트(Segment)로서 정의될 수 있다. ISOBMFF 기반의 세그먼트 포맷에 있어서, 초기화 세그먼트(Initialization Segment)는 임의의 샘플들에 대한 메타데이터를 포함하지 않는 무비 박스(Movie Box('moov'))를 포함할 수 있고, 즉 샘플들에 대한 임의의 메타데이터가 'moof' 박스들에 제공된다.

    미디어 세그먼트(Media Segment)는, 컨테이너 파일 포맷 및/또는 사용되고 있는 미디어 포맷 또는 포맷들을 준수하고 0(zero)개 이상의 선행 세그먼트들, 및 초기화 세그먼트(Initialization Segment)(존재하는 경우)와의 결합시에 재생을 가능하게 하는 세그먼트(Segment)로서 정의될 수 있다. 미디어 세그먼트(Media Segment)는 정상 속도에서의 재생을 위해 미디어 데이터의 특정 지속기간을 포함할 수 있고, 이 지속기간은 미디어 세그먼트(Media Segment) 지속기간 또는 세그먼트(Segment) 지속기간으로서 인용될 수 있다. 콘텐츠 생산자 또는 서비스 제공자는 원하는 서비스 특성에 따라 세그먼트(Segment) 지속기간을 선택할 수 있다. 예컨대, 라이브 서비스에서는 짧은 단대단 지연(end-to-end latency)을 달성하기 위해 상대적으로 짧은 세그먼트(Segment) 지속기간이 사용될 수 있다. 세그먼트(Segment)가 DASH에 대한 미디어 데이터를 생성하는 이산 유닛이기 때문에 세그먼트(Segment) 지속기간은 DASH에 의해 수신된 단대단 지연에 대한 하한계일 수 있다는 점이 그 이유이다. 콘텐츠 생성은 미디어 데이터의 전체 세그먼트(Segment)가 서버에 대하여 이용 가능해지는 방식으로 행해질 수 있다. 또한, 다수의 클라이언트 구현예는 세그먼트(Segment)를 GET 요구에 대한 유닛으로서 사용할 수 있다. 따라서, 라이브 서비스에 대한 일부 구성에 있어서, 미디어 세그먼트(Media Segment)의 전체 지속기간이 이용 가능해질 경우 뿐만 아니라 세그먼트(Segment)에 인코딩 및 캡슐화되는 경우일 때에만, DASH 클라이언트가 세그먼트(Segment)를 요구할 수 있다. 온-디맨드 서비스의 경우, 세그먼트(Segment) 지속기간을 선택하는 다른 전략들이 사용될 수 있다.

    세그먼트(Segment)는 완전한 액세스 유닛들을 각각 포함할 수 있는 서브세그먼트(Subsegment)들로 더 분할될 수 있다. 서브세그먼트(Subsegment)는 각각의 서브세그먼트(Subsegment)에 대하여 프레젠테이션 시간 범위 및 바이트 범위를 맵핑하기 위한 정보를 포함하는 세그먼트 인덱스(Segment index)에 의해 인덱싱될 수 있는 한편, 바이트 범위 HTTP 요구를 이용해서 특정한 서브세그먼트(Subsegment)에 대하여 HTTP GET 요구를 하는데 사용될 수 있다. 상대적으로 긴 세그먼트(Segment) 지속기간이 사용되면, 서브세그먼트(Subsegment)는 비트레이트 적응(bitrate adaptation)에 대하여 적합하고 유연한 HTTP 응답 사이즈를 유지하기 위해 사용될 수 있다. ISOBMFF 기반의 세그먼트 포맷에 있어서, 서브세그먼트는 하나 이상의 연속적인 무비 단편들로 이루어진 자립형 세트로서 정의될 수 있고, 여기서 자립형 세트는 상응하는 미디어 데이터(Media Data) 박스(들)와 함께 하나 이상의 무비 단편(Movie Fragment) 박스를 포함하고, 무비 단편 박스(Movie Fragment Box)에 의해 참조된 데이터를 포함하는 미디어 데이터 박스(Media Data Box)는 해당 무비 단편(Movie Fragment) 박스를 추종해야만 하고 동일한 트랙에 관한 정보를 포함하는 다음 무비 단편(Movie Fragment) 박스에 선행해야 한다.

    각각의 미디어 세그먼트에는 고유한 URL(가능하게는 바이트 범위를 가짐), 인덱스, 및 명시적 또는 묵시적인 시작 시간 및 지속기간이 할당될 수 있다. 각각의 미디어 세그먼트는 랜덤 액세스인 적어도 하나의 스트림 액세스 지점, 또는 미디어 스트림에서 해당 지점으로부터의 순행 데이터만을 이용해서 디코딩을 시작할 수 있는 스위칭-대상 지점을 포함할 수 있다.

    세그먼트들을 다수의 부분으로 다운로드할 수 있도록, 세그먼트 인덱스 박스를 이용해서 서브세그먼트들을 시그널링하는 방법을 이용할 수 있다. 이 박스는 세그먼트 내의 서브세그먼트들 및 스트림 액세스 지점들을 그들의 지속기간 및 바이트 오프셋을 시그널링하는 것에 의해 기술한다. DASH 클라이언트는 부분적인 HTTP GET 요구를 이용해서 서브세그먼트를 요구하기 위해 인덱싱 정보를 사용할 수 있다. 세그먼트의 인덱싱 정보는 해당 세그먼트의 초기에 단일의 박스에 모여질 수 있거나, 또는 세그먼트 내의 다수의 인덱싱 박스들 사이에서 분산될 수 있다. 계층적, 데이지 체인(daisy chain), 및 하이브리드와 같이, 상이한 분산 방법들이 가능하다. 이 기술은 세그먼트의 초기에 대형 박스를 추가하는 것을 회피할 수 있고, 그에 따라 가능한 초기 다운로드 지연을 방지할 수 있다.

    세그먼트들(Segments)(또는 제각기 서브세그먼트들(Subsegments))은 다음과 같이 비-중첩되는 것으로 정의될 수 있다: TE(S,i) 를 세그먼트(Segment) 또는 서브세그먼트(Subsegment) S 의 스트림 i 내의 임의의 액세스 유닛의 가장 이른 프레젠테이션 시간이라고 하고, TL(S,i) 를 세그먼트(Segment) 또는 서브세그먼트(Subsegment) S 의 스트림 i 내의 임의의 액세스 유닛의 가장 늦은 프레젠테이션 시간이라고 한다. 상이한 표현(Representations)일수도 또는 아닐 수도 있는 2개의 세그먼트(제각기 서브세그먼트들(Subsegments)), A 및 B는, A 및 B 내의 모든 미디어 스트림 i에 대하여 TL ( A,i ) < TE(B,i) 인 경우, 또는 A 및 B 내의 모든 스트림 i에 대하여 TL ( B,i ) < TE(A,i) 인 경우, 비-중첩인 것으로 정의될 수 있고, 여기서 i는 동일한 미디어 컴포넌트를 참조한다.

    MPEG-DASH는 ISO 베이스 미디어 파일 포맷(ISO Base Media File Format) 및 MPEG-2 전송 스트림(MPEG-2 Transport Streams) 모두에 대한 세그먼트-컨테이너 포맷을 정의한다. 다른 표준명세서들이 세그먼트 포맷들을 다른 컨테이너 포맷들에 기초하여 지정할 수 있다. 예컨대, 마트로스카 컨테이너 파일 포맷에 기초한 세그먼트 포맷이 제안되어 있고 다음과 같이 요약될 수 있다. 마트로스카 파일이 DASH 세그먼트 등으로서 구비되는 경우, DASH 유닛 및 마트로스카 유닛의 연계는 다음과 같이 지정될 수 있다. (DASH의) 서브세그먼트는 마트로스카-캡슐화된 콘텐츠(Matroska-encapsulated content)의 하나 이상의 연속 클러스터(Cluster)로서 정의될 수 있다. DASH의 초기화 세그먼트는 EBML 헤더, (마트로스카의) 세그먼트 헤더(Segment header), (마트로스카의) 세그먼트 정보(Segment Information) 및 트랙(Tracks)을 포함하도록 요구될 수 있으며, 선택적으로 그 밖의 level1 요소 및 패딩을 포함할 수 있다. DASH의 세그먼트 인덱스(Segment Index)는 마트로스카의 큐 요소(Cues Element)를 포함할 수 있다.

    DASH는 미디어 프레젠테이션 타임라인(Media Presentation timeline)을 포함하는 상이한 타임라인들 및 세그먼트 가용성 시간들(Segment availability times)을 지정한다. 전자는 범세계 공통 프레젠테이션 타임라인에 맵핑되는 미디어 콘텐츠가 있는 액세스 유닛의 프레젠테이션 시간을 지시한다. 미디어 프레젠테이션(Media Presentation) 타임라인은 DASH가 상이한 코딩 기술들로 인코딩되는 상이한 미디어 컴포넌트들을 원활하게 동기시키고 공통 타임라인을 공유하는 것을 가능하게 할 수 있다. 후자는 벽 시간(wall-clock time)을 지시하고, HTTP URL에 의해 식별될 수 있는 세그먼트(Segment)들의 가용성 시간을 클라이언트에게 시그널링하는데 사용된다. DASH 클라이언트는 벽 시간(wall-clock time)을 특정 세그먼트(Segment)에 할당된 세그먼트 가용성 시간(Segment availability time)과 비교함으로써 해당 세그먼트(Segment)의 가용성 시간을 식별할 수 있을 것이다. 세그먼트(Segment) 가용성 시간은 라이브 서비스라고도 인용되는 미디어 세그먼트(Segment)의 라이브 전달에서 사용될 수 있다. 라이브 서비스의 경우, 세그먼트(Segment) 가용성 시간은 세그먼트간(from Segment to Segment)에 서로 다르고, 특정 세그먼트(Segment)의 가용성 시간은 미디어 프레젠테이션(Media Presentation) 타임라인에서 세그먼트(Segment)의 위치에 의존할 수 있다. 온-디맨드 서비스의 경우, 세그먼트(Segment) 가용성 시간은 모든 세그먼트(Segment)가 동일할 수 있다.

    DASH는 가변적인 네트워크 대역폭에 부합하도록 적응 세트 내의 상이한 표현들(Representations)로부터 미디어 세그먼트들 및/또는 서브세그먼트들(Media Segments and/or Subsegments)을 동적으로 요구함으로써 레이트 적응(rate adaptation)을 지원한다. DASH 클라이언트가 표현(Representation)을 스위치 업/다운 하는 경우, 표현(Representation) 내의 코딩 종속성을 고려하는 것이 필요해질 수 있다. 미디어 디코딩에 있어서, 표현(Representation) 스위칭은 H.264/AVC와 같은 비디오 코딩 기술에서 사용될 수 있는 랜덤 액세스 지점(RAP)에서만 일어날 수 있다. 디코딩되지 않는 미디어 데이터를 요구하는 것 및 전송하는 것을 회피하기 위해, RAP는 미디어 세그먼트들 및/또는 서브세그먼트들(Media Segments and/or Subsegments)의 초기에 정렬될 수 있고, MPD 및/또는 세그먼트 인덱스 박스는 미디어 세그먼트들 및/또는 서브세그먼트들(Media Segments and/or Subsegments)의 초기에 RAP의 정렬을 지시하는데 사용될 수 있다. 결국, DASH 클라이언트는, 표현 스위칭이 수행될 때, 수신측 표현(destination Representation)의 제 1 세그먼트 및/또는 서브세그먼트(first Segment and/or Subsegment)가 RAP로 시작하고 소스측 및 수신측 표현(source and destination Representation)의 세그먼트들 및/또는 서브세그먼트들(Segments and/or Subsegments)이 정렬(시간적)되도록 요구할 세그먼트들 및/또는 서브세그먼트들(Segments and/or Subsegments)을 결론지을 수 있다. DASH에 있어서는, 보다 일반적인 개념 명칭인 스트림 액세스 지점(Stream Access Point (SAP))이 표현(Representation)에의 액세싱 및 표현(Representation)들간의 스위칭을 위한 코덱-독립적 해법을 제공하기 위해 도입된다. DASH에 있어서, SAP는 (만약에 있다면, 초기화 세그먼트(Initialisation Segment) 내의 데이터를 초기화하는 것이 선행된) 해당 진행 위치로부터 시작하는 표현(Representation) 데이터에 포함된 정보만을 이용해서 미디어 스트림의 재생이 시작될 수 있게 하는 표현(Representation) 내의 위치로서 지정된다. 이런 이유로, 표현(Representation) 스위칭은 SAP에서 수행될 수 있다.

    하기의 내용을 포함하는, 몇 가지 타입의 SAP가 지정되어 있다. SAP 타입 1은, 몇몇 코딩 스킴에 있어서 "폐쇄형 GOP 랜덤 액세스 지점(Closed GOP random access point)"(그 안의 모든 픽처는, 디코딩 순서대로, 정확하게 디코딩될 수 있고, 결과적으로 간극 없이 정확하게 디코딩된 픽처들의 연속적인 시간 시퀀스로 됨)으로서 알려져 있고, 또한 디코딩 순서상 제 1 픽처가 프레젠테이션 순서상 제 1 픽처이기도 한 것에 대응한다. SAP 타입 2는, 몇몇 코딩 스킴에 있어서 "폐쇄형 GOP 랜덤 액세스 지점(Closed GOP random access point)"(그 안의 모든 픽처는, 디코딩 순서대로, 정확하게 디코딩될 수 있고, 결과적으로 간극 없이 정확하게 디코딩된 픽처들의 연속적인 시간 시퀀스로 됨)으로서 알려져 있고, 또한 디코딩 순서상 제 1 픽처가 프레젠테이션 순서상 제 1 픽처가 아닐 수도 있는 것에 대응한다. SAP 타입 3은, 몇몇 코딩 스킴에 있어서, SAP와 연관된 인트라-코딩된 픽처보다 적은 프레젠테이션 횟수를 갖고 정확하게 디코딩될 수 없는 픽처들이 디코딩 순서상 일부 존재할 수 있는 "개방형 GOP 랜덤 액세스 지점(Open GOP random access point)"으로서 알려져 있는 것에 대응한다.

    콘텐츠 제공자는 스위칭을 보다 간단하게 만들 수 있는 방식으로 다수의 표현(Representation)들의 세그먼트(Segment) 및 서브세그먼트(Subsegment)를 생성할 수 있다. 간단한 경우로, 각각의 세그먼트(Segment) 및 서브세그먼트(Subsegment)는 SAP로 시작하고, 세그먼트(Segment) 및 서브세그먼트(Subsegment)의 경계들은 적응 세트(Adaptation Set)의 표현(Representation)에 걸쳐 정렬된다. 이러한 경우에 있어서, DASH 클라이언트는 원래의 표현(Representation)으로부터 새로운 표현(Representation)까지 세그먼트(Segment) 또는 서브세그먼트(Subsegment)에 요구함으로써 에러 드리프트(error drift) 없이 표현(Representation)들을 스위칭할 수 있다. DASH에 있어서, 에러 드리프트를 도입하지 않고도 DASH 클라이언트가 표현(Representation)들을 스위칭하는 것을 가능하게 하기 위해 세그먼트(Segment) 및 서브세그먼트(Subsegment)를 구성하기 위한 제한들이 MPD 및 세그먼트 인덱스(Segment Index)에서 지정된다. DASH에서 지정된 프로파일의 용법들 중 하나는 세그먼트(Segment) 및 서브세그먼트(Subsegment) 등을 구성하기 위한 제한들을 상이한 레벨들로 제공하는 것이다.

    상술한 바와 같이, 클라이언트 또는 플레이어는, 스케일러블 비디오 비트스트림의 전송된 계층들 및/또는 부-계층들이 결정될 수 있는 방법과 유사하게, 세그먼트들(Segments) 또는 서브세그먼트들(Subsegments)이 상이한 표현들로부터 전송되도록 요구할 수 있다. 표현 다운-스위칭(representation down-switching) 또는 비트스트림 다운-스위칭(bitstream down-switching)이라는 용어는, 이전에 (제각기) 요구 또는 전송되었던 것보다 낮은 비트레이트 표현을 요구 또는 전송하는 것을 의미할 수 있다. 표현 업-스위칭(representation up-switching) 또는 비트스트림 업-스위칭(bitstream up-switching)이라는 용어는, 이전에 (제각기) 요구 또는 전송되었던 것보다 높은 비트레이트 표현을 요구 또는 전송하는 것을 의미할 수 있다. 표현 스위칭 또는 비트스트림 스위칭이라는 용어는 통칭해서 표현 또는 비트스트림 업- 및 다운-스위칭을 의미할 수 있다.

    MPEG-DASH와 유사한 스트리밍 시스템은, 예컨대 IETF 인터넷 드래프트(IETF Internet Draft) draft-pantos-http-live-streaming-13(및 동일한 인터넷 드래프트의 다른 버전들)에서 지정된 HTTP 라이브 스트리밍(HTTP Live Streaming)(HLS로도 알려져 있음)을 포함한다. MPD에 대응하는 매니페스트 포맷으로서, HLS는 확장 M3U 포맷을 사용한다. M3U는 원래 오디오 파일들을 위해 개발된 멀티미디어 플레이리스트를 위한 파일 포맷이다. M3U 플레이리스트(M3U Playlist)는 개개의 라인들로 구성되는 텍스트 파일이고, 각각의 라인은 URI이거나, 블랭크이거나, 또는 태그 또는 코멘트를 지시하는 문자 '#'으로 시작한다. URI 라인은 미디어 세그먼트 또는 플레이리스트(Playlist) 파일을 식별한다. 태그는 #EXT로 시작한다. HLS 표준명세서는 키-값(key-value) 쌍으로서 간주될 수 있는 다수의 태그를 지정한다. 태그들의 값 부분은 속성-값(attribute-value) 쌍들로 이루어진 쉼표로 구분된 리스트인 속성 리스트를 포함할 수 있고, 여기서 속성-값 쌍은 신택스 AttributeName=AttributeValue를 갖는 것으로 간주될 수 있다. 이런 이유로, HLS M3U8 파일들의 태그들은 MPD 또는 XML 내의 요소(Element)들과 유사하게 간주될 수 있고, HLS M3U8 파일들의 속성들은 MPD 또는 XML 내의 속성(Attribute)들과 유사하게 간주될 수 있다. HLS 내의 미디어 세그먼트들은 MPEG-2 전송 스트림(MPEG-2 Transport Stream)에 따라 형식화되고, 단일의 MPEG-2 프로그램(MPEG-2 Program)을 포함한다. 각각의 미디어 세그먼트는 프로그램 연관 테이블(Program Association Table (PAT)) 및 프로그램 맵 테이블(Program Map Table (PMT))로 시작하도록 권장된다.

    동일한 콘텐츠의 상이한 비트스트림들간의 스위칭은 비트레이트 적응에 사용될 수 있다. 상이한 비트스트림으로의 스위칭은, 예컨대 (IDR 픽처와 같은) 폐쇄형 GOP를 시작하는 임의의 인트라 픽처에서 행해질 수 있다.

    비트레이트를 보다 빠르게 조정해야 하는 필요에 대응하고 빈번한 인트라 픽처들의 압축 페널티를 회피하기 위해, 비-인트라 픽처들로부터 스트림 스위칭을 시작하는 것이, 가능한 옵션이 될 수 있다. 실시예에 있어서, 인터-코딩된 프레임들인 S 프레임들은 제 1 스트림으로부터 제 2 스트림까지의 스위칭시에만 사용된다. 이러한 S 프레임들은 작은 양자화 스텝으로 인코딩될 수 있고, 통상적으로 디코딩된 S 프레임을 폐쇄하지만 제 2 스트림의 상응하는 디코딩된 픽처와 동일하게 만들지 않을 수 있다. H.264/AVC는 SI/SP 픽처로서 알려진 특징을 포함한다. SP-프레임 및 SI-프레임은 S 프레임과 유사하게 사용되지만, 이들은 초기부터의 스트림의 디코딩에 비해 스위칭 이후에 동일한 디코딩된 픽처를 제공할 수 있다. 동일한 디코딩된 픽처들은, 기본 스트림에서의 SI/SP 픽처들 및 스위칭만을 위해 사용된 SI/SP 픽처들에 대한 디코딩 프로세스에 있어서의 부가적인 변환 및 양자화 스텝들의 대가로 얻어질 수 있다. 그러나, SI/SP 픽처는 베이스라인(Baseline) 또는 하이 프로파일(High profile)에 포함되지 않기 때문에, 일반적으로 사용되지 않는다.

    도 7은 2개의 상이한 비트스트림 사이에서의 스위칭을 위해 SP 픽처들이 사용될 수 있는 예시적인 방법을 도시한다. 파일 포맷에 있어서, 스위칭 픽처들(예시적인 도 7에서는 SP3)은 스위칭되고 있는 트랙 및 스위칭된 트랙과 구별되는 트랙들인 스위칭 픽처 트랙들에 저장된다. 스위칭 픽처 트랙들은 해당 트랙 내의 특정 필요의 트랙 참조의 존재에 의해 식별될 수 있다. 스위칭 픽처는 정확하게 동일한 디코딩 시간을 갖는 수신측 트랙 내의 샘플에 대한 대안이다. 모든 스위칭 픽처가 SI 픽처이면, 추가 정보가 필요 없을 수 있다.

    스위칭 트랙 내의 픽처들 중 어느 하나가 SP 픽처이면, 2가지의 여분의 정보 부분이 필요해질 수 있다. 먼저, 스위칭되고 있는 소스 트랙은 트랙 참조를 이용함으로써 식별될 수 있다(소스 트랙은 수신측 트랙과 동일한 트랙일 수 있음). 다음으로, 소스 트랙 내의 샘플들에 대한 스위칭 픽처의 종속성이 필요해질 수 있기 때문에, 스위칭 픽처는 그것이 의존하는 픽처들이 디코더에 공급되어 있을 경우에만 사용된다.

    이 종속성은 선택적인 여분의 샘플 테이블에 의해 표현될 수 있다. 스위칭 트랙에서는 샘플당 하나의 엔트리가 존재한다. 각각의 엔트리는 스위칭 픽처가 의존하는 소스 트랙 내의 상대적인 샘플 개수를 기록한다. 정해진 샘플에 대하여 이 어레이가 비어 있으면, 해당 스위칭 샘플은 SI 픽처를 포함한다. 종속성 박스가 존재하지 않으면, 트랙 내에는 SI-프레임들만이 존재하게 된다.

    스위칭 샘플은 상이한 종속성들을 가진 다수의 코딩된 표현들을 가질 수 있다. AVC 비디오의 경우, 스위칭 샘플의 다수의 표현은 상이한 스위칭 트랙들(즉, 액세스 유닛들)에 저장될 수 있다. 예컨대, 하나의 스위치 트랙은 스트림 스위칭에 사용된 조기의 몇몇 샘플들에 종속하는 SP-픽처 표현을 포함하지만, 다른 스위치 트랙은 랜덤 액세스에 사용된 SI-픽처로서 다른 표현을 포함할 수 있다.

    적응형 해상도 변경(Adaptive Resolution Change (ARC))은, 예컨대 영상 회의 용도의 경우에, 비디오 시퀀스 내에서 해상도를 동적으로 변경하는 것을 의미한다. 적응형 해상도 변경(Adaptive Resolution Change)은, 예컨대 보다 양호한 네트워크 적응 및 에러 내성을 위해 사용될 수 있다. 상이한 콘텐츠의 변경 네트워크 요건에 대한 보다 양호한 적응을 위해, 품질에 더하여 시간/공간 해상도를 모두 변경할 수 있는 것이 바람직해질 수 있다. 적응형 해상도 변경(Adaptive Resolution Change)은 신속한 시작(fast start)을 가능하게 할 수도 있고, 이때 세션의 개시 시간은 먼저 저해상도 프레임을 송신하고 나서 해당 해상도를 증가시킴으로써 증가될 수 있다. 적응형 해상도 변경(Adaptive Resolution Change)은 회의를 구성함에 있어서 추가로 사용될 수 있다. 예컨대, 누군가 말을 시작하면, 그/그녀의 상응하는 해상도가 증가될 수 있다. IDR 프레임으로 이를 행하면, IDR 프레임은 지연이 현저하게 증가되지 않도록 상대적으로 낮은 품질로 코딩될 필요가 있기 때문에, 품질에 있어서의 "일시적인 문제(blip)"가 야기될 수 있다.

    시퀀스 레벨 시그널링(sequence level signaling)은 비트스트림에서 해상도 변경이 존재하는지를 디코더에 지시하는데 사용될 수 있다. 이는, 예컨대 플래그 single_layer_for_non_irap_flag를 이용해서 수행될 수 있다. single_layer_for_non_irap_flag는 코딩된 비디오 시퀀스가 적응형 해상도 변경 동작을 수행하도록 제한된다고 시그널링하는데 사용될 수 있다. single_layer_for_non_irap_flag는 특히, 스위칭 픽처들을 제외하고는, 시퀀스 내의 각각의 AU가 단일 계층으로부터의 단일 픽처(BL 픽처일수도 또는 아닐 수도 있음)를 포함하고; 스위칭이 일어나는 액세스 유닛이 2개의 계층으로부터의 픽처들을 포함하는 것을 지시하고, 상기와 같은 액세스 유닛 내의 EL 픽처는 IRAP 픽처이며, EL IRAP 픽처에 대해서는 계층 간 예측이 사용될 수 있다.

    VPS에서 single_layer_for_non_irap_flag를 지시하는 것은 해상도 변경을 달성하는 것을 제외하면 스케일러빌리티가 사용되지 않는다는 점을 디코더가 알게 되는 것을 허용할 수 있기 때문에, 디코더 리소스는 세션 시작시에 그에 맞게 할당될 수 있다.

    single_layer_for_non_irap_flag는 표준적인 디코딩 프로세스에서는 변경을 야기하지 않을 수 있기 때문에, VPS VUI 신택스에 포함될 수 있다.

    single_layer_for_non_irap_flag의 시맨틱은 다음과 같이 지정될 수 있다:

    1과 동일한 single_layer_for_non_irap_flag는 하기의 내용을 지시한다:

    - vps_base_layer_internal_flag가 1과 동일하면, 1과 동일한 single_layer_for_non_irap_flag는, 하기의 내용들 중 어느 하나가 이 VPS가 액티브 VPS인 각각의 액세스 유닛에 대하여 참이 됨을 지시한다:

    o 액세스 유닛의 VCL NAL 유닛들이 모두 동일한 nuh_layer_id 값을 갖는다.

    o 2개의 nuh_layer_id 값이 액세스 유닛의 VCL NAL 유닛들에 의해 사용되고, 보다 큰 nuh_layer_id 값을 갖는 픽처가 IRAP 픽처이다.

    - 그렇지 않으면(즉, vps_base_layer_internal_flag가 0과 동일하면), 1과 동일한 single_layer_for_non_irap_flag는, 하기의 내용들 중 어느 하나가 이 VPS가 액티브 VPS인 각각의 액세스 유닛에 대하여 참이 됨을 지시한다:

    o 0과 동일한 nuh_layer_id를 갖는 디코딩된 픽처가 외부 수단에 의해 액세스 유닛에 제공되지 않고, 액세스 유닛은 하나의 코딩된 픽처를 포함한다.

    o 0과 동일한 nuh_layer_id를 갖는 디코딩된 픽처가 외부 수단에 의해 액세스 유닛에 제공되지 않고, 액세스 유닛은 2개의 코딩된 픽처를 포함하며, 보다 큰 nuh_layer_id 값을 갖는 픽처가 IRAP 픽처이다.

    o 0과 동일한 nuh_layer_id를 갖는 디코딩된 픽처가 외부 수단에 의해 액세스 유닛에 제공되고, 액세스 유닛은 IRAP 픽처인 하나의 코딩된 픽처를 포함한다.

    0과 동일한 single_layer_for_non_irap_flag는 상기 제한들이 적용될 수도 또는 적용되지 않을 수도 있음을 지시한다. 존재하지 않을 경우, single_layer_for_non_irap_flag의 값은 0과 동일한 것으로 추론된다.

    single_layer_for_non_irap_flag는, 시맨틱들이 다음과 같이 지정될 수 있는 higher_layer_irap_skip_flag에 의해 동반될 수 있다:

    1과 동일한 higher_layer_irap_skip_flag는 각각의 IRAP 픽처 currIrapPic이 아래에 지정된 대로 제한됨을 지시한다. currIrapPic은 이 VPS가 액티브 VPS인 각각의 액세스 유닛 currAu에 대하여 다음과 같이 도출된다:

    - vps_base_layer_internal_flag가 1과 동일하면, currAu는 2개의 코딩된 픽처를 포함하고, 보다 큰 nuh_layer_id 값을 갖는 픽처가 IRAP 픽처이며, currIrapPic를 그 IRAP 픽처라고 한다.

    - 그밖에, vps_base_layer_internal_flag가 0과 동일하면, 0과 동일한 nuh_layer_id를 갖는 디코딩된 픽처는 외부 수단에 의해 currAu에 제공되지 않고, currAu는 2개의 코딩된 픽처를 포함하고, 보다 큰 nuh_layer_id 값을 갖는 픽처가 IRAP 픽처이며, currIrapPic를 그 IRAP 픽처라고 한다.

    - 그밖에, vps_base_layer_internal_flag가 0과 동일하면, 0과 동일한 nuh_layer_id를 갖는 디코딩된 픽처는 외부 수단에 의해 currAu에 제공되고, 액세스 유닛이 IRAP 픽처인 하나의 코딩된 픽처를 포함하며, currIrapPic를 그 IRAP 픽처라고 한다.

    - 그밖에, currIrapPic는 currAu에 대하여 도출되지 않는다.

    - 각각의 픽처 currIrapPic에 대하여 하기의 제한들이 적용될 수 있다:

    o IRAP 픽처의 모든 슬라이스에 대하여:

    ㆍ slice_type은 P와 동일해지게 된다.

    ㆍ slice_sao_luma_flag 및 slice_sao_chroma_flag는 모두 0과 동일해지게 된다.

    ㆍ five_minus_max_num_merge_cand는 4와 동일해지게 된다.

    ㆍ weighted_pred_flag는 슬라이스들에 의해 참조되는 PPS에 있어서는 0과 동일해지게 된다.

    o IRAP 픽처의 모든 코딩 유닛에 대하여:

    ㆍ cu_skip_flag[i][j]는 1과 동일해지게 된다.

    single_layer_for_non_irap_flag가 0과 동일한 경우, higher_layer_irap_skip_flag는 0과 동일해져야 한다. higher_layer_irap_skip_flag가 존재하지 않는 경우, 이는 0과 동일한 것으로 추론될 수 있다.

    vps_base_layer_internal_flag가 0과 동일한 경우, 인코더는, 1과 동일한 single_layer_for_non_irap_flag를, 최대 2개의 픽처가 임의의 액세스 유닛에 존재하고 동일한 액세스 유닛에 2개의 픽처가 존재할 때면 보다 높은 nuh_layer_id 값을 갖는 픽처가 IRAP 픽처라는 디코더에의 지시로서 설정할 수 있다. 인코더는, 1과 동일한 higher_layer_irap_skip_flag를, 동일한 액세스 유닛에 2개의 픽처가 존재할 때면, 보다 높은 nuh_layer_id 값을 갖는 픽처가, 입력으로서 보다 낮은 nuh_layer_id 값을 갖는 다른 픽처를 계층 간 참조 픽처 도출 프로세스에 적용함으로써 디코딩된 샘플들이 도출될 수 있는 IRAP 픽처라는 디코더에의 지시로서 부가적으로 설정할 수 있다.

    single_layer_for_non_irap_flag가 1과 동일하고 higher_layer_irap_skip_flag가 1과 동일한 경우, 2개의 픽처를 포함하는 액세스 유닛에서 보다 높은 nuh_layer_id 값을 갖는 픽처가 스킵-코딩된 IRAP 픽처(skip-coded IRAP picture) 또는 스킵 픽처(skip picture)로서 인용될 수 있다.

    각각의 예측 유닛에 대해서는 계층 간 움직임을 코딩하기 위해 머지 모드가 사용될 수 있기 때문에, 스킵 픽처는 사이즈가 작을 수 있고, 코딩 트리 유닛들은 코딩 유닛들로 분할 필요가 없으며, 각각의 코딩 유닛에 대한 잔차 코딩을 스킵하기 위해 단지 하나의 CABAC-코딩된 플래그, 즉 cu_skip_flag만이 필요해질 수 있다.

    독립적인 비-베이스 계층들 및 독립적인 비-베이스 계층 디코딩( INBLD ) 능력(Independent non-base layers and independent non-base layer decoding (INBLD) capability)

    독립적인 계층은 직접 참조 계층들을 갖지 않는 계층으로서 정의될 수 있다. 즉, 독립적인 계층은 계층 간 예측을 이용해서 예측되지 않는다.

    비-베이스 계층은 베이스 계층 이외의 임의의 다른 계층으로서 정의될 수 있고, 베이스 계층은 비트스트림 내의 최하위 계층으로서 정의될 수 있다.

    독립적인 비-베이스 계층은 독립적인 계층이면서 비-베이스 계층인 계층으로서 정의될 수 있다.

    독립적인 비-베이스 계층 디코딩(INBLD) 능력은 메인 프로파일과 같은 하나 이상의 단일-계층 프로파일의 디코딩 능력과 연관된다. 하나 이상의 단일-계층 프로파일에 대한 디코더의 능력을 나타내는 경우, 이들 프로파일에 대하여 독립적인 비-베이스 계층 디코딩 능력이 지원되는지의 여부가 또한 나타내져야 한다.

    지원되는 경우, 독립적인 비-베이스 계층 디코딩 능력은, 예컨대 액티브 VPS 및 SPS에서 단일-계층 프로파일에 적합한 것으로 지시되고 부가적인 계층 세트에서 최소 nuh_layer_id 값을 갖는 계층인 독립적인 비-베이스 계층을 디코딩하는 디코더의 능력을 지시할 수 있다.

    HEVC의 profile_tier_level( ) 신택스 구조가 시스템 내의 디코더 능력을 지시하기 위해 사용되는 경우, 독립적인 비-베이스 계층 디코딩 능력은 디코더에 적합한 프로파일, 티어, 및 레벨을 나타내는데 사용된 profile_tier_level( ) 신택스 구조에서 general_inbld_flag를 1과 동일하게 설정함으로써 지시될 수 있다.

    general_inbld_flag는, 단일-계층 프로파일이 지시되고 비-베이스 계층에 대하여 적용할 수 있게 VPS에서 지정되거나 또는 독립적인 비-베이스 계층에 대하여 활성화된 SPS에 포함되는 HEVC profile_tier_level( ) 신택스 구조에서 1과 동일하게 설정될 수 있다.

    독립적인 비-베이스 계층 디코딩 능력을 갖고 특정 티어의 특정 레벨에서 특정한 단일-계층 프로파일에 적합한 HEVC 디코더는 각각의 액티브 VPS에 대하여 하기의 조건들이 모두 적용되는 독립적인 비-베이스 계층의 i와 동일한 TemporalId로 임의의 독립적인 비-베이스 계층 또는 부-계층 표현을 디코딩할 수 있다:

    - 독립적인 비-베이스 계층으로 구성되고 연관된 profile_tier_lever( ) 신택스 구조 ptlStruct가 다음과 같이 제한되는 OLS가 존재한다:

    o ptlStruct는 독립적인 비-베이스 계층 또는 부-계층 표현이 부록 A에서 지정된 프로파일에 적합함을 지시한다.

    o ptlStruct는 독립적인 비-베이스 계층 또는 부-계층 표현이 지정된 레벨 이하의 레벨에 적합함을 지시한다.

    o ptlStruct는 독립적인 비-베이스 계층 또는 부-계층 표현이 지정된 티어 이하의 티어에 적합함을 지시한다.

    o ptlStruct 내의 general_inbld_flag 또는 sub_layer_inbld_flag[i]가 1과 동일하다.

    코딩 표준은 독립적인 비-베이스 계층 재작성 프로세스를 포함하고, 이는 예컨대 HEVC에서 지정된다. 이러한 재작성 프로세스는, 독립적인 비-베이스 계층을 입력으로서 포함하는 비트스트림을 취하고 독립적인 비-베이스 계층을 해당 프로세스의 출력 비트스트림의 베이스 계층으로 되도록 전환할 수 있다. 도출된 비트스트림 outBitstream을 독립적인 비-베이스 계층 재작성 프로세스를 호출하는 것에 의해 도출되는 비트스트림이라고 한다. 독립적인 비-베이스 계층 디코딩 능력을 갖는 디코더는 독립적인 비-베이스 계층 재작성 프로세스를 적용해서 outBitstream을 취득하고 나서, outBitstream으로 지정된 단일-계층 프로파일에 대하여 입력으로서 디코딩 프로세스를 적용한다.

    랜덤 액세스 지점(RAP) 픽처들은 탐색 및 빨리-감기와 같은 기능을 제공하기 위해 스트리밍에서 사용된다. DASH에 있어서, RAP 픽처들은 또한 수신 버퍼의 언더플로(underflow)를 회피하고 네트워크 스루풋을 가급적 효율적으로 사용하기 위해 플레이어의 레이트 적응 로직에 대한 응답으로서 수행될 수 있는 표현 스위칭을 가능하게 하는데 사용된다.

    DASH 표현들의 스트리밍 세션 동안 상이한 품질들 및 해상도들 사이에서 클라이언트 스위칭을 지원하기 위해, 랜덤 액세스 지점 픽처들은 세그먼트 경계들에서 인코딩될 수 있다. 종래에는, 소위 폐쇄형 픽처 그룹(GOP) 예측 구조를 시작하는 순간적 디코딩 리프레시(IDR) 픽처와 같은 순간적 RAP 픽처만이 DASH 표현의 세그먼트 경계들에서 이용되고 있다. H.265/HEVC에서 개방형 GOP를 시작하는 인트라 픽처, 예컨대 CRA 픽처의 이용은, CRA 픽처에서 시작하는 디코딩 프로세스가 표준으로 지정되어 있다는 점에서, 과거의 표준에 비해 H.265/HEVC에서 개선되어 있다. 디코딩이 CRA 픽처에서 시작하면, 디코딩 순서에 있어서는 CRA 픽처에 후속하지만 출력 순서에 있어서는 CRA 픽처에 선행하는 RASL(random access skipped leading) 픽처라고 하는 일부 픽처들이 디코딩되지 않을 수 있다. 결과적으로, DASH에서의 세그먼트 경계들에서 개방형 GOP가 사용되었을 경우에는, 표현 스위칭이 RASL 픽처를 디코딩할 수 없게 되어서 재생시에 픽처 레이트 글리치가 발생할 수 있다. 예컨대, 8개의 픽처로 이루어진 예측 계층구성이 사용되었고 픽처 레이트가 25 Hz였을 경우에, 비디오는 약 1/3초 동안 멈추게 된다.

    표현들이 개방형 GOP 구조를 사용하고 동일한 해상도 및 그 밖의 특성들을 공유할 때, 즉 소스 표현의 디코딩된 픽처가 목표 표현의 픽처들을 예측하기 위한 참조 픽처와 같이 사용될 수 있을 때, 원활한 표현 스위칭이 가능해질 수 있다. 그러나, 표현들은 동일한 특성들을 공유하지 않을 수 있고, 예컨대 표현들은 상이한 공간 해상도로 이루어질 수 있고, 이때 원활한 표현 스위칭을 위해서는 약간의 추가적인 고려사항들이 필요해질 수 있다.

    하기에서는, 원활한 표현 스위칭에 관한 몇 가지 과제가 더 상세하게 개시된다.

    리딩 픽처들의 적절한 취급은 분명하지 않을 수 있다. 리딩 픽처들을 취득하는 과제의 설명으로서, 도 8a 내지 도 8e를 참조하여 일례를 기술한다. 이 예시에 있어서, 픽처들의 출력 순서는 좌측에서 우측으로 이어진다. 디코딩 순서는 출력 순서와는 다르다는 점에 유의한다. 도 8a의 예시에 있어서는, 2개의 비트스트림, 즉 BS1 및 BS2가 존재한다. 픽처들은 직사각형으로 표시되고, 픽처 타입은 직사각형 내에서, IDR, 인트라 (I), 인터 (P), 또는 양방향 예측 (B)로 표시된다. 0보다 큰 temporal_id의 값은 픽처 타입 뒤에 숫자로서 표시된다. 화살표는 인터 예측 관계를 표시하고, 화살표의 소스는 화살표가 지시하고 있는 픽처에 대한 참조 픽처로서 사용된다.

    예시에 있어서, 제 1 비트스트림(BS1)으로부터 제 2 비트스트림(BS2)까지의 스위칭은 I 픽처에서 이루어진다. 출력 순서상 I 픽처의 바로 앞에 있는 리딩 픽처들(B2, B1, B2)의 취급에 주의해야 한다.

    ("디코딩 불가능한(non-decodable)") 리딩 픽처들의 디코딩을 생략하는 것은 재생에 있어서 간극을 야기할 수 있으며, 이는 바람직하지 않다. 도 8b는 이 해법을 설명한다.

    해법은 두 비트스트림으로부터 I 픽처를 수신 및 디코딩하는 것일 수 있다. 이후, 두 옵션 사이에서 선택이 이루어질 수 있다. 제 1 옵션에 따르면, 리딩 픽처들이 제 1 비트스트림(BS1)(그것으로부터 스위칭)으로부터 수신 및 디코딩된다. 디코딩 순서상 I 픽처에 후속하기 때문에 일반적으로 BS2의 리딩 픽처들이 또한 수신된다는 점에 유의한다. 다른 옵션은 제 2 비트스트림(BS2)(그것으로 스위칭)으로부터 리딩 픽처들을 수신 및 디코딩하는 것이다. 제 1 비트스트림(BS1)의 리딩 픽처들은 수신 및 디코딩될 필요가 없다. 제 2 비트스트림(BS2)으로부터의 리딩 픽처들은 제 1 비트스트림(BS1)에서 유래하는 디코딩에서의 그들의 참조 픽처들 중 일부로서 완전하게 재구성되지 않을 수 있는 반면, 제 2 비트스트림(BS2)의 리딩 픽처들은 BS2로부터의 참조 픽처들을 이용해서 인코딩되었다는 점에 유의한다. 또한, 이 동작은, BS1의 디코딩된 픽처들이 BS2의 픽처들의 디코딩을 위한 참조 픽처로서 사용될 수 있는 것임을, 즉 일반적으로 적어도 BS1 및 BS2의 공간 해상도, 색차 포맷, 및 비트 깊이가 동일한 것임을 상정한다. BS1의 디코딩된 픽처들이 BS2의 픽처들의 디코딩을 위한 참조 픽처로서 사용되기에 적합하지 않은 것일 경우에는, 이 해법을 이용할 수 없다.

    상술한 옵션들 모두에 있어서는, 실시간 디코딩보다 느리다는 이유로 재생에 있어서 약간의 중지를 야기할 수 있고 전송 대역폭을 소비하는 2개의 I 픽처가 수신 및 디코딩된다. 도 8c는 이 해법을 설명한다. 또한, DASH 등의 서비스는 통상적으로 세그먼트(Segment) 또는 서브세그먼트(Subsegment) 기준으로 운용되고, 이 경우에는 개개의 픽처들보다는 픽처들의 시퀀스가 요구되어 수신된다. 이런 이유로, 상이한 표현들로부터 2개의 I 픽처를 수신하는 것은 실용적이지 않을 수 있다.

    일반적으로, 비트스트림들의 GOP 패턴은 동일할 필요가 없다. 결국, 하나의 비트스트림으로부터의 디코딩된 픽처들이 다른 비트스트림에 대한 참조 픽처로서 사용될 수 있는지의 여부를 알지 못할 수도 있다. 따라서, 제 1 비트스트림의 리딩 픽처들이 디코딩될 수 있지만, 제 2 비트스트림으로부터는 아니다. 도 8d는 이러한 상황의 일례를 제공한다. 제 1 비트스트림(BS1)에서는 제 2 비트스트림(BS2)의 P 픽처와 동등한 참조 픽처가 없기 때문에, 제 2 비트스트림(BS2)의 리딩 픽처들 B1은 디코딩될 수 없다.

    실시예에 따른 예시적인 디코딩 전략은 아래에서 도 8e를 참조하여 기술된다. 이 예시에 있어서, 2개의 비트스트림의 GOP 구조들은 동일하다. 이 디코딩 해법은 스위치 지점에서 인트라 픽처들 중 하나만 디코딩할 필요가 있기 때문에, 중지 없이 실시간 동작을 개선하는 것이 가능하다. 제 2 비트스트림(BS2)의 리딩 픽처들은 완전하게 재구성되지 않을 수도 있지만, 이러한 일시적인 이미지 품질의 열화는 일반적으로 전혀 인지되지 안거나 거슬리지 않을 수 있다. I 픽처 및 BS1의 리딩 픽처들은 전송될 필요가 없으며, 이는 전송 대역폭을 절감한다.

    요약하면, 인트라 픽처 및 제 1 비트스트림(BS1)의 리딩 픽처들이 수신 및 디코딩되는지의 여부, 또는 제 2 비트스트림(BS2)의 리딩 픽처들이 필요에 따라 제 1 비트스트림(BS1)의 참조 픽처를 이용해서 디코딩될 수 있는지의 여부가 수신기에서 용이하게 결정되지 않을 수도 있다. 또한, 비트스트림 스위칭을 세그먼트(Segment) 또는 서브세그먼트(Subsegment) 기준으로 수행하고 특정 픽처 또는 특정 픽처들의 전송의 개별적인 요구를 회피하는 것이 바람직하다.

    표현 스위칭에서 개방형 GOP를 이용하는 대안으로서, 폐쇄형 GOP가 사용될 수 있고, 이 경우 원활한 재생이 달성될 수 있지만, 개방형 GOP의 사용에 비해 압축 효율이 열악해질 수 있다.

    표현 스위칭 동안에도 안정적인 픽처 레이트가 유지되고 폐쇄형 GOP 예측 구조를 사용할 경우에 비해 양호한 압축 효율을 얻기 위해 개방형 GOP 예측 구조가 사용되도록 DASH 또는 유사한 적응형 스트리밍에서 표현 스위칭을 가능하게 하기 위한 몇몇 실시예들이 아래에 제시된다.

    하기에서는, 실시예에 따른 세그먼트의 인코딩 및 준비가 도 9a 및 도 10을 참조하여 더 상세하게 기술된다. 이 실시예는 중복 적응형 해상도 변경(redundant adaptive resolution change(RARC))으로서 인용될 수 있다. 인코더는 제 1 비디오 프레젠테이션 및 제 2 비디오 프레젠테이션 또는 그들의 하나 이상의 부분을 수신 내지는 취득할 수 있다(도 10의 블럭 100 및 102). 블럭 100 및 102에서는, 제 1 비디오 프레젠테이션 및 제 2 비디오 프레젠테이션이 비압축 포맷으로 수신 내지는 취득될 필요는 없을 수 있다. 경우에 따라, 단일의 비디오 프레젠테이션이 취득 내지는 수신될 수 있고, 제 1 비디오 프레젠테이션 및/또는 제 2 비디오 프레젠테이션은 리샘플링, 샘플 값 스케일링, 및/또는 그 밖의 처리에 의해 단일의 비디오 프레젠테이션으로부터 취득될 수 있다. 인코더는, 이 예시에서는 낮은 해상도 표현인 제 1 비트스트림(표현 #1(Representation #1))(901)을 인코딩할 수 있다(블럭 104). 인코더는 하나 이상의 IDR/BLA 픽처(903), RADL 픽처와 같은 리딩 픽처(904)(존재하는 경우), 및 트레일링 픽처(905)를 표현 #1(Representation #1)에 대한 비트스트림으로 인코딩할 수 있다. 제각기, 인코더는 또한, 이 예시에서는 높은 해상도 표현인 제 2 비트스트림(표현 #2(Representation #2))(902)을 인코딩할 수 있다(블럭 106). 인코더는 하나 이상의 CRA 픽처(906), RASL 픽처와 같은 리딩 픽처(907)(존재하는 경우), 및 트레일링 픽처(908)를 표현 #2(Representation #2)에 대한 비트스트림으로 인코딩할 수 있다. 인코더, 또는 MPD 작성기 또는 파일 캡슐화기와 같은 다른 엔티티는 표현 #1(Representation #1)을 이용함으로써 표현 #2(Representation #2)의 일부를 디코딩하기 위한 정보를 인코딩할 수 있다(블럭 108).

    중복 적응형 해상도 변경에 있어서, 저해상도 비트스트림은 종래에는 예컨대, 단일-계층 H.265/HEVC 비트스트림으로서 코딩될 수 있는 반면, 고해상도 비트스트림은, 그와는 달리 종래의 단일-계층 비트스트림일 수 있지만, 계층 식별자(nuh_layer_id 신택스 요소)가 1과 동일하게(또는 0이 아닌 어느 다른 값으로) 설정될 수 있다. 또한, 부가적인 인핸스먼트-계층 스킵-코딩된 IRAP 픽처(아래에서는 스킵 픽처라고도 함)는 디코딩 순서상 연관된 CRA 픽처에 선행하는 고해상도 RASL 픽처들의 각각의 참조 픽처에 대하여 생성될 수 있다. 이는 세그먼트(Segment) 또는 서브세그먼트(Subsegment)를 시작하는 해당 CRA 픽처들에 대해서만 행해질 수 있다. 스킵 픽처들은 개념적으로는 저해상도 비트스트림의 인핸스먼트 계층(1과 동일한 nuh_layer_id를 가짐)에 속하고, 이들 픽처는 저해상도 표현의 세그먼트에 캡슐화될 수 있다.

    업-스위칭 동안의 중복 적응형 해상도 변경 방법의 동작이 도 9b 및 도 11의 흐름도에서 실시예에 따라 설명된다. 저해상도 표현(901)을 취득할 때(도 11의 블럭 120 및 122), 플레이어는 각각의 세그먼트에서 스킵 픽처(910)를 또한 취할 수 있다. 플레이어, 또는 MPD 파서 또는 파일 파서와 같은 다른 엔티티는 제 1 코딩된 비디오 프레젠테이션을 이용함으로써 제 2 코딩된 비디오 프레젠테이션의 일부를 디코딩하기 위한 정보를 디코딩 또는 파싱할 수 있다(블럭 128). 정보는, 제 1 코딩된 비디오 프레젠테이션이 제 2 코딩된 비디오 프레젠테이션의 일부를 디코딩함에 있어서 예측을 위한 참조로서 사용될 수 있는 스킵 픽처(910)를 포함한다는 것을 지시할 수 있다. 이 스킵 픽처(910)는 고해상도 표현(902)으로의 스위칭시에만 이용될 수 있다(블럭 124 및 126). 플레이어는 업-스위칭 동안 SHVC 디코딩 프로세스(등)를 이용하므로, 스킵 픽처(910)를 디코딩할 수 있다. 다음 수신된 세그먼트는 고해상도 표현(902)으로부터의 세그먼트이다(블럭 130). 고해상도 표현의 제 1 CRA(906) 픽처의 RASL 픽처(907)도 이전의 세그먼트의 픽처들을 참조로서 사용한다. 그러나, 디코더는 이제 디코딩된 스킵 픽처(910)를 대신 사용할 수 있다. 디코딩될 비트스트림에 스킵 픽처가 포함되기 때문에, 디코더는 디코딩이 다음 수신 세그먼트를 언급할 때 SHVC 디코딩 프로세스(등)를 추종할 수 있으며(블럭 130), 임의의 비-표준적인 프로세스를 이용해서 업샘플링된 참조 픽처(들)를 생성할 필요가 없을 수도 있다.

    실시예에 따르면, 상이한 공간 해상도, 비트 깊이, 컬러 영역 및/또는 색차 포맷의 표현들 사이의 스위칭은 리샘플링 및/또는 그 밖의 처리들을 통해 가능해질 수 있다.

    비-중첩 (서브-)세그먼트 시퀀스들의 특징은 개개의 표현들 또는 적응 세트들의 특징과는 구별되게 시그널링될 수 있다. 중복 적응형 해상도 변경을 이용하는 실시예에 있어서, 비-중첩 (서브-)세그먼트 시퀀스는 적응형 해상도 변경 특징만을 이용하도록 제한되는 스케일러블 비디오 비트스트림으로 표시될 수 있다. 이 실시예에 있어서는, 종래의 스케일러블 비디오 디코딩 프로세스가 사용될 수 있기 때문에, 개방형 GOP 예측 구조를 이용하는 이질적인 표현들간의 스위칭은 표준화된 디코딩 프로세스에서 변경 없이 가능해질 수 있다.

    HEVC 버전 2의 F.8절(및 그 종속절)에서 지정된 HEVC 다중-계층 확장규격에 대한 공통 디코딩 프로세스는 하기의 2개의 변수를 외부 수단을 통해 취한다: 디코더가 사용하는 출력 계층 세트의 인덱스를 지정하는 TargetOlsIdx; 및 디코딩될 최상위 시간적 부-계층을 지정하는 HighestTid.

    디코더는 이들 변수를 설정하지 않으면 동작하지 못할 수도 있다. 그에 따라, 이들 변수를 나타내고 프로파일-티어-레벨 트리플릿의 조합에 연관시키는 실시예들이 아래에 제공된다.

    다른 실시예들과 함께 또는 독립적으로 적용될 수 있는 실시예에 있어서, 코덱 파라미터 및/또는 임의의 다른 MIME 타입 파라미터는 프로파일-티어-레벨 값들로 이루어진 연관 리스트에 적용되는 출력 계층 세트 및/또는 최상위 부-계층 중 적어도 하나의 정보를 제공할 수 있다. 예컨대, 하기의 신택스 및 시맨틱은 코덱 파라미터에 포함된 각각의 ListItem 에 대하여 사용될 수 있다(여기서, 코덱 파라미터는 앞서 기술한 바와 같이, ListItem의 쉼표로 구분된 리스트임).

    각각의 ListItem 은 하기의 구조를 가질 수 있고:

    SampleEntryType1.ProfileTierLevel1(.SampleEntryTypeN.ProfileTierLevelN)*(#OutOpPoint)?

    여기서, 별표('*')는 0회 이상의 반복을 지시하고, ('?')는 0회 또는 1회의 발생을 지시하고, '.'은 분리 문자이고, '#'은 쉼표로 구분된 프로파일-티어-레벨 부-문자열들의 리스트로부터 출력 동작 지점 부-문자열 OutOpPoint 를 구별하기 위한 다른 분리 문자이다. 분리 문자 '.'는 임의의 다른 분리 문자 또는 몇몇 상이한 분리 문자들과 동등할 수 있고, 가능하게는 상이한 위치 또는 목적을 위해 사용될 수 있다는 점을 이해해야 한다. 예컨대, 분리 문자 '!'는 SampleEntryTypeN 의 앞에서 '.'을 대신해서 사용될 수 있다. 유사하게, 분리 문자 '#'은 임의의 다른 분리 문자와 동등할 수 있음을 이해해야 한다.

    ListItem 에 대한 위의 신택스는, 분리 문자에 의해 구분된 하나 이상의 프로파일-티어-레벨 부-문자열 및 프로파일-티어-레벨 부-문자열로부터 문자 '#'에 의해 구분된, 아래에 지정된, 0 또는 1의 출력 동작 지점 부-문자열을 포함하는 것으로 이해될 수 있다. 출력 동작 지점 부-문자열은, 존재할 경우, 프로파일-티어-레벨 부-문자열을 추종한다.

    프로파일-티어-레벨 부-문자열은 앞서 기술한 대로 지정될 수 있다. 더 일반적으로, 코덱 파라미터는 다음에 기술되는 출력 동작 지점 부-문자열을 제외하면, 앞서 기술한 대로 지정될 수 있다.

    출력 동작 지점 부-문자열은, 존재할 경우, 마침표 (".")로 구분된, 하기의 리스트의 값들을 포함할 수 있다:

    ㆍ 10진수로서 인코딩된, 각각의 액티브 비디오 파라미터 세트에 포함된 출력 계층 세트에 대한 출력 계층 세트 인덱스. 지시된 출력 계층 세트의 필수 계층들은 ListItem 에서 지시된 프로파일-티어-레벨 정보에 적합해야 한다. 이 출력 계층 세트 인덱스는 HEVC 디코딩 프로세스에 대한 입력으로서 제공된 TargetOlsIdx 값으로서 사용될 수 있다. 출력 계층 세트 인덱스는 HEVC 베이스 계층을 포함하지 않는 HEVC 비트스트림에 대하여 제공되어야 한다. 존재하지 않는 경우, 출력 계층 세트 인덱스는 0과 동일한 것으로 추론될 수 있다.

    ㆍ 모든 필수 계층에 대하여 정해진 프로파일-티어-레벨 정보에 대응하는, 10진수로서 인코딩된, 최상위 TemporalId 값. 이 최상위 TemporalId 값은 HEVC 디코딩 프로세스에 대하여 입력으로서 제공된 HighestTid 값으로서 사용될 수 있다. 존재하지 않을 경우, 최상위 TemporalId 값은 6과 동일한 것으로 추론될 수 있다.

    하기에 있어서, 코덱의 값들의 몇몇 예시들이 제공된다(프로파일-티어-레벨 부-문자열 사이에 분리 문자 '#'을 상정):

    codecs=hev1.A1.80.L93.B0!hev1.A7.1.L120.B0#2는 2-계층, 순행, 비-압축 스트림을 지시할 수 있고, 여기서 베이스 계층을 포함하는 트랙은 샘플 엔트리 타입 'hev1'을 사용하고, 베이스 계층은 메인 프로파일, 메인 티어, 레벨 3.1(Main Profile, Main Tier, Level 3.1)에 적합하고, 인핸스먼트 계층을 포함하는 트랙은 샘플 엔트리 타입 'hev1'을 사용하고(예컨대, 베이스 계층을 또한 포함하는 트랙에 포함될 수 있음), 인핸스먼트 계층은 스케일러블 메인 프로파일, 메인 티어, 레벨 4(Scalable Main Profile, Main Tier, Level 4)에 적합하다. 인핸스먼트 계층 및 베이스 계층을 필수 계층으로서 포함하는 출력 계층 세트 인덱스는 2이다. codecs=lhv1.A7.1.L120.B0#2, hev1.A1.80.L93.B0#1은 2-계층, 순행, 비-압축 스트림을 지시할 수 있고, 여기서 인핸스먼트 계층을 포함하는 트랙은 샘플 엔트리 타입 'lhv1'을 사용하고, 인핸스먼트 계층은 스케일러블 메인 프로파일, 메인 티어, 레벨 4(Scalable Main Profile, Main Tier, Level 4)에 적합하고, 베이스 계층을 포함하는 트랙은 샘플 엔트리 타입 'hev1'을 사용하고, 베이스 계층은 메인 프로파일, 메인 티어, 레벨 3.1(Main Profile, Main Tier, Level 3.1)에 적합하다. 인핸스먼트 계층 및 베이스 계층을 필수 계층으로서 포함하는 출력 계층 세트 인덱스는 2인 반면, 베이스 계층만을 포함하는 출력 계층 세트 인덱스는 1이다. codecs=lhv1.A7.1.L120.B0#1, avc1.64081F#1은, 인핸스먼트 계층을 포함하는 트랙이 샘플 엔트리 타입 'lhv1'을 사용하고, 인핸스먼트 계층이 스케일러블 메인 프로파일, 메인 티어, 레벨 4(Scalable Main Profile, Main Tier, Level 4)에 적합하고, 인핸스먼트 계층이 순행, 비-압축 픽처들을 포함하고, 인핸스먼트 계층이 AVC-코딩된 베이스 계층으로부터 예측되는 것을 지시할 수 있다. AVC-코딩된 베이스 계층은 샘플 엔트리 타입 'avc1'을 사용하고, 베이스 계층은 순행 하이 프로파일, 레벨 3.1(Progressive High Profile, Level 3.1)에 적합하다. 인핸스먼트 계층 및 베이스 계층을 필수 계층으로서 포함하는 출력 계층 세트 인덱스는 1이다.

    일부 실시예에 있어서, 이전의 실시예들에서 지정된, 또는 이전의 실시예들과 유사한 코덱 파라미터는 ISOBMFF와는 다른 컨테이너 파일 타입으로 사용될 수 있다. 예컨대, 일부 실시예에 있어서, 이전의 실시예들에서 지정된, 또는 이전의 실시예들과 유사한 코덱 파라미터는 HTTP 라이브 스트리밍(HTTP Live Streaming (HLS))의 플레이리스트 파일의 EXT-X-STREAM-INF 태그의 CODECS 속성으로 사용될 수 있다. 이는, 프로파일-티어-레벨 리스트(계층들에 대응), 디코딩에서 사용되는 출력 계층 세트 인덱스, 및 플레이리스트 파일 내에서의 디코딩에서 사용되는 최상위 부-계층의 하나 이상을 시그널링하는 것을 가능하게 할 수 있다. 다른 예시에 있어서, HTTP 라이브 스트리밍(HTTP Live Streaming (HLS))의 플레이리스트 파일의 EXT-X-STREAM-INF 태그 또는 다른 태그의 신규 속성은 프로파일-티어-레벨 리스트(계층들에 대응), 디코딩에서 사용되는 출력 계층 세트 인덱스, 및 플레이리스트 파일 내에서의 디코딩에서 사용되는 최상위 부-계층을 하나 이상 구비하는 것으로 정의될 수 있다.

    다른 실시예들과 함께 또는 독립적으로 적용될 수 있는 실시예에 있어서, 프로파일-티어-레벨 값들로 이루어진 연관 리스트에 적용되는 출력 계층 세트 및 최상위 부-계층 중 적어도 하나는 DASH의 MPD와 같은 매니페스트에 제공될 수 있다.

    하기의 이유들로 인해, MPD로부터 이 두 변수의 값들을 결론짓기 위한 직접적인 수단이 필요해질 수 있다고 주장된다.

    먼저, 선택된 표현(Representation)(특정 계층 또는 특정 계층들에 대응)을 디코딩하기 위해 어떤 표현들(Representations)(및 그 결과로서 계층들)이 필요한지를 결론짓기 위해 @dependencyId를 사용하는 것이 가능해지게 된다. 그 이후에, 이 계층들의 리스트는 액티브 비디오 파라미터 세트(들) 내의 계층 세트를 식별하는데 사용될 수 있다. 이것이 플레이어(디코더 외측)에 있어서의 비디오 파라미터 세트 파싱을 필요로 할 수 있을 뿐만 아니라, 동일한 계층들의 세트가 하나 이상의 출력 계층 세트와 연관될 수 있기 때문에, 모든 상황에서 어떤 출력 계층 세트가 목표 출력 계층 세트로서 선택되어야 하는지를 결론짓는 것은 가능하지 않을 수도 있다.

    다음으로, MPD는 최상위 시간적 부-계층을 표현에 연관시킬 수 있는 어떠한 정보도 포함하지 않는다.

    일 실시예에 있어서, 프로파일-티어-레벨 값들의 연관 리스트에 적용되는 출력 계층 세트 및 최상위 부-계층 중 적어도 하나는 파라미터를 포함하는 MIME 타입 내에서 지시될 수 있고, MIME 타입은 DASH의 MPD와 같은 매니페스트에 제공된다. 예컨대, DASH MPD의 @mimeType 속성은 출력 계층 세트 및 최상위 부-계층 중 적어도 하나의 지시를 포함할 수 있다.

    일 실시예에 있어서, 프로파일-티어-레벨 값들의 연관 리스트에 적용되는 출력 계층 세트 및 최상위 부-계층 중 적어도 하나는 코덱 파라미터 및/또는 임의의 다른 MIME 파라미터 내에서 지시될 수 있고, 코덱 파라미터 및/또는 임의의 다른 MIME 파라미터는 DASH의 MPD와 같은 매니페스트에 제공된다. 예컨대, DASH MPD의 @codecs 속성은 출력 계층 세트 및 최상위 부-계층 중 적어도 하나의 지시를 포함할 수 있다.

    일 실시예에 있어서, 프로파일-티어-레벨 값들의 연관 리스트에 적용되는 출력 계층 세트 및 최상위 부-계층 중 적어도 하나는 DASH의 MPD와 같은 매니페스트에서 특정한 속성들 등의 내에서 지시될 수 있다.

    일 실시예에 있어서, 프로파일-티어-레벨 값들의 연관 리스트에 적용되는 출력 계층 세트 및 최상위 부-계층 중 적어도 하나는 DASH의 MPD와 같은 매니페스트에서 필수적인 디스크립터들 등의 내에서 지시될 수 있다. TargetOlsIdx 및 HighestTid는 HEVC에 대하여 특정되기 때문에, 이들은 일반 속성들 대신에 디스크립터들(DASH MPD에 대하여 정의된 대로)로 지시될 수 있다. 또한, TargetOlsIdx 및 HighestTid는 정확한 다중-계층 HEVC 디코딩을 위해 필요해질 수 있기 때문에, 이들에는 EssentialProperty 디스크립터가 제공될 수 있다.

    "urn:mpeg:dash:hevc:2015"와 동일한 @schemeIdURI를 갖는 EssentialProperty 디스크립터는, EssentialProperty 디스크립터를 포함하는 적응세트(AdaptationSet), 표현(Representation), 또는 부표현(SubRepresentation)과 연관된 목표 출력 계층 세트(들) 및 최상위 시간적 부-계층(들)을 제공할 수 있다.

    "urn:mpeg:dash:hevc:2015"와 동일한 @schemeIdURI를 갖는 EssentialProperty 디스크립터의 @value 파라미터는 다음과 같은 신택스 및 시맨틱을 가질 수 있다.

    하기에서는, 상기 신택스의 요소들 및 속성 명칭들을, 실시예에 따라 보다 상세하게 기술한다.

    OutputOp는 값 1..N을 가질 수 있고, 이 EssentialProperty 디스크립터를 포함하는 표현(Representation) 또는 부표현(SubRepresentation)을 포함하는 출력 동작 지점을 지정한다. 아래의 시맨틱의 경우, 표현(Representation) 또는 부표현(Sub-Representation)을 포함하는 것은 이 EssentialProperty 디스크립터를 포함하는 표현(Representation) 또는 부표현(SubRepresentation) 요소에 대응하는 표현(Representation) 또는 부-프레젠테이션(Sub-Presentation)을 참조한다. 이 EssentialProperty 디스크립터가 적응세트(AdaptationSet)에 포함되는 경우, 표현(Representation)을 포함하는 것은 적응세트(AdaptationSet) 내의 임의의 단일 표현(Representation)을 참조한다.

    의무사항일 수 있는 @targetOlsIdx는 출력 동작 지점과 연관된 출력 계층 세트의 인덱스를 지정한다.

    의무사항일 수 있는 @highestTid는 출력 동작 지점과 연관된 최상위 부-계층의 TemporalId 값을 지정한다.

    선택사항일 수 있는 @outputOpCodecs은 출력 동작 지점에 대한 코덱 파라미터를 지정한다. 이 속성의 콘텐츠는, 둘러싸는 DQUOTE 문자들 없이, 섹션 3.2, RFC6381의 simp-list 또는 fancy-list 제작에 적합해야 한다. 이 속성의 콘텐츠로서 사용되는 simp-list 또는 fancy-list는 하기의 단락에서 지정되는 바와 같이 제한된 하나의 리스트 요소로 구성되어야 한다.

    코덱 파라미터의 값을 시작하는 코덱 식별자는 표현(Representation) 또는 부표현(Sub-Representation)을 포함하는 것에 적용되는 것과 동일해야 한다.

    리스트 요소는 출력 동작 지점에서 각각의 필수 계층에 대한 프로파일-티어-레벨 부-문자열을 포함해야 한다.

    각각의 프로파일-티어-레벨 부-문자열은 프로파일 및 레벨 정보를 포함해야 한다.

    선택사항일 수 있는 @outputReps는 출력 동작 지점에서 계층들이 출력 계층인 표현(Representations)의 @id 값들로 이루어진 공백으로 구분된 리스트를 지정한다. 이 속성이 존재하지 않는 경우, 출력 동작 지점의 출력 계층들은 표현(Representation) 또는 부표현(Sub-Representation)을 포함하는 것에 존재하는 것들이다. 이 속성이 존재하는 경우, 출력 동작 지점의 출력 계층들은 표현(Representation) 또는 부표현(Sub-Representation)을 포함하는 것에 존재하는 것들 및 리스트 @outputReps 내의 임의의 요소와 동일한 @id를 갖는 표현(Representations)에 존재하는 것들이다.

    하기에 있어서, 예시가 제공된다:

    다른 실시예들과 함께 또는 독립적으로 적용될 수 있는 실시예에 있어서, 비-중첩 연속 세그먼트들(또는 제각기 서브세그먼트들)의 시퀀스를 적용 및/또는 디코딩하는데 필요한 특성들은 MPD(또는 임의의 다른 매니페스트)에 인코딩되거나 및/또는 MPD(또는 임의의 다른 매니페스트)로부터 파싱된다. 세그먼트들(또는 제각기 서브세그먼트들)이 유래될 수 있는 표현들은 MPD에서 지시될 수 있거나 또는 MPD로부터 파싱될 수 있다. 특성들은 하기의 것들 중 하나 이상을 포함할 수 있지만, 이들에 한정되는 것은 아니다:

    - 시퀀스가 준수하는 코덱들 또는 코딩 포맷들.

    - 시퀀스가 준수하는 프로파일-티어-레벨 값들 등의 리스트.

    - 시퀀스의 디코딩시에 목표 출력 계층 세트 인덱스(예컨대, HEVC의 TargetOlsIdx)로서 사용될 수 있는 출력 계층 세트 인덱스.

    - 시퀀스의 디코딩시에 사용될 수 있는 최상위 TemporalId(등등, 예컨대 HEVC의 HighestTid).

    - 적응형 해상도 변경 관련 정보, 예컨대, HEVC의 single_layer_for_non_irap_flag 또는 HEVC의 single_layer_for_non_irap_flag 및 higher_layer_irap_skip_flag 모두, 또는 유사한 정보.

    - 시퀀스에 포함됨 계층 식별자 값들(등등, 예컨대 HEVC의 nuh_layer_id 값들).

    - 시퀀스에 포함된 필수 계층들의 계층 식별자 값들(등등).

    - 시퀀스에 포함된 출력 계층들의 계층 식별자 값들(등등).

    - 대안적인 출력 계층들에 대한 정보, 예컨대 시퀀스에 의해 표현된 출력 계층 세트에 대한 HEVC의 alt_output_layer_flag의 값.

    - 시퀀스의 디코딩시에 활성화될 수 있는 비디오 파라미터 세트(들).

    - 시퀀스의 디코딩시에 활성화될 수 있는, 시퀀스 파라미터 세트 및/또는 픽처 파라미터 세트와 같은 기타 파라미터 세트(들).

    - 시퀀스에 포함된 계층들에 대한 스케일러빌리티 식별자 값들(등등, 예컨대, HEVC에 있어서는: 0 내지 15 범위에서 i에 대한 ScalabilityId[i]).

    - 예컨대, 하기의 내용들: 즉 어떠한 묵시적 리샘플링도 제안되지 않음, 묵시적 리샘플링이 필요해질 수 있음, 중 하나를 지시할 수 있는 묵시적 참조 픽처 리샘플링과 관련된 정보. 부가적으로 또는 대안으로서, 특성들은 표현들의 스위칭시에 리샘플링이 필요할 수도 있는 픽처들의 수에 대한 한도를 포함할 수 있다. 묵시적 참조 픽처 리샘플링과 관련된 정보는 업-스위칭 및 다운-스위칭에 대하여, 및/또는 스위칭이 중간에서 발생하는 각각의 표현들의 쌍 또는 표현들의 그룹에 대하여 별도로 정해질 수 있다.

    위에서 언급된 특성들은, 앞서 제시된 바와 같은 프로파일-티어-레벨 조합들 및 출력 동작 지점들에 대한 시그널링의 임의의 선택사항, 조합 또는 서브세트와 유사하게 또는 동일하게 지시될 수 있다. 예컨대, 위에서 언급된 특성들은 MIME 파라미터 값들 및 그 파라미터들을 포함하는 MIME 타입으로서 포함될 수 있거나, MPD 내에서 비-중첩 연속 세그먼트들(또는 제각기 서브세그먼트들)에 대하여 제공될 수 있거나, 또는 MPD로부터 비-중첩 연속 세그먼트들(또는 제각기 서브세그먼트들)의 시퀀스에 대하여 파싱될 수 있다.

    실시예에 있어서, 위에서 언급된 특성들은 MPD(또는 임의의 다른 매니페스트) 내에서 부가적인 구조(supplemental structure)로 인코딩된다. 부가적인 구조는 클라이언트 등에 의해 처리될 필요가 없을 수도 있는 그러한 구조이다. 실시예에 있어서, 위에서 언급된 특성들은 MPD(또는 임의의 다른 매니페스트)의 부가적인 구조로부터 파싱된다.

    실시예에 있어서, 위에서 언급된 특성들은, MPD(또는 임의의 다른 매니페스트)에 인코딩될 수 있거나 및/또는 MPD(또는 임의의 다른 매니페스트)로부터 파싱될 수 있는, 하기의 정보 부분들 중 하나 이상에 의해 동반된다.

    - 위에서 언급된 특성들을 비-중첩 연속 세그먼트들의 시퀀스에 적용, 위에서 언급된 특성들을 비-중첩 연속 서브세그먼트들의 시퀀스에 적용, 중 하나 이상을 가리키는 정보.

    - 위에서 언급된 특성들이 적용되는 표현들의, 식별자 값들과 같은 식별. 이들 식별된 표현은 스위칭 세트로서 인용될 수 있다.

    실시예에 있어서, 위에서 언급된 특성들이 적용되는 표현들이 추론된다. 예컨대, 적응 세트(Adaptation Set)의 하나의 표현에 대하여 특성들이 지시되는 경우, 특성들이 동일한 적응 세트(Adaptation Set)의 모든 표현들에 적용된다고 추론될 수 있다. 위에서 언급된 특성들이 적용되는 표현들은 스위칭 세트로서 인용될 수 있다.

    실시예에 있어서, 위에서 언급된 특성들은 스위칭 세트 내의 임의의 표현으로부터 유래될 수 있는 비-중첩 세그먼트들 또는 서브세그먼트들의 시퀀스에 적용된다. 다른 실시예에 있어서, 위에서 언급된 특성들은, 시퀀스에서 연속 세그먼트들 또는 서브세그먼트들이 유래될 수 있는 표현들에 대한 제한이 위치될 수 있는, 스위칭 세트 내의 표현들에 유래하는 비-중첩 세그먼트들 또는 서브세그먼트들의 시퀀스에 적용된다. 예컨대, 연속 세그먼트들 또는 서브세그먼트들이 동일한 또는 연속적인 표현들에서 유래하는 것이 필요해질 수 있으며, 여기서 표현들은 예컨대 식별자 값들 또는 비트레이트들에 기초하여 배열될 수 있다.

    실시예에 있어서, 위에서 언급된 특성들을 포함하는 부가적인 특성 디스크립터는 MPD(또는 임의의 다른 매니페스트)에 인코딩되거나 및/또는 MPD(또는 임의의 다른 매니페스트)로부터 파싱된다.

    실시예에 있어서, 위에서 언급된 특성들을 포함하는 부가적인 특성 디스크립터는 하기의 것들 중 하나 이상을 또한 포함한다:

    - 위에서 언급된 특성들을 비-중첩 연속 세그먼트들의 시퀀스에 적용, 위에서 언급된 특성들을 비-중첩 연속 서브세그먼트들의 시퀀스에 적용, 중 하나 이상을 가리키는 정보.

    - 위에서 언급된 특성들이 적용되는 표현들의, 식별자 값들과 같은 식별. 이들 식별된 표현은 스위칭 세트로서 인용될 수 있다.

    실시예에 있어서, 부가적인 특성 디스크립터는 다음과 같이 또는 유사한 방식으로 지정된다.

    "urn:mpeg:dash:hevc:segseq:2015"와 동일한 @schemeIdURI를 갖는 SupplementalProperty 디스크립터(또는 세그먼트들(Segments)에의 적용시에 전술한 실시예를 지시하기 위한 임의의 다른 선택된 URN)는 하나 이상의 식별된 표현(Representation)의 연속 세그먼트들(Segments)의 시퀀스의 특성들을 제공할 수 있다. "urn:mpeg:dash:hevc:subsegseq:2015"와 동일한 @schemeIdURI를 갖는 SupplementalProperty 디스크립터(또는 서브세그먼트들(Subsegments)에의 적용시에 전술한 실시예를 지시하기 위한 임의의 다른 선택된 URN)는 하나 이상의 식별된 표현(Representation)의 연속 서브세그먼트들(Subsegments)의 시퀀스의 특성들을 제공할 수 있다. 이들 두 디스크립터 타입은, 예컨대 다음과 같이 지정된 동일한 신택스 및 시맨틱을 구비할 수 있다:

    "urn:mpeg:dash:hevc:segseq:2015" 또는 "urn:mpeg:dash:hevc:subsegseq:2015"와 동일한 @schemeIdURI를 갖는 SupplementalProperty의 @value는 하기의 값들(아래에 열거된 순서로)의 쉼표로 구분된 리스트이다:

    - 세그먼트들(Segments) 또는 서브세그먼트들(Subsegments)이 제각기 연속 세그먼트들(Segments) 또는 서브세그먼트들(Subsegments)의 시퀀스에 포함될 수 있는 표현들(Representations)의 @id 값들의 공백으로 구분된 리스트.

    - 세그먼트들(Segments) 또는 서브세그먼트들(Subsegments)의 시퀀스에 적용되는, 프로파일-티어-레벨 조합 등을 가리키는 코덱 파라미터 및/또는 임의의 다른 MIME 미디어 파라미터들. 예컨대, 앞서 지정된 바와 같이 코덱 파라미터는 세그먼트들(Segments) 또는 서브세그먼트들(Subsegments)의 시퀀스에 적용되는 하나의 ListItem을 포함할 수 있다. 코덱 파라미터는 HEVC 계열로부터 코덱을 지시하도록 요구될 수 있다.

    - 세그먼트들(Segments)의 시퀀스 SegSeq에 대하여 또는 서브세그먼트들(Subsegments)의 시퀀스 SeqSubSeq에 대하여(아래에서 특정됨) 시행되고 있는 HEVC의 single_layer_for_non_irap 및 higher_layer_irap_skip_flag 신택스 요소의 2-자리 이진수 마스크 문자열. 허용된 이진수 마스크 값들은 '00', '10' 및 '11'이다.

    코덱 파라미터 및 2-자리 이진수 마스크 문자열 외에 또는 대신하여, 동일 또는 유사한 특성을 가리키는 다른 파라미터들이 @value 속성의 신택스에 포함될 수 있다는 점을 이해할 필요가 있다. 예컨대, @value 속성은 연속 세그먼트들(Segments) 또는 서브세그먼트들(Subsegments)에 적용되는, 그 MIME 파라미터들을 포함하는, MIME 타입을 포함할 수 있다.

    R1을, "urn:mpeg:dash:hevc:segseq:2015" 또는 "urn:mpeg:dash:hevc:subsegseq:2015"와 동일한 @schemeIdURI를 갖는 SupplementalProperty를 포함하는 표현(Representation)이라고 하고, R2, R3, ..., RN을 SupplementalProperty의 @value에서 정해진 그 @id 값들에 의해 식별된 표현(Representation)이라고 한다. 표현들(R1, R2, ..., RN)은 동일한 적응 세트(Adaptation Set)에 포함되도록 요구될 수 있으며, 동일한 수 M개의 미디어 세그먼트(Media Segments)를 갖도록 요구될 수 있다.

    "urn:mpeg:dash:hevc:segseq:2015"와 동일한 @schemeIdURI를 갖는 SupplementalProperty가 존재하는 경우, 하기의 내용이 적용될 수 있다:

    - j > 0인 경우, S i,j 를 i-차 표현(i-th Representation)(즉, Ri)에서 j차 미디어 세그먼트(jth Media Segment)라고 하고,

    - 존재하는 경우, S i,0 을 i-차 표현(i-th Representation)에서 초기화 세그먼트(Initialization Segment)라고 하고,

    - 존재하는 경우, B i 를 i-차 표현(i-th Representation)에서 비트스트림 스위칭 세그먼트(Bitstream Switching Segment)라고 한다.

    S i,j 는, i가 m과 동일하지 않고 j가 n과 동일하지 않도록, 포괄적인 1 내지 N의 범위에 있는 i 및 m, 그리고 포괄적인 1 내지 M의 범위에 있는 j 및 n의 임의의 값들에 대하여 S m,n 과 비-중첩되도록 요구될 수 있다.

    SegSeq를 하기의 세그먼트들(Segments)의 시퀀스라고 한다:

    - 존재할 경우의 초기화 세그먼트(Initialization Segment) S 1,0

    - 비트스트림 스위칭 세그먼트들(Bitstream Switching Segments)이 존재하면,

    B i (1) , S i(1),1 , B i (2) , S i(2),2 , ..., B i(k) , S i(k),k , ..., B i(M) , S i(M),M

    아니면

    S i(1),1 , S i(2),2 , ..., S i(k) , k , ..., S i(M),M ,

    여기서, 1 내지 M의 범위 내의 모든 k 값들에 대한 임의의 i(k)는, 제각기, 1 내지 N의 범위 내의 정수 값이다.

    임의의 SeqSeq는 SupplementalProperty의 @value 내에 제공된 코덱 파라미터에서 지정된 바와 같은 미디어 포맷을 갖는 "적합한 세그먼트 시퀀스(conforming Segment sequence)"로 될 수 있다.

    임의의 SegSeq는 연속적인 재생을 제공할 수 있으며 합격 품질을 가질 수 있다.

    "urn:mpeg:dash:hevc:subsegseq:2015"와 동일한 @schemeIdURI를 갖는 SupplementalProperty가 존재하는 경우, 하기의 내용이 적용될 수 있다:

    - j > 0인 경우, S i,j,k 를 i차 표현(i th Representation)(즉, Ri)에서 j차 미디어 세그먼트(j th Media Segment)의 k차 서브세그먼트(k th Subsegment)라고 하고,

    - L i,j 는 i차 표현(i th Representation)에서 j차 미디어 세그먼트(j th Media Segment)의 서브세그먼트들(Subsegments)의 수와 동일하고,

    - 존재하는 경우, S i,0 을 i-차 표현(i-th Representation)에서 초기화 세그먼트(Initialization Segment)라고 하고,

    - 존재하는 경우, B i 를 i-차 표현(i-th Representation)에서 비트스트림 스위칭 세그먼트(Bitstream Switching Segment)라고 한다.

    L i,j 는, h가 i와 동일하지 않게 포괄적인 1 내지 N의 범위 내의 h 및 i의 임의의 값들에 대하여 L h,j 와 동일해지도록 요구될 수 있다. 포괄적인 1 내지 N의 범위 내의 i의 임의의 값에 대하여 L j L i,j 와 동일하다고 한다. 포괄적인 1 내지 M의 범위 내의 j의 임의의 값에 대하여 LL j 와 동일하다고 한다.

    S i,j,k 는, i가 m과 동일하지 않고, j가 n과 동일하지 않고, 또한 k가 o와 동일하지 않게 포괄적인 1 내지 N의 범위 내의 i 및 m, 그리고 포괄적인 1 내지 M의 범위 내의 j 및 n, 그리고 포괄적인 1 내지 세그먼트(Segment) 내의 서브세그먼트들(Subsegments)의 수의 범위 내의 k 및 o의 임의이 값들에 대한 S m,n,o 와 비-중첩되도록 요구될 수 있다.

    SubSegSeq를 하기의 세그먼트들(Segments) 및 서브세그먼트들(Subsegments)의 시퀀스라고 한다:

    - 존재할 경우의 초기화 세그먼트(Initialization Segment) S 1,0

    - 비트스트림 스위칭 세그먼트들(Bitstream Switching Segments)이 존재하면,

    B i (1) , S i(1),1 ,1 , B i (2) , S i(2),1 ,2 , … , B i (L1) , S i(L1),1,L1 , B i (L1+1) , S i(L1+1),2 ,1 , B i (L1+2) , S i(L1+2),2,2 , ..., B i (a) , S i(a),j,k , ..., B i(L) , S i(L),M , LM ,

    아니면,

    S i(1),1 ,1 , S i(2),1 ,2 , … , S i(L1),1,L1 , S i(L1+1),2 ,1 , S i(L1+2),2 , 2 , ..., S i(a) , j,k , ..., S i(L),M , LM ,

    여기서, 1 내지 L의 범위 내의 모든 값들에 대한 임의의 i(a)는, 제각기, 1 내지 N의 범위 내의 정수 값이다.

    임의의 SubSeqSeq는 SupplementalProperty의 @value 내에 제공된 코덱 파라미터에서 지정된 바와 같은 미디어 포맷을 갖는 "적합한 세그먼트 시퀀스(conforming Segment sequence)"로 될 수 있다.

    임의의 SubSegSeq는 연속적인 재생을 제공할 수 있으며 합격 품질을 가질 수 있다.

    하기에 있어서, 예시가 제공된다:

    다른 실시예들과 함께 또는 독립적으로 적용될 수 있는 실시예에 있어서, RARC에 따른 비트스트림들 또는 표현들, 예컨대 도 9a 및 도 9b와 함께 기술된 것들은 하기와 같이 파일 포맷 및/또는 전송 포맷에 캡슐화된다. 저해상도 표현은, 제각기, 고해상도 표현이 포함되는 것 또는 것들과는 다른 파일 또는 세그먼트에 포함된다. 저해상도 표현의 스킵 픽처의 트랙은 고해상도 표현을 포함하는 트랙과 동일한 트랙 식별자 값(예컨대, track_id)을 갖는다. 스킵 픽처들을 포함하는 트랙의 샘플 엔트리는 계층화된 코딩, 예컨대 사용 샘플 엔트리 타입 'lhv1' 또는 'lhe1'을 지시할 수 있거나, 및/또는 HEVC의 스케일러블 메인 프로파일(Scalable Main profile)과 같은 다중-계층 프로파일의 디코딩을 요구하도록 지시될 수 있다. 저해상도 표현의 베이스 계층을 포함하는 트랙 및 고해상도 표현을 포함하는 트랙은 단일-계층 코딩, 예컨대 사용 샘플 엔트리 타입 'hvc1' 또는 'hev1'을 지시할 수 있거나, 및/또는 HEVC의 메인 프로파일(Main profile)과 같은 단일-계층 프로파일의 디코딩을 요구하도록 지시될 수 있거나, 및/또는 INBLD 능력을 요구하도록 지시될 수 있다.

    다른 실시예들과 함께 또는 독립적으로 적용될 수 있는 실시예에 있어서, 스트리밍 클라이언트 또는 플레이어는 이전의 단락에서 기술된 바와 같이 캡슐화된 RARC에 따른 표현들의 수신시에 다음과 같이 동작할 수 있다. 플레이어는 스위칭시에 저해상도 표현의 초기화 세그먼트를 계속 이용해서 고해상도 표현의 수신할 수 있다. 결국, 고해상도 표현을 포함하는 트랙에 대한 샘플 엔트리는 계층화된 코딩, 예컨대 샘플 엔트리 타입 'lhv1' 또는 'lhe1'을 지시할 수 있거나, 및/또는 다중-계층 프로파일을 지시할 수 있다. 따라서, 플레이어는 저해상도 표현 및 고해상도 표현의 수신 트랙들의 조합이 스케일러블 비디오 비트스트림을 나타내는 것으로 결론지을 수 있고, 다중-계층 프로파일의 디코딩 능력을 필요로 할 수 있다.

    다른 실시예들과 함께 또는 독립적으로 적용될 수 있는 실시예에 있어서, 중복 스킵 픽처들(redundant skip pictures)은 다음과 같이 이용될 수 있다. 이 실시예는 종속 표현으로의 스위칭을 위한 중복 적응형 해상도 변경(redundant adaptive resolution change for switching to dependent representation)(RARC-D)으로서 인용될 수 있다. 저해상도 표현은 종래에는, 예컨대 단일-계층 H.265/HEVC 비트스트림으로서 코딩될 수 있지만, 고해상도 표현은 예측된 계층으로서, 즉 적어도 일부 픽처가 저해상도 표현의 픽처(들)로부터 계층 간 예측될 수 있는 종속 표현으로서 코딩될 수 있다. 또한, 부가적인 인핸스먼트-계층 스킵 픽처들은 디코딩 순서상 연관된 CRA 픽처에 선행하는 고해상도 RASL 픽처들의 각각의 참조 픽처에 대하여 생성될 수 있다. 이는 세그먼트(Segment) 또는 서브세그먼트(Subsegment)를 시작하는 해당 CRA 픽처들에 대해서만 행해질 수 있다. 스킵 픽처들은 개념적으로 저해상도 표현의 인핸스먼트 계층(예컨대, 1과 동일한 nuh_layer_id를 가짐)에 속하고, 이들은 저해상도 표현의 세그먼트들에 캡슐화될 수 있다.

    다른 실시예들과 함께 또는 독립적으로 적용될 수 있는 실시예에 있어서, 스트리밍 클라이언트 또는 플레이어는 RARC-D에 따라 표현들의 수신시에 다음과 같이 동작할 수 있다. 플레이어는 먼저 저해상도 표현의 세그먼트(들)를 수신한다. 이후, 플레이어는 보다 높은 해상도로의 스위칭을 결정하고 저해상도 및 고해상도 표현 모두의 상응하는 세그먼트(들)를 요구한다. 스위칭 업 시에, 플레이어는 저해상도 표현만이 수신되는 최종 세그먼트의 스킵 픽처(들)를 디코딩할 수 있다. 이들 스킵 픽처(들)는 고해상도 표현의 제 1 수신 세그먼트의 초기 CRA 픽처의 RASL 픽처들의 디코딩 시에 참조로서 사용될 수 있다. 스위치 업으로의 결정은 예컨대 레이트 적응 또는 신속 개시에 기인할 수 있다.

    도 9c는 일 실시예에 따른 세그먼트들의 인코딩 및 준비를 나타낸다. 이 실시예는 묵시적 참조 픽처 리샘플링(implicit reference picture resampling (IRPR))으로서 인용될 수 있다.

    저해상도 표현(909) 및 고해상도 표현(911)은 모두 통상적인 단일-계층 H.265/HEVC 비트스트림으로서 인코딩될 수 있다. 저해상도 표현(909)은 폐쇄형 GOP를 이용해서 코딩될 수 있지만, 고해상도 표현(911)은 개방형 GOP를 이용한다.

    업-스위칭 동안 IRPR 방법의 동작이 도 9d에 나타내진다. 플레이어는 표현 1(이 예시에서는 저해상도 표현(909))로부터 표현 2(이 예시에서는 고해상도 표현(911))로의 스위칭을 결정한다. 결국, 플레이어는 표현 1이 아니라 표현 2로부터 다음 세그먼트(진행 픽처 1)을 요구 및 수신할 수 있다. 디스플레이된 픽처 레이트에서의 글리치를 회피하기 위해, 플레이어는 RASL 픽처 2 내지 8을 디코딩하고 싶어할 수 있다. 과제는, RASL 픽처들의 참조 픽처들 중 하나(또는 그 이상)가 수신되어 있지 않기 때문에, 표준 H.265/HEVC 디코더가 이들 RASL 픽처를 성공적으로 디코딩하지 못할 수도 있다는 점이다. IRPR에서, 플레이어는 RASL 픽처들의 참조 픽처(들)에 대응하는 표현 1의 픽처들을 업샘플링하고, RASL 픽처들의 예측을 위한 참조로서 업샘플링된 픽처(들)를 사용한다. 본 예시에 있어서, 표현 2의 픽처 2 내지 8은 표현 1의 업샘플링된 픽처 0(도 9d에서는 912로 레이블링됨)을 (직접 또는 간접) 참조 픽처로서 사용한다. IRPR 방법의 일부로서 수행된 업샘플링은 H.265/HEVC의 디코딩 프로세스를 변경한다.

    몇몇 다른 실시예들에 있어서, 인코더는, 예컨대 RASL 픽처들 또는 세그먼트-개시 RASL 픽처들 모두에 대하여, 선택적으로 SAO와 같은 인-루프 필터링(in-loop filtering)을 오프시킬 수 있다.

    실시예들은 세그먼트를 참조하여 기술되었다. 실시예들이 서브세그먼트를 참조하여 유사하게 기술될 수 있다는 점을 이해해야 한다.

    폐쇄형 GOP가 아닌 개방형 GOP를 이용하는 한 가지 이점은 압축 효율이 더 좋아질 수 있다는 점이고, 이는 예컨대 동일한 픽처 품질이 적은 비트레이트에 의해 달성될 수 있다는 것을 의미한다.

    도 12는 본 발명의 실시예들을 채용하기에 적합한 비디오 디코더의 블럭도를 도시한다. 도 12는 2-계층 디코더의 구조를 묘사하고 있지만, 디코딩 동작들이 단일-계층 디코더에서와 유사하게 채용될 수 있음을 인식해야 한다.

    비디오 디코더(550)는 베이스 뷰(base view) 컴포넌트에 대한 제 1 디코더 섹션(552) 및 비-베이스 뷰(non-base view) 컴포넌트에 대한 제 2 디코더 섹션(554)을 포함한다. 블럭(556)은 베이스 뷰 컴포넌트에 관한 정보를 제 1 디코더 섹션(552)에 전달하고 비-베이스 뷰 컴포넌트에 관한 정보를 제 2 디코더 섹션(554)에 전달하기 위한 디멀티플렉서(demultiplexer)를 나타낸다. 참조 P'n은 이미지 블럭의 예측된 표현을 나타낸다. 참조 D'n은 재구성된 예측 에러 신호를 나타낸다. 블럭(704, 804)은 예비적인 재구성된 이미지(I'n)를 나타낸다. 참조 R'n은 최종 재구성된 이미지를 나타낸다. 블럭(703, 803)은 역변환(T -1 )을 나타낸다. 블럭(702, 802)은 역양자화(Q -1 )를 나타낸다. 블럭(701, 801)은 엔트로피 디코딩(E -1 )을 나타낸다. 블럭(705, 805)은 참조 프레임 메모리(RFM)을 나타낸다. 블럭(706, 806)은 예측(P)(인터 예측 또는 인트라 예측 중 어느 하나)을 나타낸다. 블럭(707, 807)은 필터링(F)을 나타낸다. 블럭(708, 808)은 디코딩된 예측 에러 정보를 예측된 베이스 뷰/비-베이스 뷰 컴포넌트와 결합해서 예비적인 재구성된 이미지(I'n)를 얻는데 사용될 수 있다. 예비적인 재구성된 및 필터링된 베이스 뷰 이미지는 제 1 디코더 섹션(552)으로부터의 출력(709)일 수 있으며, 예비적인 재구성된 및 필터링된 베이스 뷰 이미지는 제 1 디코더 섹션(554)으로부터의 출력(809)일 수 있다.

    도 13은 다양한 실시예들을 구현할 수 있는 예시적인 멀티미디어 통신 시스템의 도해적 표현이다. 데이터 소스(1510)는 소스 신호를 아날로그 포맷, 압축되지 않은 디지털 포맷 또는 압축된 디지털 포맷으로, 또는 이들 포맷의 임의의 조합으로 제공한다. 인코더(1520)는 소스 신호의 필터링 및/또는 데이터 포맷 전환과 같은 전처리를 포함하거나 또는 연결될 수 있다. 인코더(1520)는 소스 신호를 코딩된 미디어 비트스트림으로 인코딩한다. 디코딩될 비트스트림은 가상으로 임의의 네트워크 타입 내에 위치된 원격 장치로부터 직접 또는 간접적으로 수신될 수 있다. 부가적으로, 비트스트림은 로컬 하드웨어 또는 소프트웨어로부터 수신될 수 있다. 인코더(1520)는 오디오 및 비디오와 같은 하나 이상의 미디어 타입을 인코딩할 수 있거나, 또는 소스 신호의 서로 다른 미디어 타입들을 코딩하기 위해 하나 이상의 인코더(1520)가 필요해질 수 있다. 인코더(1520)는 또한, 그래픽 및 텍스트와 같이 합성적으로 제작된 입력을 받을 수 있거나, 또는 합성적인 미디어의 코딩된 비트스트림을 제작할 수 있다. 하기에서는, 설명의 간략화를 위해, 하나의 미디어 타입의 하나의 코딩된 미디어 비트스트림의 처리만을 고려한다. 그러나, 통상적으로 실시간 브로드캐스트 서비스는 몇 개의 스트림(통상적으로 적어도 하나의 오디오, 비디오 및 텍스트 자막처리(sub-titling) 스트림)을 포함한다는 점에 유의해야 한다. 시스템은 다수의 인코더를 포함할 수 있지만, 도면에서는 일반성의 결여 없이 설명을 간략화하기 위해 하나의 인코더(1520)만이 나타나 있다는 점에도 유의해야 한다. 본 명세서에 포함된 텍스트 및 예시들은 인코딩 프로세스를 구체적으로 기술할 수 있지만, 당업자라면 동일한 개념 및 원리가 상응하는 디코딩 프로세스에도 적용되며 그 반대도 마찬가지로 가능하다고 이해할 것이라는 점을 더 이해해야 한다.

    코딩된 미디어 비트스트림은 스토리지(1530)에 전달될 수 있다. 스토리지(1530)는 코딩된 미디어 비트스트림을 저장하기 위해 임의의 타입의 대형 메모리를 포함할 수 있다. 스토리지(1530) 내의 코딩된 미디어 비트스트림의 포맷은 기본 자립형 비트스트림 포맷일 수 있거나, 또는 하나 이상의 코딩된 미디어 비트스트림은 컨테이너 파일에 캡슐화될 수 있다. 하나 이상의 미디어 비트스트림이 컨테이너 파일에 캡슐화되면, 파일 생성기(도면에는 도시되지 않음)는, 하나 이상의 미디어 비트스트림을 파일에 저장하고, 마찬가지로 파일에 저장될 수 있는 파일 포맷 메타데이터를 생성하는데 사용될 수 있다. 인코더(1520) 또는 스토리지(1530)가 파일 생성기를 포함할 수 있거나, 또는 파일 생성기가 인코더(1520) 또는 스토리지(1530) 중 어느 하나에 작동 가능하게 부착된다. 몇몇 시스템은 "라이브(live)" 동작하고, 즉 스토리지를 생략하고 인코더(1520)로부터 코딩된 미디어 비트스트림을 송신기(1540)에 직접적으로 전송한다. 이후, 코딩된 미디어 비트스트림은 필요에 따라 서버로서 인용될 수도 있는 송신기(1540)에 전송될 수 있다. 해당 전송에서 사용된 포맷은 기본 자립형 비트스트림 포맷, 패킷 스트림 포맷일 수 있거나, 또는 하나 이상의 코딩된 미디어 비트스트림이 컨테이너 파일에 캡슐화될 수 있다. 인코더(1520), 스토리지(1530), 및 서버(1540)는 동일한 물리적 장치에 상주할 수 있거나, 또는 별도의 장치들에 포함될 수 있다. 인코더(1520) 및 서버(1540)는 라이브 실시간 콘텐츠로 작동할 수 있고, 그 경우에 코딩된 미디어 비트스트림은 통상적으로 영구 저장되는 것이 아니라, 오히려 콘텐츠 인코더(1520) 및/또는 서버(1540)에서 약간의 기간 동안 버퍼링되어서 처리 지연, 전송 지연, 및 코딩된 미디어 비트레이트에 있어서의 변동을 해결한다.

    서버(1540)는 코딩된 미디어 비트스트림을 통신 프로토콜 스택(stack)을 이용해서 송신한다. 스택은, 실시간 전송 프로토콜(Real-Time Transport Protocol (RTP)), 사용자 데이터그램 프로토콜(User Datagram Protocol (UDP)), 하이퍼텍스트 전송 프로토콜(Hypertext Transfer Protocol (HTTP)), 전송 제어 프로토콜(Transmission Control Protocol (TCP)), 및 인터넷 프로토콜(Internet Protocol (IP))을 하나 이상 포함할 수 있지만, 이들에 한정되는 것은 아니다. 통신 프로토콜 스택이 패킷-지향 스택일 경우, 서버(1540)는 코딩된 미디어 비트스트림을 패킷에 캡슐화할 수 있다. 예컨대, RTP가 사용되는 경우, 서버(1540)는 코딩된 미디어 비트스트림을 RTP 페이로드 포맷에 따라 RTP 패킷에 캡슐화한다. 통상적으로, 각각이 미디어 타입은 전용 RTP 페이로드 포맷을 갖는다. 시스템이 하나 이상의 서버(1540)를 포함할 수 있지만, 간략화를 위해, 하기의 설명은 하나의 서버(1540)만을 고려한다는 점에 다시 한번 유의해야 한다.

    미디어 콘텐츠가 스토리지(1530)에 대하여 또는 데이터를 송신기(1540)에 입력하기 위해 컨테이너 파일에 캡슐화되면, 송신기(1540)는 "송신 파일 파서(sending file parser)"(도면에는 도시되지 않음)를 포함할 수 있거나 또는 그것에 작동 가능하게 부착될 수 있다. 특히, 컨테이너 파일이 상기와 같이 전송되는 것이 아니라 적어도 하나의 포함된 코딩된 미디어 비트스트림이 통신 프로토콜을 통한 운반을 위해 캡슐화되면, 송신 파일 파서는 통신 프로토콜을 통해 전달될 코딩된 미디어 비트스트림의 적절한 부분들을 위치결정한다. 송신 파일 파서는 또한, 패킷 헤더 및 페이로드와 같은 통신 프로토콜을 위한 정확한 포맷의 생성을 도울 수도 있다. 멀티미디어 컨테이너 파일은 통신 프로토콜 상의 적어도 하나의 포함된 미디어 비트스트림의 캡슐화를 위해 ISO 베이스 미디어 파일 포맷(ISO Base Media File Format)의 힌트 트랙과 같은 캡슐화 명령어를 포함할 수 있다.

    서버(1540)는 통신 네트워크를 통해 게이트웨이(1550)에 접속될 수 있거나, 또는 접속되지 않을 수 있다. 게이트웨이도 마찬가지로 또는 대안으로서 미들 장비(middle-box)로서 인용될 수 있다. 시스템은 일반적으로 임의의 수의 게이트웨이 등을 포함할 수 있지만, 간략화를 위해, 하기의 설명은 하나의 게이트웨이(1550)만을 고려한다는 점에 유의한다. 게이트웨이(1550)는, 패킷, 스트림 또는 리소스의 캐싱(caching), 미디어 데이터의 선행적 프리페칭(pre-fetching), 하나의 통신 프로토콜 스택에 따른 패킷 스트림을 다른 통신 프로토콜 스택에 대하여 변환(translation), 데이터 스트림들의 머징(merging) 및 포킹(forking), 그리고 지배적인 다운링크 네트워크 상황에 따라 전위의 스트림의 비트레이트를 제어하는 바와 같은 다운링크 및/또는 수신기 능력에 따른 데이터 스트림의 조작과 같이, 다양한 유형의 기능을 수행할 수 있다. 게이트웨이(1550)의 예시는, 다지점 회의 제어 유닛(MCUs), 회로-스위칭식 화상 통화와 패킷-스위칭식 화상 통화간의 게이트웨이, 셀룰러를 통한 푸시-투-토크(Push-to-talk over Cellular (PoC)) 서버, 디지털 비디오 브로드캐스팅-핸드헬드(DVB-H) 시스템에서의 IP 캡슐화기, 또는 브로드캐스트 전송을 홈 무선 네트워크에 로컬로 전달하는 셋톱 박스 또는 그 밖의 장치를 포함한다. RTP가 사용되는 경우, 게이트웨이(1550)는 RTP 믹서 또는 RTP 변환기로 불릴 수 있고, RTP 연결의 종단점으로서 기능할 수 있다. 게이트웨이(1550)를 대신하여 또는 그 외에, 시스템은 비디오 시퀀스 또는 비트스트림들을 연결하는 스플라이서를 포함할 수 있다.

    시스템은, 통상적으로 전송된 신호를 코딩된 미디어 비트스트림에 수신(receiving), 복조(de-modulating), 및 캡슐화 해제(de-capsulating)할 수 있는 하나 이상의 수신기(1560)를 포함한다. 코딩된 미디어 비트스트림은 기록용 스토리지(1570)에 전송될 수 있다. 기록용 스토리지(1570)는 코딩된 미디어 비트스트림을 저장하기 위해 임의의 타입의 대형 메모리를 포함할 수 있다. 기록용 스토리지(1570)는, 대안으로서 또는 부가적으로 랜덤 액세스 메모리와 같은 계산 메모리를 포함할 수 있다. 기록용 스토리지(1570)에서 코딩된 미디어 비트스트림의 포맷은 기본 자립형 비트스트림 포맷일 수 있거나, 또는 하나 이상의 코딩된 미디어 비트스트림이 컨테이너 파일에 캡슐화될 수 있다. 서로 연관된, 오디오 스트림 및 비디오 스트림과 같은 다수의 코딩된 미디어 비트스트림들이 있으면, 통상적으로 컨테이너 파일이 사용되고, 수신기(1560)는 입력 스트림으로부터 컨테이너 파일을 제작하는 컨테이너 파일 생성기를 포함하거나 또는 그것에 부착된다. 몇몇 시스템은 "라이브(live)" 동작하고, 즉 기록용 스토리지(1570)를 생략하고 수신기(1560)로부터 코딩된 미디어 비트스트림을 디코더(1580)에 직접적으로 전송한다. 일부 시스템에 있어서, 기록된 스트림의 가장 최근 부분, 예컨대 기록된 스트림의 가장 최근 10분의 발췌 부분만이 기록용 스토리지(1570)에 유지되는 반면, 보다 이른 임의의 기록된 데이터는 기록용 스토리지(1570)로부터 폐기된다.

    코딩된 미디어 비트스트림은 기록용 스토리지(1570)로부터 디코더(1580)에 전송될 수 있다. 서로 연관되고 컨테이너 파일에 캡슐화된 오디오 스트림 및 비디오 스트림과 같이, 다수의 코딩된 미디어 비트스트림이 있거나, 또는 단일의 미디어 비트스트림이, 예를 들면 보다 용이한 액세스를 위해 컨테이너 파일에 캡슐화되면, 컨테이너 파일로부터 각각의 코딩된 미디어 비트스트림의 캡슐화 해제를 위해 파일 파서(도면에는 도시되지 않음)가 사용된다. 기록용 스토리지(1570) 또는 디코더(1580)가 파일 파서를 포함할 수 있거나, 또는 파일 파서가 기록용 스토리지(1570) 또는 디코더(1580) 중 어느 하나에 부착된다. 시스템은 다수의 디코더를 포함할 수 있지만, 여기서는 일반성의 결여 없이 설명을 간략화하기 위해 하나의 디코더(1570)만이 논의된다는 점에도 유의해야 한다.

    코딩된 미디어 비트스트림은 디코더(1570)에 의해 추가로 처리될 수 있고, 그 출력은 하나 이상의 압축되지 않은 미디어 스트림이다. 마지막으로, 렌더러(renderer)(1590)는 압축되지 않은 미디어 스트림들을, 예컨대 확성기 또는 디스플레이로 제작할 수 있다. 수신기(1560), 기록용 스토리지(1570), 디코더(1570), 및 렌더러(1590)는 동일한 물리적 장치에 상주할 수 있거나, 또는 별도의 장치들에 포함될 수 있다.

    송신기(1540) 및/또는 게이트웨이(1550)는, 예를 들면 비트레이트 적응, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 및/또는 공간 해상도를 위해 상이한 비트스트림들(901, 902, 909, 911) 사이에서 스위칭을 수행하도록 구성될 수 있고, 송신기(1540) 및/또는 게이트웨이(1550)는 전송된 비트스트림을 선택하도록 구성될 수 있다. 상이한 비트스트림들(901, 902, 909, 911) 사이의 스위칭은 수신기(1560)의 요구 또는 비트스트림이 전달되는 네트워크의 스루풋과 같은 지배적인 상황에 대하여 응답하는 것과 같이, 여러 이유로 발생할 수 있다. 수신기로부터의 요구는, 예컨대 이전의 것과는 다른 표현 또는 비트스트림으로부터의 세그먼트(Segment) 또는 서브세그먼트(Subsegment)에 대한 요구, 전송된 스케일러빌리티 계층들 및/또는 부-계층들의 변경에 대한 요구, 또는 이전의 것에 비해 상이한 기능을 갖는 렌더링 장치의 변경에 대한 요구일 수 있다. 세그먼트(Segment)에 대한 요구는 HTTP GET 요구일 수 있다. 서브세그먼트(Subsegment)에 대한 요구는 바이트 범위를 갖는 HTTP GET 요구일 수 있다. 부가적으로 또는 대안으로서, 비트레이트 조정 또는 비트레이트 적응은 예컨대 스트리밍 서비스에서 소위 신속한 개시를 제공하는데 사용될 수 있고, 이때 전송된 스트림의 비트레이트는, 즉각적인 재생을 시작하기 위해, 그리고 간헐적인 패킷 지연 및/또는 재전송을 용인하는 버퍼 점유 레벨을 달성하기 위해, 스트리밍을 시작 또는 랜덤-액세스한 후의 채널 비트레이트보다 낮다. 비트레이트 적응은 다양한 순서로 발생하는 다수의 표현 또는 계층 업-스위칭 동작 및 표현 또는 계층 다운-스위칭 동작을 포함할 수 있다.

    디코더(1580)는, 예컨대 비트레이트 적응, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 및/또는 공간 해상도에 대하여 상이한 비트스트림들(901, 902, 909, 911) 사이에서 스위칭을 수행하도록 구성될 수 있거나, 및/또는 디코더(1580)는 전송된 비트스트림을 선택하도록 구성될 수 있다. 상이한 비트스트림들(901, 902, 909, 911) 사이의 스위칭은, 비트스트림이 전달되는 네트워크의 스루풋과 같은 지배적인 상황에 대하여, 예컨대 비트레이트의 관점에서, 보다 빠른 디코딩 동작을 달성하거나 또는 전송된 비트스트림을 조정하는 것과 같이, 여러 이유로 발생할 수 있다. 보다 빠른 디코딩 동작은, 예컨대 디코더(580)를 포함하는 장치가 멀티-태스킹 장치이고 스케일러블 비디오 비트스트림의 디코딩 이외의 목적으로 컴퓨팅 리소스를 사용하는 경우에 필요해질 수 있다. 다른 예시에 있어서, 보다 빠른 디코딩 동작은, 콘텐츠가 정상 재생 속도보다 빠른 페이스로, 예컨대 종래의 실시간 재생 속도보다 두 배 또는 세 배 빠르게 재생되는 경우에 필요해질 수 있다. 디코더 동작의 속도는, 예컨대 빨리 감기에서 정상 재생 속도로 또는 그 반대로 변경하는 것에 대한 응답으로서 디코딩 또는 재생 동안 변경될 수 있고, 그 결과 다중 계층 업-스위칭 및 계층 다운-스위칭 동작이 다양한 순서로 발생할 수 있다.

    상기에 있어서는, 몇몇 실시예가 표현 및/또는 비트스트림이라는 용어에 관하여 기술되었다. 실시예들은 유사한 용어들에 관하여, 예컨대 비트스트림 대신 표현, 표현 대신 비트스트림, 또는 비트스트림 또는 표현 대신 기본 스트림에 관하여 유사하게 기술될 수 있음을 이해할 필요가 있다.

    상기에 있어서는, 몇몇 실시예가 스킵 픽처에 관하여 기술되었다. 스킵 픽처를 사용하는 동기는 액세스 유닛에 대한 처리 요건을 제한하려는 것이다. 실시예들은 스킵 픽처의 사용을 임의의 인핸스먼트-계층 IRAP 픽처의 사용으로 대체하는 것에 의해 유사하게 실현될 수 있음을 이해할 필요가 있다. 다시 말해, RARC에 관한 실시예들에 있어서 저해상도 표현을 위한 인핸스먼트-계층 IRAP 픽처들 중 일부 또는 전부가 코딩된 예측 에러 정보를 포함할 수 있다. 즉, 인코더는 코딩된 예측 에러 정보를 포함할 수 있도록 상기와 같은 인핸스먼트-계층 IRAP 픽처들을 인코딩할 수 있고, 디코더는 마찬가지로 예측 에러 정보가 디코딩되도록 상기와 같은 인핸스먼트-계층 IRAP 픽처를 디코딩할 수 있다.

    상기에 있어서, 일부 실시예는, 표현들의 공간 해상도가 상이하고, 그에 따라 실시예들에서는 공간 해상도의 관점에서 리샘플링이 사용됨을 나타내는, 저해상도 표현 또는 비트스트림 및 고해상도 표현 또는 비트스트림에 관하여 기술되었다. 상이한 공간 해상도에 더하여 또는 그것을 대신하여, 표현들이 다른 유형의 관계 또는 관계들을 가질 수 있고 다른 유형의 리샘플링 프로세스 또는 프로세스들을 필요로 할 수 있음을 이해할 필요가 있다. 예컨대, 표현들의 비트 깊이 및/또는 컬러 영역은 상이할 수 있고, SHVC 컬러 영역 스케일러빌리티에서 사용된 것과 유사한 리샘플링이 실시예들에서 사용될 수 있다. 실시예들은 한 가지 유형의 리샘플링에 한정되는 것이 아니라, 예컨대 공간, 비트-깊이, 및 컬러 영역의 관점에서의 리샘플링이 함께 적용될 수 있다. 예컨대, RARC의 실시예들에 있어서는, 스킵 픽처가, 예컨대 SHVC 계층 간 처리를 이용해서 공간 해상도, 비트 깊이 및 컬러 영역의 관점에서 리샘플링될 수 있다.

    상기에 있어서, 몇몇 실시예는 저해상도 표현이 폐쇄형 GOP를 이용해서 코딩되는 것에 관하여 기술되었다. 저해상도 표현에서 폐쇄형 GOP를 이용하는 동기는 표준화된 디코딩 프로세스에 대한 일체의 변경 없이 표현 다운-스위칭을 풀 픽처 레이트(full picture rate)로 동작시키려는 것이다. 그러나, 실시예들은 저해상도 표현이 개방형 GOP를 이용해서 코딩되는 경우에도 유사하게 실현될 수 있음을 이해할 필요가 있다.

    상기에 있어서, 몇몇 실시예는 고해상도 표현으로 스위칭하기 위해 저해상도 표현의 픽처를 업샘플링하는 것에 관하여 기술되었다. 실시예들은 스위칭된 저해상도 표현의 디코딩을 위한 참조 픽처로서 기능하도록 고해상도 표현의 픽처를 다운샘플링(downsampling)하는 것이 유사하게 실현될 수 있음을 이해할 필요가 있다. 예컨대, CRA 픽처들(또는 일반적으로 SAP Type 3의 픽처들)은 저해상도 표현에서 사용될 수 있고, 그에 따라 스위칭된 저해상도 표현의 초기 CRA 픽처와 연관된 RASL 픽처들의 디코딩은 디코딩 순서상 CRA 픽처에 선행하는 참조 픽처들을 필요로 할 수 있다. 이들 참조 픽처는 고해상도 표현의 각각의 픽처를 리샘플링함으로써 생성될 수 있다. 또한, 실시예들은, 표현들 또는 계층들의 순서가, 보다 높은 표현 또는 계층이 참초 픽처로서 기능하도록 보다 낮은 표현 또는 계층의 픽처의 다운샘플링을 필요로 할 수 있게 하는 순서일 경우에 유사하게 실현될 수 있음을 이해할 필요가 있다. 경우에 따라, 참조 픽처를 생성하기 위한 리샘플링은 하나 이상의 스케일러빌리 규모 또는 타입을 따르는 동작들을 필요로 할 수 있다. 예컨대, 보다 높은 표현 또는 계층일수록 보다 낮은 표현 또는 계층보다는 큰 공간 해상도를 가질 수 있지만, 비트 깊이는 더 낮을 수 있고, 그에 따라 보다 높은 표현 또는 계층에 대하여 보다 낮은 표현 또는 계층의 픽처를 참조 픽처로서 사용하는 것은, 공간 해상도에 관해서는 업샘플링을 필요로 할 수 있지만, 비트 깊이에 관해서는 다운샘플링 또는 다운-스케일링을 필요로 할 수 있다

    상기에 있어서, 몇몇 실시예는 저해상도 표현 또는 비트스트림 및 고해상도 표현 또는 비트스트림과 같이, 2개의 표현 또는 비트스트림 또는 계층에 관하여 기술되었다. 실시예들은 2개의 표현 또는 비트스트림 또는 계층에 한정되는 것이 아니라, 더 많은 수의 표현 또는 비트스트림 또는 계층에도 동등하게 적용됨을 이해할 필요가 있다.

    상기에 있어서, 몇몇 실시예는 표현 스위치 지점의 단일 픽처를 리샘플링하는 것에 관하여 기술되었다. 실시예들은 표현 스위치 지점당 하나의 픽처만이 리샘플링되는 것에 한정되는 것이 아니라, 일반적으로 임의의 수의 픽처가 리샘플링되는 것에도 적용됨을 이해할 필요가 있다. 예컨대, RARC에 있어서는, 스위치 지점에 대하여 하나 이상의 스킵 픽처가 존재할 수 있다. 리샘플링된 픽처의 수는, 스위칭 대상 표현의 스위치 지점 IRAP 픽처의 RASL 픽처를 디코딩하는데 필요해지며 디코딩 순서상 해당 스위치 지점 IRAP 픽처에 선행하는 참초 픽처들의 수에 의해 결정될 수 있다.

    상기에 있어서, 몇몇 실시예는 세그먼트(Segment)에 관하여 기술되었다. 실시예들은 서브세그먼트(Subsegment)에 관해서도 유사하게 실현될 수 있음을 이해할 필요가 있다.

    상기에 있어서, 몇몇 실시예는 HTTP 및/또는 HTTP GET 요구에 관하여 기술되었다. 실시예들은 HTTP를 사용하는 것에 한정되는 것이 아니라, 웹소켓(WebSocket)과 같은 다른 프로토콜을 대신 또는 추가로 사용할 수 있음을 이해할 필요가 있다. 또한, 본 발명은, 예컨대 3GPP 멀티미디어 브로드캐스트/멀티캐스트 서비스(3GPP Multimedia Broadcast/Multicast Service (MBMS))에 따른 브로드캐스트 서비스와 같은 브로트캐스트를 통해 클라이언트가 데이터를 수신하는 경우, HTTP GET와 같은 요구가 클라이언트에 의해 전혀 이루어지지 않는 경우에도 적용될 수 있음을 이해할 필요가 있다.

    상기에 있어서, 몇몇 실시예는 지시, 신택스 요소, 및/또는 신택스 구조를 비트스트림에 또는 코딩된 비디오 시퀀스에 인코딩하는 것 및/또는 지시, 신택스 요소, 및/또는 신택스 구조를 비트스트림으로부터 또는 코딩된 비디오 시퀀스로부터 디코딩하는 것에 관하여 기술되었다. 그러나, 실시예들은, 코딩된 슬라이스와 같이, 비디오 코딩 계층 데이터를 포함하는 코딩된 비디오 시퀀스 또는 비트스트림으로부터 벗어나는 신택스 구조 또는 데이터 유닛에 지시, 신택스 요소, 및/또는 신택스 구조를 인코딩할 경우, 및/또는 코딩된 슬라이스와 같이, 비디오 코딩 계층 데이터를 포함하는 코딩된 비디오 시퀀스 또는 비트스트림으로부터 벗어나는 신택스 구조 또는 데이터 유닛으로부터 지시, 신택스 요소, 및/또는 신택스 구조를 디코딩할 경우에도 실현될 수 있음을 이해할 필요가 있다.

    상기에 있어서, 예시적인 실시예들이 인코더를 참조하여 기술된 경우에, 결과로서의 비트스트림 및 디코더는 해당 실시예에서 상응하는 요소들을 가질 수 있음을 이해할 필요가 있다. 유사하게, 예시적인 실시예들이 디코더를 참조하여 기술된 경우에, 인코더는 디코더에 의해 디코딩될 비트스트림을 생성하기 위한 구조 및/또는 컴퓨터 프로그램을 가질 수 있음을 이해할 필요가 있다.

    상기에 기술된 본 발명의 실시예들은 수반되는 프로세스들에 대한 이해를 돕기 위해 별도의 인코더 및 디코더 장치의 관점에서 코덱을 기술한다. 그러나, 장치, 구조 및 동작은 단일의 인코더-디코더 장치/구조/동작으로서 구현될 수 있음을 인식할 것이다. 또한, 코더 및 디코더가 공통 요소들 중 일부 또는 전부를 공유할 수 있는 것이 가능하다.

    상기 예시들이 전자 장치 내의 코덱 내에서 동작하는 본 발명의 실시예들을 기술하고 있지만, 청구항들에 규정된 바와 같이 본 발명이 임의의 비디오 코덱의 일부로서 구현될 수 있음을 인식할 것이다. 따라서, 예를 들면, 본 발명의 실시예들은 고정 또는 유선 통신 경로를 통해 비디오 코딩을 구현할 수 있는 비디오 코덱으로 구현될 수 있다.

    따라서, 사용자 장비는 상기의 본 발명의 실시예들에서 기술된 것들과 같은 비디오 코덱을 포함할 수 있다. 사용자 장비라는 용어는 휴대폰, 휴대용 데이터 처리 장치 또는 휴대용 웹 브라우저와 같은 임의의 적절한 유형의 무선 사용자 장비를 포괄하도록 의도된다는 점을 인식할 것이다.

    또한, 공중 육상 모바일 네트워크(public land mobile network (PLMN))의 요소들도 상술한 바와 같은 비디오 코덱을 포함할 수 있다.

    일반적으로, 본 발명의 다양한 실시예들은 하드웨어 또는 특수 목적 회로, 소프트웨어, 로직 또는 그 임의의 조합으로 구현될 수 있다. 예컨대, 몇몇 양태는 하드웨어로 구현될 수 있면, 그 밖의 양태는 컨트롤러, 마이크로프로세서 또는 그 밖의 컴퓨팅 장치에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있지만, 본 발명이 이들에 한정되는 것은 아니다. 본 발명의 다양한 양태는 블럭도, 흐름도, 또는 몇몇 다른 도식적인 표현을 이용해서 예시 및 기술될 수 있지만, 본 명세서에 기술된 이들 블럭, 장치, 시스템, 기술 또는 방법은, 비제한적인 예시들로서, 하드웨어, 소프트웨어, 펌웨어, 특수 목적 회로 또는 로직, 범용 하드웨어 또는 컨트롤러 또는 그 밖의 컴퓨팅 장치로, 또는 그 몇몇 조합으로 구현될 수 있음이 잘 이해된다.

    본 발명의 실시예들은 모바일 장치의 데이터 프로세서에 의해, 예를 들면 프로세서 엔티티에서, 또는 하드웨어에 의해, 또는 소프트웨어와 하드웨어의 조합에 의해 실행 가능한 컴퓨터 소프트웨어에 의해 구현될 수 있다. 또한, 이와 관련하여, 도면들에서와 같은 로직 흐름의 임의의 블럭들은 프로그램 스텝들, 또는 상관된 로직 회로들, 블럭들 및 기능들, 또는 프로그램 스텝들과 로직 회로들, 블럭들 및 기능들과의 조합을 나타낼 수 있다. 소프트웨어는 메모리 칩, 또는 프로세서 내에 구현된 메모리 블럭과 같은 물리적 매체, 하드 디스크 또는 플로피 디스크와 같은 자기 매체, 및 예컨대 DVD 및 그 데이터 변형, CD와 같은 광학 매체에 저장될 수 있다.

    메모리는 로컬 기술 환경에 적합한 임의의 타입으로 이루어질 수 있고, 반도체 기반 메모리 장치, 자기 메모리 장치 및 시스템, 광학 메모리 장치 및 시스템, 고정식 메모리 및 착탈식 메모리와 같은 임의의 적절한 데이터 스토리지 기술을 이용해서 구현될 수 있다. 데이터 프로세서는 로컬 기술 환경에 적합한 임의의 타입으로 이루어질 수 있고, 범용 컴퓨터, 특수 목적 컴퓨터, 마이크로프로세서, 디지털 신호 프로세서(DSP) 및 멀티코어 프로세서 아키텍처에 기초한 프로세서를 비제한적인 예시로서 하나 이상 포함할 수 있다.

    본 발명의 실시예들은 집적 회로 모듈과 같은 다양한 컴포넌트들에서 실행될 수 있다. 집적 회로의 디자인은 대체로 상당히 자동화된 프로세스이다. 복잡하고 강력한 소프트웨어 툴은 로직 레벨 디자인을 반도체 기판 상에 에칭되어 형성될 준비가 되어 있는 반도체 회로 디자인으로의 전환을 위해 이용 가능하다.

    캘리포니아 마운틴 뷰 소재의 Synopsys, Inc. 및 캘리포니아 산 호세 소재의 Cadence Design에 의해 제공된 바와 같은 프로그램들은 잘 확립된 디자인 규칙 뿐만 아니라 사전 저장된 디자인 모듈의 라이브러리를 이용해서 컨덕터들을 자동으로 경로설정하고 컴포넌트들을 반도체 칩 상에 위치결정한다. 반도체 회로에 대한 디자인이 완성되면, 표준화된 전자 포맷(예컨대, Opus, GDSII 등)의 최종 디자인이 반도체 제조 설비 또는 제조용 "공장(fab)"에 전송될 수 있다.

    전술한 설명은 예시적이고 비제한적인 예시들을 들어서 본 발명의 예시적인 실시예의 완전하고 유익한 설명을 제공했다. 그러나, 첨부 도면 및 첨부된 청구항들과 함께 숙지할 경우, 당업자에게는 전술한 설명에 관하여 다양한 수정 및 변경이 자명해질 것이다. 그러나, 본 발명의 기술에 관한 상기와 같은 및 유사한 모든 수정은 여전히 본 발명의 범위 내일 것이다.

    제 1 실시예에 따른 방법은,

    제 1 코딩된 비디오 표현의 제 1 부분을 디코딩하는 단계;

    제 2 코딩된 비디오 표현의 디코딩에 대한 정보를 수신 및 파싱하는 단계를 포함하고,

    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하고;

    상기 정보가, 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측을 위한 참조로서 이용해서 디코딩될 수 있다고 지시하면,

    상기 방법은:

    상기 제 1 부분의 하나 이상의 디코딩된 픽처를 하나 이상의 처리된 디코딩된 픽처로 처리하는 단계― 상기 처리는 리샘플링 및 샘플 값 스케일링 중 하나 또는 둘 모두를 포함함 ―; 및

    상기 하나 이상의 처리된 디코딩된 픽처를 예측에 이용될 수 있는 참조 픽처로서 이용해서 제 2 비디오 표현의 제 2 부분을 디코딩하는 단계를 추가로 포함한다.

    실시예에 따르면, 상기 방법은,

    상기 정보를 포함하는 미디어 프레젠테이션 설명을 수신하는 단계를 추가로 포함한다.

    실시예에 따르면, 상기 방법은,

    상기 미디어 프레젠테이션 설명에 기초하여, 상기 제 1 코딩된 표현의 제 1 부분을 식별하는 제 1 식별자 및 상기 제 2 코딩된 표현의 제 2 부분을 식별하는 제 2 식별자를 결정하는 단계;

    상기 제 1 식별자를 이용해서 상기 제 1 부분을 요구하는 단계;

    상기 제 1 부분을 수신하는 단계;

    상기 제 2 식별자를 이용해서 상기 제 2 부분을 요구하는 단계; 및

    상기 제 2 부분을 수신하는 단계를 추가로 포함한다.

    실시예에 따르면, 상기 제 1 식별자 및 상기 제 2 식별자는 URI(uniform resource identifier)이다.

    실시예에 따르면, 상기 제 1 코딩된 표현의 상기 공간 해상도는 참조 영역에 대하여 결정되며, 상기 제 2 코딩된 표현의 상기 공간 해상도는 예측된 영역에 대하여 결정되고,

    상기 방법은:

    상기 참조 영역에 대한 정보를 수신하거나, 또는 상기 참조 영역에 대한 정보가 부재되는 단계;

    상기 제 1 코딩된 비디오 표현의 픽처들의 전체 영역을 커버하도록 상기 참조 영역을 결정하는 단계;

    상기 예측된 영역에 대한 정보를 수신하거나, 또는 상기 예측된 영역에 대한 정보가 부재되는 단계; 및

    상기 제 2 코딩된 비디오 표현의 픽처들의 전체 영역을 커버하도록 상기 예측된 영역을 결정하는 단계를 추가로 포함한다.

    실시예에 따르면, 상기 하나 이상의 처리된 디코딩된 픽처는 상기 제 2 코딩된 비디오 표현의 픽처들과 동일한 색차 포맷 및 비트 깊이를 갖는다.

    실시예에 따르면, 상기 하나 이상의 처리된 디코딩된 픽처는 상기 제 2 코딩된 비디오 표현의 픽처들과 동일한 공간 해상도를 갖는다.

    실시예에 따르면, 상기 방법은,

    상기 제 2 코딩된 비디오 표현이 비-베이스 계층에 속하고 독립적으로 디코딩 가능하다는 정보를 수신 및 파싱하는 단계를 추가로 포함한다.

    실시예에 따르면, 상기 방법은,

    스케일러블 비디오 코딩 프로파일에 적합한 비트스트림으로부터의 상기 제 1 코딩된 표현의 제 1 부분 및 상기 제 2 코딩된 표현의 제 2 부분이, 액세스 유닛들이 픽처를 2개까지 포함하는 것으로 제한하고, 또한 액세스 유닛이 2개의 픽처를 포함할 경우, 상위 계층에 속하는 픽처가 동일한 계층 내의 이전의 픽처들을 예측을 위한 참조로서 이용하는 것이 아니라 동일한 액세스 유닛 내의 하위 계층에서 픽처를 예측을 위한 참조로서 이용할 수 있는 인트라 랜덤 액세스 지점 픽처라고 제한하는 정보를 수신 및 파싱하는 단계를 추가로 포함한다.

    제 2 실시예에 따른 장치는:

    적어도 하나의 프로세서 및 적어도 하나의 메모리를 포함하고,

    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 적어도 하나의 메모리에 저장된 코드가, 장치로 하여금 적어도:

    제 1 코딩된 비디오 표현의 제 1 부분을 디코딩하는 것;

    제 2 코딩된 비디오 표현의 디코딩에 대한 정보를 수신 및 파싱하는 것을 수행하게 하고,

    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하고;

    상기 정보가, 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측을 위한 참조로서 이용해서 디코딩될 수 있다고 지시하면,

    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금 적어도:

    상기 제 1 부분의 하나 이상의 디코딩된 픽처를 하나 이상의 처리된 디코딩된 픽처로 처리하는 것― 상기 처리는 리샘플링 및 샘플 값 스케일링 중 하나 또는 둘 모두를 포함함 ―; 및

    상기 하나 이상의 처리된 디코딩된 픽처를 예측에 이용될 수 있는 참조 픽처로서 이용해서 제 2 비디오 표현의 제 2 부분을 디코딩하는 것을 추가로 수행하게 한다.

    실시예에 따르면, 상기 장치는:

    상기 정보를 포함하는 미디어 프레젠테이션 설명을 수신하는 것을 추가로 수행하게 된다.

    실시예에 따르면, 상기 장치는:

    상기 미디어 프레젠테이션 설명에 기초하여, 상기 제 1 코딩된 표현의 제 1 부분을 식별하는 제 1 식별자 및 상기 제 2 코딩된 표현의 제 2 부분을 식별하는 제 2 식별자를 결정하는 것;

    상기 제 1 식별자를 이용해서 상기 제 1 부분을 요구하는 것;

    상기 제 1 부분을 수신하는 것;

    상기 제 2 식별자를 이용해서 상기 제 2 부분을 요구하는 것; 및

    상기 제 2 부분을 수신하는 것을 추가로 수행하게 된다.

    실시예에 따르면, 상기 제 1 식별자 및 상기 제 2 식별자는 URI(uniform resource identifier)이다.

    실시예에 따르면, 상기 제 1 코딩된 표현의 상기 공간 해상도는 참조 영역에 대하여 결정되며, 상기 제 2 코딩된 표현의 상기 공간 해상도는 예측된 영역에 대하여 결정되고,

    상기 장치는:

    상기 참조 영역에 대한 정보를 수신하거나, 또는 상기 참조 영역에 대한 정보가 부재되는 것;

    상기 제 1 코딩된 비디오 표현의 픽처들의 전체 영역을 커버하도록 상기 참조 영역을 결정하는 것;

    상기 예측된 영역에 대한 정보를 수신하거나, 또는 상기 예측된 영역에 대한 정보가 부재되는 것; 및

    상기 제 2 코딩된 비디오 표현의 픽처들의 전체 영역을 커버하도록 상기 예측된 영역을 결정하는 것을 추가로 수행하게 된다.

    실시예에 따르면, 상기 하나 이상의 처리된 디코딩된 픽처는 상기 제 2 코딩된 비디오 표현의 픽처들과 동일한 색차 포맷 및 비트 깊이를 갖는다.

    실시예에 따르면, 상기 하나 이상의 처리된 디코딩된 픽처는 상기 제 2 코딩된 비디오 표현의 픽처들과 동일한 공간 해상도를 갖는다.

    실시예에 따르면, 상기 장치는:

    상기 제 2 코딩된 비디오 표현이 비-베이스 계층에 속하고 독립적으로 디코딩 가능하다는 정보를 수신 및 파싱하는 것을 추가로 수행하게 된다.

    실시예에 따르면, 상기 장치는:

    스케일러블 비디오 코딩 프로파일에 적합한 비트스트림으로부터의 상기 제 1 코딩된 표현의 제 1 부분 및 상기 제 2 코딩된 표현의 제 2 부분이, 액세스 유닛들이 픽처를 2개까지 포함하는 것으로 제한하고, 또한 액세스 유닛이 2개의 픽처를 포함할 경우, 상위 계층에 속하는 픽처가 동일한 계층 내의 이전의 픽처들을 예측을 위한 참조로서 이용하는 것이 아니라 동일한 액세스 유닛 내의 하위 계층에서 픽처를 예측을 위한 참조로서 이용할 수 있는 인트라 랜덤 액세스 지점 픽처라고 제한하는 정보를 수신 및 파싱하는 것을 추가로 수행하게 된다.

    제 3 실시예에 따르면, 장치에 의한 사용을 위해 코드가 저장된 컴퓨터 판독가능 스토리지 매체가 제공되고,

    프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금:

    제 1 코딩된 비디오 표현의 제 1 부분을 디코딩하는 것;

    제 2 코딩된 비디오 표현의 디코딩에 대한 정보를 수신 및 파싱하는 것을 수행하게 하고,

    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하고;

    상기 정보가, 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측을 위한 참조로서 이용해서 디코딩될 수 있다고 지시하면,

    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금 적어도:

    상기 제 1 부분의 하나 이상의 디코딩된 픽처를 하나 이상의 처리된 디코딩된 픽처로 처리하는 것― 상기 처리는 리샘플링 및 샘플 값 스케일링 중 하나 또는 둘 모두를 포함함 ―; 및

    상기 하나 이상의 처리된 디코딩된 픽처를 예측에 이용될 수 있는 참조 픽처로서 이용해서 제 2 비디오 표현의 제 2 부분을 디코딩하는 것을 추가로 수행하게 한다.

    제 4 실시예에 따르면, 이미지 시퀀스를 포함하는 비트스트림을 디코딩하도록 구성된 비디오 디코더를 포함하는 장치가 제공되고,

    상기 비디오 디코더는:

    제 1 코딩된 비디오 표현의 제 1 부분을 디코딩하는 수단;

    제 2 코딩된 비디오 표현의 디코딩에 대한 정보를 수신 및 파싱하는 수단을 포함하고,

    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하고;

    상기 장치는:

    상기 정보가, 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측을 위한 참조로서 이용해서 디코딩될 수 있다고 지시하면, 상기 제 1 부분의 하나 이상의 디코딩된 픽처를 하나 이상의 처리된 디코딩된 픽처로 처리하는 수단― 상기 처리는 리샘플링 및 샘플 값 스케일링 중 하나 또는 둘 모두를 포함함 ―; 및

    상기 하나 이상의 처리된 디코딩된 픽처를 예측에 이용될 수 있는 참조 픽처로서 이용해서 제 2 비디오 표현의 제 2 부분을 디코딩하는 수단을 추가로 포함한다.

    제 5 실시예에 따르면, 이미지 시퀀스를 포함하는 비트스트림을 디코딩하도록 구성된 비디오 디코더가 제공되고,

    상기 비디오 디코더는:

    제 1 코딩된 비디오 표현의 제 1 부분을 디코딩하고;

    제 2 코딩된 비디오 표현의 디코딩에 대한 정보를 수신 및 파싱하도록 추가로 구성되고,

    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시하고;

    상기 정보가, 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측을 위한 참조로서 이용해서 디코딩될 수 있다고 지시하면,

    상기 방법은:

    상기 제 1 부분의 하나 이상의 디코딩된 픽처를 하나 이상의 처리된 디코딩된 픽처로 처리하는 것― 상기 처리는 리샘플링 및 샘플 값 스케일링 중 하나 또는 둘 모두를 포함함 ―; 및

    상기 하나 이상의 처리된 디코딩된 픽처를 예측에 이용될 수 있는 참조 픽처로서 이용해서 제 2 비디오 표현의 제 2 부분을 디코딩하는 것을 추가로 포함한다.

    제 6 실시예에 따른 방법은:

    미디어 프레젠테이션 설명으로부터, 적어도 2개의 표현에 대한 메타데이터를 파싱하는 단계;

    상기 미디어 프레젠테이션 설명으로부터, 상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을 파싱하는 단계를 포함한다.

    실시예에 따르면, 상기 하나 이상의 특성은:

    - 상기 시퀀스가 준수하는 코덱들 또는 코딩 포맷들;

    - 상기 시퀀스가 준수하는 적합성 지점;

    - 상기 시퀀스의 디코딩시에 목표 출력 계층 세트 인덱스로서 사용될 수 있는 출력 계층 세트 인덱스;

    - 상기 시퀀스의 디코딩시에 사용될 수 있는 최상위 시간적 부-계층 식별자;

    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 인트라 랜덤 액세스 지점 픽처임;

    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 예측 에러가 코딩되지 않은 인트라 랜덤 액세스 지점 픽처임;

    - 상기 시퀀스에 포함된 계층 식별자 값들;

    - 상기 시퀀스에 포함된 필수 계층들의 계층 식별자 값들;

    - 상기 시퀀스에 포함된 출력 계층들의 계층 식별자 값들;

    - 상기 시퀀스에 의해 표현된 대안적인 출력 계층들에 대한 정보;

    - 상기 시퀀스의 디코딩시에 활성화될 수 있는 비디오 파라미터 세트(들);

    - 상기 시퀀스의 디코딩시에 활성화될 수 있는, 시퀀스 파라미터 세트들 및/또는 픽처 파라미터 세트들과 같은 기타 파라미터 세트(들);

    - 상기 시퀀스에 포함된 계층들에 대한 스케일러빌리티 식별자 값들;

    - 상기 시퀀스의 디코딩을 위해 요구 또는 제안된 묵시적 참조 픽처 리샘플링과 관련된 정보

    의 임의의 서브세트를 포함한다.

    실시예에 따르면, 상기 방법은,

    부가적인 구조로부터 상기 하나 이상의 특성을 파싱하는 단계를 추가로 포함한다.

    실시예에 따르면, 상기 방법은,

    상기 하나 이상의 특성과 연관되는 하기의 정보의 하나 또는 두 부분을 파싱하는 단계를 추가로 포함한다.

    - 상기 하나 이상의 특성이 비-중첩 연속 세그먼트들의 시퀀스, 비-중첩 연속 서브세그먼트들의 시퀀스, 또는 둘 모두에 적용되는지를 지시하는 정보.

    - 표현들의 세트 중에서 상기 적어도 2개의 표현의 식별.

    실시예에 따른 방법은:

    적어도 2개의 표현 중 제 1 비디오 표현의 제 1 부분을 디코딩하는 단계;

    상기 적어도 2개의 표현 중 제 2 비디오 표현을 디코딩하는 단계를 추가로 포함하고,

    상기 디코딩된 제 2 표현은 상기 제 1 디코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 하나 이상의 특성은 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 하나 이상의 처리된 디코딩된 픽처들을 예측을 위한 하나 이상의 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시한다.

    실시예에 따른 방법으로서, 상기 방법은:

    인핸스먼트 계층 내의 적어도 하나의 인트라 랜덤 액세스 지점 픽처를 상기 제 1 비디오 표현으로부터 디코딩하는 단계를 추가로 포함한다.

    실시예에 따른 방법으로서, 상기 방법은:

    컨테이너 포맷의 제 1 트랙 식별자를 상기 인핸스먼트 계층 내의 상기 적어도 하나의 인트라 랜덤 액세스 지점 픽처와 연계시키는 단계;

    상기 컨테이너 포맷의 제 1 트랙 식별자를 상기 제 2 비디오 표현과 연계시키는 단계를 추가로 포함한다.

    제 7 실시예에 따른 장치는:

    적어도 하나의 프로세서 및 적어도 하나의 메모리를 포함하고,

    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 적어도 하나의 메모리에 저장된 코드가, 장치로 하여금 적어도:

    미디어 프레젠테이션 설명으로부터, 적어도 2개의 표현에 대한 메타데이터를 파싱하는 것;

    상기 미디어 프레젠테이션 설명으로부터, 상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을 파싱하는 것을 수행하게 한다.

    상기 장치의 실시예에 따르면, 상기 하나 이상의 특성은:

    - 상기 시퀀스가 준수하는 코덱들 또는 코딩 포맷들;

    - 상기 시퀀스가 준수하는 적합성 지점;

    - 상기 시퀀스의 디코딩시에 목표 출력 계층 세트 인덱스로서 사용될 수 있는 출력 계층 세트 인덱스;

    - 상기 시퀀스의 디코딩시에 사용될 수 있는 최상위 시간적 부-계층 식별자;

    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 인트라 랜덤 액세스 지점 픽처임;

    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 예측 에러가 코딩되지 않은 인트라 랜덤 액세스 지점 픽처임;

    - 상기 시퀀스에 포함된 계층 식별자 값들;

    - 상기 시퀀스에 포함된 필수 계층들의 계층 식별자 값들;

    - 상기 시퀀스에 포함된 출력 계층들의 계층 식별자 값들;

    - 상기 시퀀스에 의해 표현된 대안적인 출력 계층들에 대한 정보;

    - 상기 시퀀스의 디코딩시에 활성화될 수 있는 비디오 파라미터 세트(들);

    - 상기 시퀀스의 디코딩시에 활성화될 수 있는, 시퀀스 파라미터 세트들 및/또는 픽처 파라미터 세트들과 같은 기타 파라미터 세트(들);

    - 상기 시퀀스에 포함된 계층들에 대한 스케일러빌리티 식별자 값들;

    - 상기 시퀀스의 디코딩을 위해 요구 또는 제안된 묵시적 참조 픽처 리샘플링과 관련된 정보

    의 임의의 서브세트를 포함한다.

    실시예에 따르면, 상기 장치는:

    부가적인 구조로부터 상기 하나 이상의 특성을 파싱하는 것을 추가로 수행하게 된다.

    실시예에 따르면, 상기 장치는:

    상기 하나 이상의 특성과 연관되는 하기의 정보의 하나 또는 두 부분을 파싱하는 것을 추가로 수행하게 된다.

    - 상기 하나 이상의 특성이 비-중첩 연속 세그먼트들의 시퀀스, 비-중첩 연속 서브세그먼트들의 시퀀스, 또는 둘 모두에 적용되는지를 지시하는 정보.

    - 표현들의 세트 중에서 상기 적어도 2개의 표현의 식별.

    실시예에 따르면, 상기 장치는:

    적어도 2개의 표현 중 제 1 비디오 표현의 제 1 부분을 디코딩하는 것;

    상기 적어도 2개의 표현 중 제 2 비디오 표현을 디코딩하는 것을 추가로 수행하게 되고,

    상기 디코딩된 제 2 표현은 상기 제 1 디코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 하나 이상의 특성은 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 하나 이상의 처리된 디코딩된 픽처들을 예측을 위한 하나 이상의 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시한다.

    실시예에 따르면, 장기 장치는:

    인핸스먼트 계층 내의 적어도 하나의 인트라 랜덤 액세스 지점 픽처를 상기 제 1 비디오 표현으로부터 디코딩하는 것을 추가로 수행하게 된다.

    실시예에 따르면, 상기 장치는:

    컨테이너 포맷의 제 1 트랙 식별자를 상기 인핸스먼트 계층 내의 상기 적어도 하나의 인트라 랜덤 액세스 지점 픽처와 연계시키는 것;

    상기 컨테이너 포맷의 제 1 트랙 식별자를 상기 제 2 비디오 표현과 연계시키는 것을 추가로 수행하게 된다.

    제 8 실시예에 따르면, 장치에 의한 사용을 위해 코드가 저장된 컴퓨터 판독가능 스토리지 매체가 제공되고,

    프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금:

    미디어 프레젠테이션 설명으로부터, 적어도 2개의 표현에 대한 메타데이터를 파싱하는 것;

    상기 미디어 프레젠테이션 설명으로부터, 상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을 파싱하는 것을 수행하게 한다.

    제 9 실시예에 따르면, 이미지 시퀀스를 포함하는 비트스트림을 디코딩하도록 구성된 비디오 디코더를 포함하는 장치가 제공되고,

    상기 비디오 디코더는,

    미디어 프레젠테이션 설명으로부터, 적어도 2개의 표현에 대한 메타데이터를 파싱하는 수단;

    상기 미디어 프레젠테이션 설명으로부터, 상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을 파싱하는 수단을 포함한다.

    제 10 실시예에 따르면, 이미지 시퀀스를 포함하는 비트스트림을 디코딩하도록 구성된 비디오 디코더가 제공되고,

    상기 비디오 디코더는:

    미디어 프레젠테이션 설명으로부터, 적어도 2개의 표현에 대한 메타데이터를 파싱하고;

    상기 미디어 프레젠테이션 설명으로부터, 상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을 파싱하도록 추가로 구성된다.

    제 11 실시예에 따른 방법은:

    적어도 2개의 표현에 대한 메타데이터를, 미디어 프레젠테이션 설명에 제공하는 단계;

    상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을, 상기 미디어 프레젠테이션 설명에 제공하는 단계를 포함한다.

    실시예에 따르면, 상기 하나 이상의 특성은:

    - 상기 시퀀스가 준수하는 코덱들 또는 코딩 포맷들;

    - 상기 시퀀스가 준수하는 적합성 지점;

    - 상기 시퀀스의 디코딩시에 목표 출력 계층 세트 인덱스로서 사용될 수 있는 출력 계층 세트 인덱스;

    - 상기 시퀀스의 디코딩시에 사용될 수 있는 최상위 시간적 부-계층 식별자;

    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 인트라 랜덤 액세스 지점 픽처임;

    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 예측 에러가 코딩되지 않은 인트라 랜덤 액세스 지점 픽처임;

    - 상기 시퀀스에 포함된 계층 식별자 값들;

    - 상기 시퀀스에 포함된 필수 계층들의 계층 식별자 값들;

    - 상기 시퀀스에 포함된 출력 계층들의 계층 식별자 값들;

    - 상기 시퀀스에 의해 표현된 대안적인 출력 계층들에 대한 정보;

    - 상기 시퀀스의 디코딩시에 활성화될 수 있는 비디오 파라미터 세트(들);

    - 상기 시퀀스의 디코딩시에 활성화될 수 있는, 시퀀스 파라미터 세트들 및/또는 픽처 파라미터 세트들과 같은 기타 파라미터 세트(들);

    - 상기 시퀀스에 포함된 계층들에 대한 스케일러빌리티 식별자 값들;

    - 상기 시퀀스의 디코딩을 위해 요구 또는 제안된 묵시적 참조 픽처 리샘플링과 관련된 정보

    의 임의의 서브세트를 포함한다.

    실시예에 따르면, 상기 방법은:

    상기 미디어 프레젠테이션 설명의 파싱시에 파싱될 필요가 없는 부가적인 구조에 상기 하나 이상의 특성을 제공하는 단계를 추가로 포함한다.

    실시예에 따르면, 상기 방법은:

    상기 하나 이상의 특성과 연관되는 하기의 정보의 하나 또는 두 부분을 제공하는 단계를 추가로 포함한다.

    - 상기 하나 이상의 특성이 비-중첩 연속 세그먼트들의 시퀀스, 비-중첩 연속 서브세그먼트들의 시퀀스, 또는 둘 모두에 적용되는지를 지시하는 정보.

    - 표현들의 세트 중에서 상기 적어도 2개의 표현의 식별.

    실시예에 따른 방법은:

    적어도 2개의 표현 중 제 1 비디오 표현의 제 1 부분을 인코딩하는 단계;

    상기 적어도 2개의 표현 중 제 2 비디오 표현을 인코딩하는 단계를 추가로 포함하고,

    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시한다.

    실시예에 따른 방법으로서, 상기 방법은:

    인핸스먼트 계층 내의 적어도 하나의 인트라 랜덤 액세스 지점 픽처를 상기 제 1 비디오 표현으로 인코딩하는 단계를 추가로 포함한다.

    실시예에 따른 방법으로서, 상기 방법은:

    컨테이너 포맷의 제 1 트랙 식별자를 상기 인핸스먼트 계층 내의 상기 적어도 하나의 인트라 랜덤 액세스 지점 픽처와 연계시키는 단계;

    상기 컨테이너 포맷의 제 1 트랙 식별자를 상기 제 2 비디오 표현과 연계시키는 단계를 추가로 포함한다.

    실시예에 따르면,

    인핸스먼트 계층 내의 상기 적어도 하나의 인트라 랜덤 액세스 지점 픽처는 스킵 픽처이다.

    제 12 실시예에 따른 장치는:

    적어도 하나의 프로세서 및 적어도 하나의 메모리를 포함하고,

    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 적어도 하나의 메모리에 저장된 코드가, 장치로 하여금 적어도:

    적어도 2개의 표현에 대한 메타데이터를, 미디어 프레젠테이션 설명에 제공하는 것;

    상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을, 상기 미디어 프레젠테이션 설명에 제공하는 것을 수행하게 한다.

    실시예에 따르면, 상기 하나 이상의 특성은:

    - 상기 시퀀스가 준수하는 코덱들 또는 코딩 포맷들;

    - 상기 시퀀스가 준수하는 적합성 지점;

    - 상기 시퀀스의 디코딩시에 목표 출력 계층 세트 인덱스로서 사용될 수 있는 출력 계층 세트 인덱스;

    - 상기 시퀀스의 디코딩시에 사용될 수 있는 최상위 시간적 부-계층 식별자;

    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 인트라 랜덤 액세스 지점 픽처임;

    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 예측 에러가 코딩되지 않은 인트라 랜덤 액세스 지점 픽처임;

    - 상기 시퀀스에 포함된 계층 식별자 값들;

    - 상기 시퀀스에 포함된 필수 계층들의 계층 식별자 값들;

    - 상기 시퀀스에 포함된 출력 계층들의 계층 식별자 값들;

    - 상기 시퀀스에 의해 표현된 대안적인 출력 계층들에 대한 정보;

    - 상기 시퀀스의 디코딩시에 활성화될 수 있는 비디오 파라미터 세트(들);

    - 상기 시퀀스의 디코딩시에 활성화될 수 있는, 시퀀스 파라미터 세트들 및/또는 픽처 파라미터 세트들과 같은 기타 파라미터 세트(들);

    - 상기 시퀀스에 포함된 계층들에 대한 스케일러빌리티 식별자 값들;

    - 상기 시퀀스의 디코딩을 위해 요구 또는 제안된 묵시적 참조 픽처 리샘플링과 관련된 정보

    의 임의의 서브세트를 포함한다.

    실시예에 따르면, 상기 장치는:

    상기 미디어 프레젠테이션 설명의 파싱시에 파싱될 필요가 없는 부가적인 구조에 상기 하나 이상의 특성을 제공하는 것을 추가로 수행하게 된다.

    실시예에 따르면, 상기 장치는:

    상기 하나 이상의 특성과 연관되는 하기의 정보의 하나 또는 두 부분을 제공하는 것을 추가로 수행하게 된다.

    - 상기 하나 이상의 특성이 비-중첩 연속 세그먼트들의 시퀀스, 비-중첩 연속 서브세그먼트들의 시퀀스, 또는 둘 모두에 적용되는지를 지시하는 정보.

    - 표현들의 세트 중에서 상기 적어도 2개의 표현의 식별.

    실시예에 따르면, 상기 장치는:

    적어도 2개의 표현 중 제 1 비디오 표현의 제 1 부분을 인코딩하는 것;

    상기 적어도 2개의 표현 중 제 2 비디오 표현을 인코딩하는 것을 추가로 수행하게 되고;

    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시한다.

    실시예에 따르면, 상기 장치는:

    인핸스먼트 계층 내의 적어도 하나의 인트라 랜덤 액세스 지점 픽처를 상기 제 1 비디오 표현으로 인코딩하는 것을 추가로 수행하게 된다.

    실시예에 따르면, 상기 장치는:

    컨테이너 포맷의 제 1 트랙 식별자를 상기 인핸스먼트 계층 내의 상기 적어도 하나의 인트라 랜덤 액세스 지점 픽처와 연계시키는 것;

    상기 컨테이너 포맷의 제 1 트랙 식별자를 상기 제 2 비디오 표현과 연계시키는 것을 추가로 수행하게 된다.

    실시예에 따르면, 인핸스먼트 계층 내의 상기 적어도 하나의 인트라 랜덤 액세스 지점 픽처는 스킵 픽처이다.

    제 13 실시예에 따르면, 장치에 의한 사용을 위해 코드가 저장된 컴퓨터 판독가능 스토리지 매체가 제공되고,

    프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금:

    적어도 2개의 표현에 대한 메타데이터를, 미디어 프레젠테이션 설명에 제공하는 것;

    상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을, 상기 미디어 프레젠테이션 설명에 제공하는 것을 수행하게 한다.

    실시예에 따르면, 상기 하나 이상의 특성은:

    - 상기 시퀀스가 준수하는 코덱들 또는 코딩 포맷들;

    - 상기 시퀀스가 준수하는 적합성 지점;

    - 상기 시퀀스의 디코딩시에 목표 출력 계층 세트 인덱스로서 사용될 수 있는 출력 계층 세트 인덱스;

    - 상기 시퀀스의 디코딩시에 사용될 수 있는 최상위 시간적 부-계층 식별자;

    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 인트라 랜덤 액세스 지점 픽처임;

    - 상기 시퀀스의 액세스 유닛들이 1개의 계층 또는 2개의 계층을 포함하는지에 관한 지시, 이때 상기 2개의 계층 중 상위 계층의 픽처는 예측 에러가 코딩되지 않은 인트라 랜덤 액세스 지점 픽처임;

    - 상기 시퀀스에 포함된 계층 식별자 값들;

    - 상기 시퀀스에 포함된 필수 계층들의 계층 식별자 값들;

    - 상기 시퀀스에 포함된 출력 계층들의 계층 식별자 값들;

    - 상기 시퀀스에 의해 표현된 대안적인 출력 계층들에 대한 정보;

    - 상기 시퀀스의 디코딩시에 활성화될 수 있는 비디오 파라미터 세트(들);

    - 상기 시퀀스의 디코딩시에 활성화될 수 있는, 시퀀스 파라미터 세트들 및/또는 픽처 파라미터 세트들과 같은 기타 파라미터 세트(들);

    - 상기 시퀀스에 포함된 계층들에 대한 스케일러빌리티 식별자 값들;

    - 상기 시퀀스의 디코딩을 위해 요구 또는 제안된 묵시적 참조 픽처 리샘플링과 관련된 정보

    의 임의의 서브세트를 포함한다.

    실시예에 따르면, 상기 장치는:

    상기 미디어 프레젠테이션 설명의 파싱시에 파싱될 필요가 없는 부가적인 구조에 상기 하나 이상의 특성을 제공하는 것을 추가로 수행하게 된다.

    실시예에 따르면, 상기 장치는:

    상기 하나 이상의 특성과 연관되는 하기의 정보의 하나 또는 두 부분을 제공하는 것을 추가로 수행하게 된다.

    - 상기 하나 이상의 특성이 비-중첩 연속 세그먼트들의 시퀀스, 비-중첩 연속 서브세그먼트들의 시퀀스, 또는 둘 모두에 적용되는지를 지시하는 정보.

    - 표현들의 세트 중에서 상기 적어도 2개의 표현의 식별.

    실시예에 따르면, 상기 장치는:

    적어도 2개의 표현 중 제 1 비디오 표현의 제 1 부분을 인코딩하는 것;

    상기 적어도 2개의 표현 중 제 2 비디오 표현을 인코딩하는 것을 추가로 수행하게 되고;

    상기 코딩된 제 2 표현은 상기 제 1 코딩된 비디오 표현과는, 색차 포맷, 샘플 비트 깊이, 컬러 영역, 공간 해상도 중 하나 이상에 있어서 상이하고, 상기 정보는 상기 제 2 코딩된 비디오 표현이 상기 제 1 코딩된 비디오 표현의 처리된 디코딩된 픽처들을 예측에 이용될 수 있는 참조 픽처로서 이용해서 디코딩될 수 있는지를 지시한다.

    실시예에 따르면, 상기 장치는:

    인핸스먼트 계층 내의 적어도 하나의 인트라 랜덤 액세스 지점 픽처를 상기 제 1 비디오 표현으로 인코딩하는 것을 추가로 수행하게 된다.

    실시예에 따르면, 상기 장치는:

    컨테이너 포맷의 제 1 트랙 식별자를 상기 인핸스먼트 계층 내의 상기 적어도 하나의 인트라 랜덤 액세스 지점 픽처와 연계시키는 것;

    상기 컨테이너 포맷의 제 1 트랙 식별자를 상기 제 2 비디오 표현과 연계시키는 것을 추가로 수행하게 된다.

    실시예에 따르면, 인핸스먼트 계층 내의 상기 적어도 하나의 인트라 랜덤 액세스 지점 픽처는 스킵 픽처이다.

    제 14 실시예에 따르면, 이미지 시퀀스를 포함하는 비트스트림을 인코딩하도록 구성된 비디오 인코더를 포함하는 장치가 제공되고,

    상기 비디오 인코더는,

    적어도 2개의 표현에 대한 메타데이터를, 미디어 프레젠테이션 설명에 제공하는 수단;

    상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을, 상기 미디어 프레젠테이션 설명에 제공하는 수단을 포함한다.

    제 15 실시예에 따르면, 이미지 시퀀스를 포함하는 비트스트림을 인코딩하도록 구성된 비디오 인코더가 제공되고,

    상기 비디오 인코더는,

    적어도 2개의 표현에 대한 메타데이터를, 미디어 프레젠테이션 설명에 제공하고;

    상기 적어도 2개의 표현의 비-중첩 연속 세그먼트들 또는 서브세그먼트들의 시퀀스를 디코딩하기 위해 하나 이상의 특성을, 상기 미디어 프레젠테이션 설명에 제공하도록 추가로 구성된다.

    제 16 실시예에 따른 방법은,

    제 1 표현으로서 픽처 데이터 유닛(picture data units)을 포함하는 비트스트림을 수신하는 단계;

    제 1 스위칭 지점에서 상기 제 1 표현의 전송을 중단하도록 결정하는 단계;

    상기 제 1 표현에 대한 픽처 데이터 유닛을 상기 제 1 스위칭 지점까지 전송하는 단계를 포함하고,

    상기 픽처 데이터 유닛은 상기 제 1 스위칭 지점 이후에 제 2 비디오 표현의 제 2 부분의 디코딩시에 예측을 위한 참조로서 이용하기에 적합한 적어도 하나의 데이터 유닛을 포함한다.

    제 17 실시예에 따르면, 적어도 하나의 프로세서 및 적어도 하나의 메모리를 포함하는 장치가 제공되고,

    상기 적어도 하나의 프로세서에 의한 실행시에, 상기 적어도 하나의 메모리에 저장된 코드가, 장치로 하여금 적어도:

    제 1 표현으로서 픽처 데이터 유닛을 포함하는 비트스트림을 수신하는 것;

    제 1 스위칭 지점에서 상기 제 1 표현의 전송을 중단하도록 결정하는 것;

    상기 제 1 표현에 대한 픽처 데이터 유닛을 상기 제 1 스위칭 지점까지 전송하는 것을 수행하게 하고,

    상기 픽처 데이터 유닛은 상기 제 1 스위칭 지점 이후에 제 2 비디오 표현의 제 2 부분의 디코딩시에 예측을 위한 참조로서 이용하기에 적합한 적어도 하나의 데이터 유닛을 포함한다.

    제 18 실시예에 따르면, 장치에 의한 사용을 위해 코드가 저장된 컴퓨터 판독가능 스토리지 매체가 제공되고,

    프로세서에 의한 실행시에, 상기 코드가 상기 장치로 하여금:

    제 1 표현으로서 픽처 데이터 유닛을 포함하는 비트스트림을 수신하는 것;

    제 1 스위칭 지점에서 상기 제 1 표현의 전송을 중단하도록 결정하는 것;

    상기 제 1 표현에 대한 픽처 데이터 유닛을 상기 제 1 스위칭 지점까지 전송하는 것을 수행하게 하고,

    상기 픽처 데이터 유닛은 상기 제 1 스위칭 지점 이후에 제 2 비디오 표현의 제 2 부분의 디코딩시에 예측을 위한 참조로서 이용하기에 적합한 적어도 하나의 데이터 유닛을 포함한다.

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈