首页 / 专利库 / 视听技术与设备 / 视频编码层 / 미세한 그레뉼라 스케일러빌리티 비디오 코딩에서확장층에 대한 개선된 예측 구조들

미세한 그레뉼라 스케일러빌리티 비디오 코딩에서확장층에 대한 개선된 예측 구조들

阅读:211发布:2022-01-10

专利汇可以提供미세한 그레뉼라 스케일러빌리티 비디오 코딩에서확장층에 대한 개선된 예측 구조들专利检索,专利查询,专利分析的服务。并且본 발명은 비디오 데이터의 유연하고 효율적인 코딩을 위한 기술에 관한 것이다. 이 기술은 기저층 프레임들로 불리는 비디오 데이터의 부분의 코딩과 비디오 데이터 및 예측 신호로부터 발생되는 리지듀얼 이미지(residual image)들의 코딩을 포함한다. 각각의 프레임들에 대한 예측은 다중 디코드된 기저층을 이용하여 발생되고 모션 보상(motion compesation)을 이용할 수 있다. 리지듀얼 이미지들은 확장층 프레임들로 불리고 그 후 코딩된다. 이 기술에 기초하여, 기저층 프레임들의 광범위한 로컬리티(wider locality)가 이용되기 때문에, 보다 나은 예측이 얻어질 수 있다. 확장층 프레임들에서 리지듀얼 데이터가 작기 때문에, 그것들은 효율적으로 코드될 수 있다. 확장층 프레임들을 코딩하는 동안, 미세한 그레뉼라 스케일러빌리티 기술들(fine granular scalability techiques)(DCT 변환 코딩 또는 웨이블렛 코딩과 같음)이 이용된다. 이 디코딩 프로세스는 인코딩 프로세스를 역으로 행한다. 그러므로, 비디오의 유연하고, 그러나 효율적인 코딩 및 디코딩은 수행된다.,下面是미세한 그레뉼라 스케일러빌리티 비디오 코딩에서확장층에 대한 개선된 예측 구조들专利的具体信息内容。

  • 비디오 데이터를 코딩하는 방법에 있어서,
    기저층 프레임들이 발생하도록 상기 비디오 데이터의 부분을 코딩하는 단계와;
    각각의 상기 리지듀얼 이미지(residual image)들에 대한 다중 기저층 프레임들을 이용하여 상기 비디오 데이터 및 상기 기저층 프레임들로부터 리지듀얼 이미지들을 발생하는 단계와;
    확장층 프레임들을 생성하도록 미세한 그레뉼라 스캐일러블 기술(fine granular scalability techique)로 상기 리지듀얼 이미지들을 코딩하는 단계를 포함하는, 비디오 데이터를 코딩하는 방법.
  • 제 1항에 있어서,
    상기 다중 기저층 프레임들은 시간적으로 위치된 기저층 및 적어도 하나의 근접하는 기저층 프레임을 포함하는, 비디오 데이터를 코딩하는 방법.
  • 제 1항에 있어서,
    각각의 리지듀얼 이미지들은 상기 비디오 데이터로부터 예측 신호를 감산함으로써 발생되고, 상기 예측 신호는 상기 다중 기저층 프레임들에 의해 형성되는, 비디오 데이터를 코딩하는 방법.
  • 제 3항에 있어서,
    상기 예측 신호들은
    각각의 상기 기저층 프레임들에서 모션 추정을 수행하는 단계와;
    각각의 상기 기저층을 가중하는 단계와;
    상기 다중 기저층 프레임들을 더하는 단계에 따라 발생되는, 비디오 데이터를 코딩하는 방법.
  • 기저층과 확장층을 포함하는 비디오 신호를 디코딩하기 위한 방법에 있어서,
    기저층 비디오 프레임들을 생성하도록 상기 기저층을 디코딩하는 단계와;
    확장층 비디오 프레임들을 생성하도록 미세한 그레뉼라 스캐일러빌러티 기술에서 상기 확장층을 디코딩하는 단계와;
    입력 비디오를 생성하도록 각각의 상기 확장층 비디오 프레임들과 상기 다중 기저층 비디오 프레임들을 결합하는 단계를 포함하는, 디코딩 방법.
  • 제 5항에 있어서,
    상기 다중 기저층 비디오 프레임들은 시간적으로 위치된 기저층 비디오 프레임 및 적어도 하나의 근접하는 기저층 비디오 프레임을 포함하는, 디코딩 방법.
  • 제 5항에 있어서,
    상기 결합 과정은 각각의 상기 확장층 비디오 프레임들을 예측 신호에 더함으로써 수행되고, 상기 예측 신호는 상기 다중 기저층 비디오 프레임들에 의해 형성되는, 디코딩 방법.
  • 제 7항에 있어서,
    상기 예측 신호는
    각각의 상기 기저층 비디오 프레임들 상에서 모션 보상을 수행하는 단계와;
    각각의 상기 기저층 프레임들을 가중하는 단계와;
    상기 다중 기저층 비디오 프레임들을 더하는 단계에 따라 생성되는, 디코딩 방법.
  • 비디오 데이터를 코딩하기 위한 장치에 있어서,
    기저층 프레임들을 생성하도록 비디오 데이터의 부분을 코딩하기 위한 제 1 인코더와;
    각각의 상기 리지듀얼 이미지들에 대한 다중 기저층 프레임들을 이용하는 상기 비디오 데이터 및 상기 기저층 프레임들로부터 리지듀얼 이미지들을 발생하기 위한 확장 예측 및 리지듀얼 계산 블록과;
    확장층 프레임들을 생성하도록 미세한 그레뉼라 스캐일러빌리티 기술로 상기 레지듀얼 이미지들을 코딩하기 위한 제 2 인코더를 포함하는, 디코딩 방법.
  • 기저층 및 확장층을 포함하는 비디오 신호를 디코딩하기 위한 장치에 있어서,
    기저층 비디오 프레임들을 생성하도록 상기 기저층을 디코딩하기 위한 제 1 디코더와;
    확장층 비디오를 생성하도록 미세한 그레뉼라 스케일러빌리티 기술로 상기 확장층을 디코딩하기 위한 제 2 디코더와;
    출력 비디오를 생성하도록 각각의 상기 확장층 비디오 프레임들과 다중 기저층 비디오 프레임들을 결합하기 위한 확장 예측 및 리지듀얼 결합 블록을 포함하는, 디코딩 장치.
  • 비디오 데이터를 인코딩하기 위해 코드를 포함하는 기억 매체에 있어서,
    상기 코드는
    기저층 프레임들을 생성하도록 상기 비디오 데이터의 부분을 디코드하는 코드와;
    각각의 상기 리지듀얼 이미지들에 대한 다중 기저층 프레임들을 이용하여 상기 비디오 데이터 및 상기 기저층 프레임들로부터 리지듀얼 이미지들을 발생하는 코드와;
    확장층 프레임들을 생성하도록 미세한 그레뉼라 스케일러빌리티 기술로 상기 리지듀얼 이미지들을 인코드하는 코드를 포함하는, 기억 매체.
  • 기저층 및 확장층을 포함하는 비디오 신호를 디코딩하기 위한 코드를 포함하는 기억 매체에 있어서,
    상기 코드는
    기저층 비디오 프레임들을 생성하도록 상기 기저층을 디코드하는 코드와;
    확장층 비디오 프레임들을 생성하도록 미세한 그레뉼라 스케일러빌리티 기술로 상기 확장층을 디코드하는 코드와;
    출력 비디오를 생성하도록 각각의 상기 확장층 비디오 프레임들과 다중 기저층 비디오 프레임들을 결합하는 코드를 포함하는, 기억 매체.
  • 说明书全文

    미세한 그레뉼라 스케일러빌리티 비디오 코딩에서 확장층에 대한 개선된 예측 구조들{Improved prediction structures for enhancement layer in fine granular scalability video coding}

    스케일러블 비디오 코딩은 많은 멀티미디어 응용들 및 서비스들에 대한 바람직한 특징이다. 예를 들어, 비디오 스케일러빌리티는 프로세싱 전력의 넓은 범위를 갖는 디코더들을 이용하는 시스템들에서 이용된다. 이 경우에서, 낮은 계산 파워를 가진 프로세서들은 스케일러블 비디오 스트림의 서브셋만을 디코드한다.

    스케일러블 데이터의 또다른 이용은 가변 전송 대역폭(variable transmission bandwidth)을 가진 환경에 있다. 이 경우에, 낮은 액세스 대역폭을가진 수신기들은, 스케일러블 비디오 스트림의 서브셋을 수신하고 결과적으로 그것만을 디코드하며, 스케일러블 비디오 스트림의 이 서브셋의 양은 이용가능한 대역폭에 비례한다.

    몇 개의 비디오 스케일러빌리티 접근들은 MPEG-2 및 MPEG-4와 같은 비디오 압축 표준들(video compression standard)에 의해 적용되었다. 시간, 공간 및 품질(SNR) 스케일러빌리티 형태들은 이들 표준들에서 정의되었다. 이들 접근들 모두는 기저층(Base Layer;BL) 및 확장층(Enhancement Layer;EL)으로 구성된다. 스케일러블 비디오 스트림의 BL 부분은 일반적으로, 비디오 스트림을 디코딩하기 위해 요구되는 데이터의 최소량을 표현한다. 이 스트림의 EL 부분은, 수신기에 의해 디코드될 때, 비디오 신호 표현을 확장하는데 사용되는 부가적인 정보를 표현한다.

    정지 영상들(still images)을 코딩하기 위해 이용되는 스케일러빌리티의 또다른 부류(class)는 미세한 그레뉼라 스케일러빌리티(fine-granular scalability;FGS)이다. 이 형태의 스케일러빌리티를 가지고 코드된 이미지들은 점차 디코드된다. 다시 말하면, 디코더는 이미지를 코딩하기 위해 사용되는 데이터를 전부 수신하기 전에 이미지를 디코딩 및 디스플레이하는 것을 시작한다. 보다 많은 데이터가 수신됨에 따라, 디코드된 데이터의 품질은 이미지를 코딩하기 위해 이용되는 모든 데이터가 수신, 디코드 및 디스플레이될 때까지, 점차 향상된다.

    비디오를 위한 미세한 그레뉼라 스케일러빌리티는 MPEG-4 내의 사용에서 활성 표준이고, 이는 차세대 멀티미디어 국제표준이다. 이 형태의 스케일러빌리티 구조에서, 코딩에 기초된 모션 추정은 다른 공통적인 비디오 스케일러빌리티 방법들에서 보통 행해지는 것처럼 BL에서도 이용된다. 각각의 코드된 BL 프레임에 대해, 그 후 리지듀얼 이미지(residual image)는 확장층 프레임을 생성하도록 미세한 그레뉼라 스케일러빌리티 방법을 이용하여 계산 및 코드된다. 이 구조는, BL내에서 예측을 이용하고 확장층 프레임들 중에서 종속물들(dependencies)을 제거하고, 그러므로 미세한 그레뉼라 스케일러빌리티를 만들어 결과적으로 어떤 코딩 효과를 제공한다.

    FGS 구조의 예는 도 1에 도시된다. 도시될 수 있는 것처럼, 또한 이 구조는 BL 및 EL로 구성된다. 게다가, 각각의 확장 프레임들은 시간적으로 공존하는 원래 기저층 프레임으로부터 생성된다. 이것은 각각의 기저층으로부터 대응하는 확장층 프레임까지 상향 지시하는 단일 화살표에 의해 나타나게 된다.

    FGS을 기본으로하는 인코딩 시스템의 예는 도 2에 도시된다. 이 시스템은 (

    )의 범위에서 가변 이용가능한 대역폭을 가진 네트워크(6)를 구비한다. 또한, 계산 블록(4)은 현재 이용가능한 대역폭(R)을 추정 또는 측정하기 위해 구비된다.

    게다가, 기저층(BL) 비디오 인코더(8)는 범위(

    )에서 비트율( )을 이용하여 비디오 소스(2)로부터 신호를 압축한다. 전형적으로, 기저층 인코더(8)는 최저 비트율( )을 이용하여 신호를 압축한다. 이것은 특히 BL 인코딩이 비디오 신호를 전송하는 시간 전에 오프-라인으로 발생할 때의 경우이다. 도시될 수 있는 것처럼, 유닛(10)은 또한 리지듀얼 이미지들(12)을 계산하기 위해 구비된다.

    확장층(EL) 인코더(14)는 비트율

    에서 리지듀얼 신호(12)를 압축하고, 상기 비트율 은 에서 까지의 범위일 수 있다. 비디오 신호(둘 다의 확장 및 기저층들)의 인코딩은 실시간(도면에 의해 부여된 것처럼) 또는 전송시간 전에 오프-라인 둘 중 하나에서 발생할 수 있는 것을 유의하는 것이 중요하다. 후자의 경우에, 비디오는 도시된 것처럼, 실시간 레이트 제어기(16)를 이용하여 저장될 수 있고, 그 후 나중 시간에 전송(또는 스트림)될 수 있다. 실시간 제어기(16)는 현재(실시간) 이용가능한 대역폭 R을 고려하여 최상의 품질 확장층 신호를 선택한다. 그러므로, 레이트 제어기(16)로부터의 EL 신호의 출력 비트율은 과 같다.

    (발명의 요약)

    본 발명은 입력 비디오 데이터의 코딩에 대한 유연하고 그러나 효율적인 기술에 관한 것이다. 이 발명은 기저층 프레임들 및 확장층 프레임들로 불리는 비디오 데이터의 부분을 코딩하는 것을 포함한다. 기저층 프레임들은 MPEG-4 또는 MPEG-2와 같은 모션 보상 DCT 코딩 기술들 중 어느 하나에 의해 코드된다.

    리지듀얼 이미지들은 입력 비디오 데이터로부터 예측 신호를 감산함으로써 발생된다. 본 발명에 따라서, 예측은 모션 보상을 가지고 또는 모션 보상없이 다중디코드된 기저층 프레임들로부터 형성되고, 이 모드 선택 결정은 코드된 스트림에 포함된다. 이 형태의 예측의 효율성 때문에, 리지듀얼 이미지 데이터는 비교적 작다. 그 후 확장층 프레임들로 불리는 리지듀얼 이미지들은 미세한 그레뉼라 스케일러빌리티(DCT 변환 코딩 또는 웨이블렛 코딩과 같음)를 이용하여 코딩된다. 따라서, 비디오의 유연하지만, 그러나 효율적인 코딩은 성취된다.

    본 발명은 또한 디코드된 프레임들이 발생하도록, 비디오 데이터의 위에 언급된 코딩을 역으로 행하는 방법에 관한 것이다. 코드된 데이터는 두 개의 부분들인, 기저층 및 확장층으로 구성된다. 이 방법은 디코드된 기저층 비디오 프레임들이 생성하도록 코딩 방법(인코더에서 선택된 MPEG-2 또는 MPEG-4)에 의존하여 디코드되는 기저층을 포함한다. 또한, 확장층은 확장층 프레임들이 생성하도록 미세한 그레뉼라 스케일러빌리티(인코더에서 선택된 DCT 변환 코딩 또는 웨이블렛 코딩과 같음)에 의존하여 디코드된다. 코드된 스트림에 모드 결정 정보에 따라서, 다중 디코드된 기저층 비디오 프레임들 중으로부터 선택된 프레임들은 예측 신호가 발생하도록 모션 보상(motion compensation)을 가지고 또는 모션 보상 없이 이용된다. 그 후 예측은 디코드된 출력 비디오를 생성하도록 각각의 디코드된 기저층 비디오 프레임들에 더해진다.

    도면들을 참고하면 동일한 참조번호들은 도처에 대응하는 부분들을 표현한다.

    본 발명은 일반적으로 비디오 압축에 관한 것이고, 특히 각각의 확장층 프레임(enhancement layer frame)들을 생성하도록 다중 기저층 프레임들(multiple base layer frames)을 이용하는 스케일러빌리티 구조(scalability structure)에 관한 것이다.

    도 1은 하나의 스케일러빌리티 구조의 다이어그램.

    도 2는 하나의 인코딩 시스템의 블록 다이어그램.

    도 3은 본 발명에 따른 스케일러빌리티 구조의 하나의 예의 다이어그램.

    도 4는 본 발명에 따른 스케일러빌리티 구조의 또다른 예의 다이어그램.

    도 5는 본 발명에 따른 스케일러빌리티 구조의 또다른 예의 다이어그램.

    도 6은 본 발명에 따른 인코더의 하나의 예의 블록 다이어그램.

    도 7은 본 발명에 따른 디코더의 하나의 예의 블록 다이어그램.

    도 8은 본 발명에 따른 시스템의 하나의 예의 블록 다이어그램.

    압축하기 쉬운 확장층 프레임들을 발생하기 위해서, 코드 및 전송될 것이 요구되는 정보량을 감소하는 것이 바람직하다. 현재 FGS 확장 기술에서, 이것은 기저층에서 예측 신호들을 포함함으로써 성취된다. 이들 예측 신호들은 기저층 압축량에 의존하고, 원화상(original picture)으로부터 변화하는 정보량을 포함한다. 기저층 신호에 의해 전달되지 않고 남은 정보는 그 후 확장층 인코더에 의해 인코드된다.

    하나의 특정 원화상에 관련하는 정보는, 근접하는 화상들 사이의 높은량의 시간적인 상관 관계 때문에, 기저층 코드된 프레임에 대응하는 것보다 많이 남는 것을 유의하는 것이 중요하다. 예를 들어, 이전의 기저층 프레임은 현재의 그것 보다 고품질로 압축될 수 있고 두 개의 원화상들 사이의 시간적인(temporal) 상관 관계는 매우 높을 수 있다. 이 예에서, 이전의 기저층 프레임은 현재의 기저층 프레임보다 현재의 원화상에 대한 더 많은 정보를 전송하는 것이 가능하다. 그러므로, 이 화상에 대해 확장층 신호를 계산하도록 이전의 기저층 프레임을 사용하는 것이 바람직할 수 있다.

    도 1에 관련하여 미리 논의된 것처럼, 현재 FGS 구조는 시간적으로 위치된 대응하는 기저층 프레임으로부터 각각의 확장층 프레임들을 생성한다. 복합성(complexity)에서는 비교적 낮지만, 이 구조는 기저층 프레임들의 광범위한 로컬리티(locality)에서 이용가능한 정보의 가능한 이용을 배제하고, 이는 보다 나은 확장 신호를 생성가능 할 수 있다. 그러므로, 본 발명에 따라서, 기저층 화상들의 광범위한 로컬리티를 이용하는 것은 단일의 시간적인 공존(a single temporal co-located) 기저층 프레임에 비교하여, 임의의 특정 화상에 대한 확장층 프레임들을 발생하기 위한 더 나은 소스로서 역할 할 수 있다.

    현재와 새로운 스케일러빌리티 구조 사이에 차이(difference)는 다음의 수학식을 통해 도시된다. 현재의 확장 구조는 이하의 식에 의해 도시된다:

    E(t) = O(t) - (B(t) (1)

    시간 "t"에서, E(t)는 확장층 신호이고, O(t)는 원화상이며, B(t)는 기저층 인코드된 화상이다. 본 발명에 따른 새로운 확장 구조는 이하의 식에 의해 도시된다:

    E(t) = O(t) - sum{a(t - i)*M(B(t - i))}

    i = L1, -L1+1,..., 0, 1, ..., L2-1, L2 (2)

    L1 및 L2는 "로컬리티(locality)" 파라미터들이고, a(t - i)는 각각의 기저층 화상에 주어진 가중하는 파라미터이다, 가중하는 a(t - i)는 이하의 식에서 제한된다:

    0 < = a(t - i) < +1

    Sum{a( t - i)} = 1

    i = -L1, -L1+1, ..., 0, 1,..., L2-1, L2 (3)

    게다가, 식 (2)의 가중하는 파라미터 a(t - i)는 또한 확장층 신호 E(t)의 크기를 최소화하도록 선택되는 것이 바람직하다. 이 계산은 확장층 리지듀얼 계산 유닛에서 수행된다. 그러나, 이 계산은 수행하는데 필수적인 계산 전력량이 이용가능하지 않으면, 그 후 가중하는 파라미터 a(t - i)는 0과 1 사이에서 변화하거나(toggle), 또는 a(t + i) = 0.5 또는 a(t - i) = 0.5로 평균화될 수 있다.

    식 (2)에서 M 오퍼레이터는, 근접하는 화상들 또는 프레임들에 대응하는 부분들이 보통 비디오에서 모션 때문에 공존하지 않으므로, 수행되는 모션 추정 동작을 나타낸다. 따라서, 모션 추정 동작은 식 (2)에 정의된 확장층 신호에 대한 모션보상(motion compensation;MC) 정보를 생성하기위해 근접하는 기저층 화상들 또는 프레임들 상에서 수행된다. 전형적으로, MC 정보는 근접하는 화상들 사이에 모션 벡터들 및 임의의 다른 정보를 포함한다.

    본 발명에 따라서, 식 (2)에 따라 생성되는 확장층 신호에 대한 모션 보상(MC) 정보를 계산, 이용, 및 전송하기 위한 몇 개의 대안들이 있다. 예를 들어, M 오퍼레이터에 이용되는 MC 정보는 기저층에 의해 계산된 MC 정보(예를 들어, 모션 벡터들)와 동일할 수 있다. 그러나, 기저층이 원하는 MC 정보를 갖지 못할 때의 경우들이 있다.

    예를 들어, 역방향 예측(backward prediction)이 이용될 때, 그 후 역방향 MC 정보는 그런 정보가 기저층의 부분으로서 계산 및 전송되지 않았으면(예를 들어, 기저층이 단지 I 및 P 화상들로만으로 구성되지만 B들로는 구성되지 않으면) 계산 및 전송되어야 한다. 기저층에 대해 요구되는 것 이외에 계산 및 전송될 것이 필요한 모션 정보량에 기초하여, 세 개의 가능한 시나리오(scenario)들이 있다.

    하나의 가능한 시나리오에서, 단지 확장층 예측 모션 벡터들의 별도의 집합(set)을 계산하는 것에 포함된 부가적인 복합체는 중요한 관심사가 아니다. 이 옵션은, 이론적으로 말하면, 다음 압축에 대한 최상의 확장층 신호를 제공해야 할 것이다.

    제 2의 가능한 시나리오에서, 확장층 예측은 기저층에서 계산되었던 모션 벡터들만을 사용한다. 특정 화상을 위한 확장층 예측에 대한 소스 화상들(그로부터 예측이 수행됨)은 동일한 화상에 대한 기저층에서 이용되는 것들의 서브셋이되어야한다. 예를 들어, 기저층이 인트라 화상(intra-picture)이면, 그 후 그것의 확장층은 단지 동일한 인트라 기저 화상으로부터 예측될 수 있다. 기저층이 P 화상이면, 그것의 화상은 기저층 모션 예측에 대해 이용되는 동일한 참고 화상들로부터 예측되어야할 것이고, 동일하게 B화상들에 대해 수행한다.

    상술된 제 2의 시나리오는 확장층에 대해 이용될 수 있는 형태의 예측을 제한할 수 있다. 그러나, 그것은 남은 모션 벡터들의 전송을 요구하지 않고 임의의 모션 벡터들을 계산하기 위해 요구(need)를 제거한다. 그러므로, 이것은 아마 품질에서 작은 패널티(penalty)만을 가지고 인코더 복잡성을 낮게 유지시킨다.

    제 3의 가능한 시나리오는 처음 두 개의 시나리오들 사이에 있다. 이 시나리오에서 확장층이 이용될 수 있는 형태의 예측에 제한이 거의 또는 전혀없다. 원하는 형태의 확장 예측에 대한 이용가능한 기저층 모션 벡터들을 갖도록 발생되는 화상들을 위해, 기저 모션 벡터들은 다시 이용된다. 다른 화상들에 대해, 모션 벡터들은 확장 예측에 대해, 모션 벡터들은 확장 예측에 대해 개별적으로 계산된다.

    상술된 식은 확장층 신호의 계산을 위해 일반적인 프레임워크(framework)를 제공한다. 그러나 일반적인 프레임워크의 몇 개의 특정한 것들은 여기서 유의할 가치가 있다. 예를 들어, 식 (2)에서 L1 = L2 = 0이면, 새로운 FGS 확장 예측 구조는 도 1에 도시된 현재의 FGS 확장 예측 구조로 감소한다. 새로운 구조에 의해 제공되는 기능성은 확장층 화상들 중의 관계가 확장층 화상들이 서로 다른 것으로부터 기인되지않은 다음에 변화되지 않기 때문에, 여기서 제안된 개선점들에 의한 임의의 방법에서 손상되지 않는다.

    게다가, 식 (2)에서 L1 = 0이고 L2 = 1이면, 일반적인 프레임워크는 도 3에 도시된 스케일러빌리티 구조로 감소한다. 본 발명에 따라 스케일러빌리티 구조의 이 예에서, 후속적인 기저층 프레임과 마찬가지로 시간적으로 위치되는 것은 각각의 확장층 프레임들을 생성하는데 이용된다. 그러므로, 식 (2)에서 M 오퍼레이터는 앞으로의 예측을 수행할 것이다.

    유사하게, 식 (2)에서 L1 = 1이고 L2 = 0 이면, 일반적인 프레임워크는 도 4에 도시된 스케일러빌리티 구조로 감소한다. 본 발명에 따른 스케일러빌리티 구조의 이 예에서, 이전의 기저층 프레임과 마찬가지로 시간적으로 위치되는 것은 각각의 확장층 프레임들을 생성하는데 이용된다. 그러므로, 식 (2)에서 M 오퍼레이터는 역방향 예측을 수행할 것이다.

    게다가, 식 (2)에서 L1 = L2 = 1이면, 일반적인 프레임워크는 도 5에 도시된 스케일러빌리티 구조로 감소한다. 본 발명에 따른 스케일러빌리티 구조의 이 예에서, 시간적으로 위치된, 다음 및 이전의 기저층 프레임은 각각의 확장층 프레임들을 생성하는데 이용된다. 그러므로, 식 (2)에서 M 오퍼레이터는 2방향(bi-directional) 예측을 수행할 것이다.

    본 발명에 따른 인코더의 하나의 예는 도 6에 도시된다. 도시될 수 있는 것처럼, 인코더는 기저층 인코더(18) 및 확장층 디코더(36)를 구비한다. 기저층 인코더(18)는 기저층 신호를 생성하기 위해 입력 비디오 O(t)의 부분을 인코드한다. 게다가, 확장층 인코더(36)는 확장층 신호를 생성하도록 입력 신호 O(t)의 나머지를 인코드한다.

    도시될 수 있는 것처럼, 기저층 인코더(18)는 모션 추정/보상된 예측 블록(20), 이산 코사인 변환(DCT) 블록(22), 양자화 블록(24), 가변 길이 코딩(VLC) 블록(26) 및 기저층 버퍼(28)를 구비한다. 동작하는 동안, 모션 추정/보상된 예측 블록(20)은 모션 벡터와 데이터를 어떻게 인코드하는지의 모드 결정들을 생성하도록 입력 비디오 O(t) 상에서 모션 예측을 수행하고, 이는 VLC 블록(26)을 따라 전송한다, 게다가, 모션 예측/보상된 예측 블록(20)은 또한 DCT 블록(22)로 변화하지 않은 입력 비디오 O(t)의 또다른 부분을 전송한다. 이 부분은 모션 벡터들로 코드되지 않았던I 프레임들 및 부분적인 B로 및 P 프레임들로 코드될 입력 신호 O(t)에 대응한다.

    DCT 블록(22)는 모션 추정/보상된 예측 블록(20)으로부터 수신된 입력 비디오 상에서 이산 코사인 변환을 수행한다. 게다가, 양자화 블록(24)은 DCT 블록(22)의 출력을 양자화한다. VLC 블록(26)은 기저층 프레임들을 생성하기 위해서 모션 추정/보상된 예측 블록(20) 및 양자화 블록(24) 둘 다의 출력에서 가변 길이 코딩을 수행한다. 기저층 프레임들은 시간적으로 실시간에서 전송을 위해 출력되거나 시간의 길지 않은 시간 동안 저장되기 전에 기저층 비트 버퍼(28)에 저장된다.

    더 도시될 수 있는 것처럼, 역 양자화 블록(34)와 역 DCT 블록(32)은 양자화 블록(24)의 또다른 출력에서 직렬로 결합된다. 동작하는 동안, 이들 블록들(32, 34)는 이전에 코드된 프레임의 디코드된 버젼을 제공하고, 이는 프레임 스토어(30)에 저장된다. 이 디코드된 프레임은 현재 프레임에 대한 모션 벡터들을 생성하도록 모션 추정/보상된 예측 블록(20)에 의해 이용된다. 이전 프레임의 디코드된 버전의사용은 디코더측에서 수신된 것과 동일하므로 후부터 디코더측에서 수행된 모션 보상을 더욱 정확하게 만들 것이다.

    또한 도 6에서 알 수 있는 것처럼, 확장층 인코더(36)는 확장 예측 및 리지듀얼 계산 블록(38), 확장층 FGS 인코딩 블록(40) 및 확장층 버퍼(42)를 구비한다. 동작하는 동안, 확장 예측 및 리지듀얼 계산 블록(38)은 입력 비디오 O(t)로부터 예측 신호를 감산함으로써 리지듀얼 이미지들을 생성한다.

    본 발명에 따라, 예측 신호는 식 (2)에 따라 다중 기저층 프레임들 B(t), B(t - i)로부터 형성된다. 미리 설명된 것처럼, B(t)는 일시적으로 위치되는 기저층 프레임을 표현하고 B(t - i)는 다음 프레임, 이전의 프레임 또는 둘 다도 같은 하나 또는 그 이상의 근접하는 기저층 프레임들을 표현한다. 그러므로, 각각의 리지듀얼 이미지들은 다중 기저층 프레임들을 이용하여 형성된다.

    게다가, 확장층 FGS 인코딩 블록(40)은 확장층 프레임들을 생성하기 위해서 확장 예측 및 리지듀얼 계산 블록(38)에 의해 생성되는 리지듀얼 이미지들을 인코드가되는데 이용된다. 확장층 인코딩 블록(40)에 의해 이용되는 코딩 기술은 DCT 변환 또는 웨이블렛 이미지 코딩과 같은 임의의 미세한 그레뉼라 스케일러빌리티 코딩 기술일 수 있다. 또한 확장층 프레임들은 일시적으로 실시간에서 전송하기 위해 출력하거나 또는 시간의 길지않은 시간을 위해 저장되기 전에 확장층 비트 버퍼(42)에 저장된다.

    본 발명에 따른 디코더의 하나의 예는 도 7에 도시된다. 도시될 수 있는 것처럼, 디코더는 기저층 디코더(44) 및 확장층 디코더(56)를 구비한다. 기저층 디코더(44)는 기저층 비디오 B'(t)를 생성하기 위해서 입력 기저층 프레임들을 디코드한다. 게다가, 확장층 디코더(56)는 입력 확장층 프레임들을 디코드하고 확장된 출력 비디오 O'(t)를 생성하기 위해서 이들 프레임들과 적당하게 디코드된 디저층 프레임들을 결합한다,

    도시될 수 있는 것처럼, 기저층 디코더(44)는 가변 길이 디코딩(VLD) 블록(46), 역 양자화 블록(48) 및 역 DCT 블록(50)을 구비한다. 동작하는 동안, 이들 블록들(46, 48, 50)은 디코드된 모션 벡터들, I 프레임들, 부분적인 B 및 P 프레임들을 생성하도록 입력 기저층 프레임들 상에서 가변 길이 디코딩, 역 양자화 및 역 이산 코사인 변환을 수행한다.

    기저층 디코더(44)는 또한 기저층 비디오를 생성하기 위해서 역 DCT 블록(50)의 출력에서 모션 보상을 수행하기 위한 모션 보상된 예측 블록(52)을 구비한다. 게다가, 프레임 스토어(54)는 미리 디코드된 기저층 프레임들 B'(t - i)를 저장하기 위해 구비된다. 이것은 모션 보상을 프레임 스토어(54)에 저장된 디코드된 모션 벡터들 및 기저층 프레임들 B'(t - i)에 기초되는 부분적인 B 또는 P 프레임 상에서 수행되도록 만들 것이다.

    도시될 수 있는 것처럼, 확장층 디코더(56)는 확장층 FGS 디코딩 블록(58)과 확장 예측 및 리지듀얼 결합 블록(60)을 구비한다. 동작하는 동안, 확장층 FGS 디코딩 블록(58)은 입력 확장층 프레임들을 디코드한다. 수행된 디코딩 형태는 DCT 변환 또는 웨이블렛 이미지 디코딩과 같은 임의의 미세한 그레뉼라 스케일러빌리티 기술을 구비할 수 있다.

    게다가, 확장 예측 및 리지듀얼 결합 블록(60)은 확장된 비디오 O(t)를 발생하기 위해서 디코드된 확장층 프레임들 E'(t)와 기저층 비디오 B'(t), B'(t - i)를 결합한다. 특히, 각각의 디코드된 확장층 프레임들 E'(t)는 예측 신호에 결합된다. 본 발명에 따라, 예측 신호는 시간적으로 위치된 기저층 프레임 B'(t)와 프레임 스토어(54)에 저장된 적어도 하나의 다른 기저층 프레임 B'(t - i)로부터 형성된다. 본 발명에 따라, 다른 기저층은 이전 프레임, 다음 프레임 또는 둘 다와 같은 근접하는 프레임일 수 있다. 이들 프레임들은 이하의 식에 따라 결합된다:

    O'(t) = E'(t) + sum{a(t -i) * M(B'(t - i))}

    i = -L1, -L1+1,..., 0, 1,...,L2-1, L2 (4)

    M 오퍼레이터는 모션 변위(motion displacement) 또는 보상 오퍼레이터(compensation operator)를 나타내고 a(t - i)는 가중하는 파라미터를 나타낸다. 식 (4)에서 수행되는 동작들은 식 (2)에 도시된 것처럼 디코더 사이드측에서 수행되는 역 동작들이다. 도시될 수 있는 것처럼, 이들 동작들은 각각의 디코드된 확장층 프레임들 E'(t)를 모션 보상된 기저층 비디오 프레임들의 가중된 합에 더하는 것을 포함한다.

    본 발명이 구현될 수 있는 하나의 예가 도 8에 도시된다. 예로서, 시스템(66)은 이들과 다른 장치들의 부분들 또는 결합들 뿐만 아니라 텔레비전, 세트 톱 박스, 데스크톱, 랩톱 또는 팜톱 컴퓨터, 개인 휴대 정보 단말기(PDA), 비디오 카세트 레코더(VCR), 디지털 비디오 레코더(DVR), 티보(TiVO) 장치들등과 같은 비디오/이미지 저장 장치를 표현할 수 있다. 시스템(66)은 하나 또는 그 이상의 비디오 소스들(68), 하나 또는 그 이상의 입력/출력 장치들(76), 프로세서(70) 및 메모리(72)를 구비한다.

    비디오/이미지 소스(들)(68)은 예를 들어, 텔레비전 수신기, VCR 또는 다른 비디오/이미지 저장 장치를 표현할 수 있다. 소스들(68)은 대안으로 예를 들어, 이것들과 다른 통신망들의 부분들 또는 결합들 뿐만 아니라 인터넷과 같은 글로벌 컴퓨터 통신망, 광대역 통신망, 대도시 통신망, 구내 정보 통신망, 지상파 방송 시스템, 케이블 통신망, 위성 통신망, 무선 통신망, 또는 전화 통신망을 통해, 서버 또는 서버들로부터 비디오를 수신하기 위해 하나 또는 그 이상의 네크워크 연결들을 표현할 수 있다.

    입력/출력 장치들(76), 프로세서(70) 및 메모리(72)는 통신 매체(78)를 통해 통신한다. 통신 매체(78)은 예를 들어, 이것들과 다른 통신 매체의 부분들 또는 결합들 뿐만 아니라, 버스(bus), 통신망, 하나 또는 그 이상의 회로의 내부적인 연결들을 표현할 수 있다. 소스(들)(68)로부터의 입력 비디오 데이터는 디스플레이 장치(74)에 공급되는 출력 비디오/이미지들을 발생하기 위해서 메모리(72)에 저장되고 프로세서(70)에 의해 실행되는 하나 또는 그 이상의 소프트웨어 프로그램들에 관련하여 처리된다.

    하나의 실시예에서, 본 발명에 따른 새로운 스케일러빌리티 구조를 이용하는 코딩 및 디코딩은 이 시스템에 의해 실행되는 컴퓨터 판독 코드(computer readablecode)에 의해 구현된다. 이 코드는 메모리(72)에 저장되거나 또는 CD-ROM 또는 플로피디스크와 같은 메모리 매체로부터 판독/다운로드될 수 있다. 다른 실시예들에서, 하드웨어 회로는 이 발명을 구현하도록 소프트웨어 지시들을 대신하여 사용되거나, 또는 그것과 함께 사용된다. 예를 들어, 도면들 6-7에 도시된 구성요소들은 또한 이산 하드웨어 구성요소들로서 구현될 수 있다.

    본 발명이 특정 예들에 따라 설명되었지만, 이 발명은 여기에 개시된 예들에 한정되거나 또는 제한되지않는 것이 이해될 것이다. 예를 들어, 이 발명이 임의의 특정 코딩 전략 프레임 형태 또는 확률 분포(probability distribution)에 제한되지않는다. 반대로, 본 발명은 첨부된 청구항들의 정신과 범위 내에 포함되는 그것의 다양한 구조들 및 수정들을 포함하게 된다.

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈