오디오 신호 처리 방법 및 장치专利检索-音频信号处理信号处理信号处理专利检索查询-专利查询网

오디오 신호 처리 방법 및 장치

阅读：1发布：2021-02-10

专利汇可以提供오디오 신호 처리 방법 및 장치专利检索，专利查询，专利分析的服务。并且본발명은오디오신호를효과적으로재생하기위한신호처리방법및 장치에관한것으로서, 본발명의실시예에따르면 HMD 기기를비롯한휴대기기를위한몰입형(immersive) 바이노럴렌더링을구현하기위한오디오신호처리방법및 장치가제공될수 있다.，下面是오디오 신호 처리 방법 및 장치专利的具体信息内容。

权利要求

오디오 신호 처리 방법 및 장치.

说明书全文

오디오 신호 처리 방법 및 장치{A METHOD AND AN APPARATUS FOR PROCESSING AN AUDIO SIGNAL}

본 발명은 오디오 신호를 효과적으로 재생하기 위한 신호 처리 방법 및 장치에 관한 것으로서, 더욱 상세하게는 HMD(Head Mounted Display) 기기를 비롯한 휴대 기기를 위한 몰입형(immersive) 바이노럴 렌더링을 구현하기 위한 오디오 신호 처리 방법 및 장치에 관한 것이다.

HMD에서 immersive audio listening를 하기 위해서 바이노럴 렌더링(binaural rendering) 기술이 필수적이다. 이때, 연산량 및 전력 소모의 제약이 따르는 모바일 디바이스에서, rendering 대상 객체 혹은 채널의 증가로 인한 연산량 및 전력 소모의 부담은 물론이고, 개인 맞춤형으로 제작되지 않은 HRTF 로 인한 개인별 부적응의 문제, HRTF set의 개수 부족 (공간 해상도 부족)에 따른 artifacts, head tracking lag에 따른 성능 저하 및 불편함 등의 문제를 가지고 있다.

A spatially encoded soundtrack may be produced by two complementary approaches:

(a) Recording an existing sound scene with a coincident or closely-spaced microphone system (placed essentially at or near the virtual position of the listener within the scene). This can be, eg, a stereo microphone pair, a dummy head, or a Soundfield microphone. Such a sound pickup technique can simultaneously encode, with varying degrees of fidelity, the spatial auditory cues associated to each of the sound sources present in the recorded scene, as captured from a given position.

(b) Synthesizing a virtual sound scene. In this approach, the localization of each sound source and the room effect are artificially reconstructed by use of a signal processing system, which receives individual source signals and provides a parameter interface for describing the virtual sound scene. An example of such a system is a professional studio mixing console or digital audio workstation (DAW). The control parameters may include the position, orientation and directivity of each source, along with an acoustic characterization of the virtual room or space. An example of this approach is the post-processing of a multi-track recording using a mixing console and signal processing modules such as artificial reverberators as illustrated in.

본 발명은 상기의 문제점을 해결하기 위해 안출된 것으로, 3D 오디오 장면의 취득 및 그와 연결된 음원의 위치 정보 획득 등의 문제를 해결하고자 하는 목적을 가지고 있다.

본 발명의 실시예에 따르면, 상기와 같은 과제를 해결하기 위한 Sound Field 취득 및 음원 위치 획득을 위한 방법 및 장치가 제공될 수 있다.

본 발명의 실시예에 따르면, 360 동영상 및 가상현실 컨텐츠의 오디오 신호에 추가적인 상호작용이 가능한 바이노럴 렌더링을 할 수 있다.

도 1은 바이노럴 렌더링 장치의 high level architecture이다.
도 2는 코어에 대한 상세 블록도이다.
도 3은 Natural Binaural Renderer의 세부 구조를 나타내는 블록도이다.
도 4는 Static to Interactive 문제 정의1를 나타낸 도면이다.
도 5는 Static to Interactive 문제 정의2를 나타낸 도면이다.
도 6은 Hi-Resolution Binauralizer를 나타낸 도면이다.
도 7은 Sparse Binaural과 Mix를 나타낸 도면이다.
도 8은 Peak/Notch EQ를 나타낸 도면이다.
도 9는 Symmetric의 활용을 나타낸 도면이다.
도 10은 Server Client Rendering을 나타낸 도면이다.
도 11은 BW 최적화 한 Server Client Rendering 실시예를 나타낸 도면이다.
도 12는 BW 최적화 한 Server Client Rendering의 다른 실시예를 나타낸 도면이다.
도 13은 BW 감소 아이디어를 나타낸 도면이다.
도 14는 sparse binaural pre-renderer를 나타낸 도면이다.
도 15는 Mono Interactive 문제 정의를 나타낸 도면이다.
도 16은 Mono Interactive 구현도를 나타낸 도면이다.
도 17는 Externalization를 나타낸 도면이다.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도, 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가진 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.

도 1은 제안하는 시스템의 high level architecture이다. Audio in으로 audio source 신호가 입력되면, Gaudi core 를 통한 binauralization이 구현되어, 바이노럴 출력신호 L, R이 만들어진다. 이때 신호 L,R은 headphone 청취를 위해 렌더링된 신호들로써, 만일 스테레오 스피커를 통해 출력하는 경우라면 GAUDI outfit 내에 있는 GAUDI XTC (cross talk cancelation)이 구동된 신호가 출력되어야 한다. GAUDI outfit은 reproduction 환경의 transducer 등의 특성에 adaptation하기 위한 프로세싱을 총합적으로 의미한다.

(GAUDI Core)

Audio in source 신호는 모노 혹은 1개의 객체일 수도 있고, 복수의 객체 혹은 복수의 채널 신호일 수 있다. 복수의 객체 혹은 채널 신호인 경우 특별히 설명하지 않으면, 1개의 객체인 경우의 복수회 수행으로 해석할 수 있으므로 이하에서 구별하여 설명하지 않는다. 다만, LR (Late Reverberation)을 처리하는 경우는 여러 객체 혹은 여러 채널에 대해 다운믹스된 1-2개의 신호에 대한 processing으로 대체될 수 있다.

(GAUDI Core Interface)

Gaudi Core에서 바이노럴 렌더링을 수행하기 위해 필요한 Gaudi Core Parameter는 GAUDI Core Interface 모듈에서 생성되어 GAUDI Core로 전송된다. Core Parameter는 렌더링을 위해 필요한 여러가지 파라미터들로써 VOFF coefficient, QTDL parameter, LR 계수, 실시간 음윈 방향 및 위치 정보, 객체 위치정보 등이다. 이 가운데 일부 정보는 초기화 과정에서 결정되어 전송될 수 있고, 어떤 정보는 변경될 때마다 실시간으로 전송될 수 있다.

이와 같은 파라미터 생성을 위해 GAUDI Core Interface는 GAUDI G2A Translator의 출력인 GAUDI audio model, binaural rendering information (bitstream), GAUDI Personalizer의 출력인 GAUDI HRTF, 헤드트래킹을 인식할 수 있는 장치 등 외부 센서나 조이스틱과 같은 컨트롤러의 출력, 혹은 외부의 ambient sound 등 사용자 주변 환경에 대응하여 Real World Analyzer가 생성한 Re-Wo inputs 등을 입력 받는다. 그리고, 그 출력으로 Gaudi Core Parameter를 출력한다.

<< Gaudi Core >>

도 2는 코어에 대한 상세 블록도이다. Core는 입력으로 source 오디오 신호를 받고, 이에 대해 바이노럴 렌더링 프로세싱이 완료된 오디오 신호 L, R을 출력한다. 이 때 source 오디오 신호는 일반적인 멀티채널 라우드스피커 신호, 객체 신호 등을 다양한 오디오 신호를 지칭한다. 본 발명에서 오디오 신호는 멀티채널 라우드스피커 신호, 객체 신호, HOA (Higher Order Ambisonics) 계수 신호 등을 포괄하며, 객체 신호는 라우드스피커 신호를 포함한다. 코어는 크게 Natural Binaural Renderer와 Object-based Binaural Renderer로 구분되어 처리된다. Natural Binaural Renderer는 고품질 바이노럴 렌더러로 멀티미디어 컨텐츠와 같이 정지되어 있는 audio scene이나 상대적으로 interactivity가 높지 않은 객체들을 처리하는데 사용된다. 도 1의 Audio input에 따르면 natural audio (studio에서 multichannel configuration 에 맞게 artistic mixing 되어있는 콘텐츠)를 사용하여 렌더링 하거나 중요한 객체를 바이노럴 렌더링 하는데 사용된다.

Object-based Binaural Renderer는 VR 및 AR에 필수적인 요소로 유저 또는 객체가 움직임에 따른 변화에 능동적으로 반응하기 용이한 구조로 되어있다.

Domain Switcher는 각 모듈에 적합한 domain으로 변환해주는 것으로 Forward/Inverse Fast Fourier Transform, Forward/Inverse Discrete Cosine Transform, Analysis/Synthesis QMF filterbank 등이 예가 될 수 있다. Domain Switcher의 입력 신호는 시간 도메인 신호로 한정하지 아니하며, 서브밴드 신호가 입력이 될 수 있다.

도 2의 구조는 다양한 환경에서 효율적인 바이노럴 렌더링을 수행 가능케 한다. 상기 효율성을 얻을 수 있는 예시는 다음과 같다.

매우 많은 객체들이 존재하는 경우 각 객체를 렌더링 하는 것은 매우 비효휼적이다. 이를 위하여 멀리 떨어져 있는 경우나 움직이지 않을 것으로 예상되는 객체는 Natural Binaural Renderer에서 처리하며, 근접해 있거나 움직일 것으로 예상되는 객체는 Object-based Binaural Renderer에서 처리 가능하다.

도 2의 Domain Switcher의 출력은 Subband Audio로 명시되어 있으나 본 발명에서는 각 오디오 신호마다 서로 다른 도메인 신호로 각 렌더러에 전달될 수 있으며, 한 신호가 복수개의 서로 다른 도메인 신호로 변환되어 전달 될 수 있다. 또한 도 2의 Subband Audio는 시간 도메인 신호를 포함한다.

(Pre-processing)

Pre-processing은 입력된 multi-audio 신호를 Gaudi Core가 처리하기 용이한 신호로 Transform하는 연산을 처리한다. 예를 들면 1) 많은 수의 오브젝트 신호를 채널 신호로 pre 렌더링을 수행. 2) 채널 신호를 Ambient 신호와 객체신호로 분리, 3) HOA 계수 신호(B format)를 Ambient 신호와 객체신호로 분리 4) HOA 계수를 채널 신호로 렌더링 하는 등의 다양한 Transformation이 가능하다. 상기 Pre-processing을 이용하여 특정 객체 신호를 사용자가 원하는 형태로 customization을 할 수 있다. 예를 들면 HOA 계수 신호가 입력 신호인 경우 사용자가 특정 객체 신호의 소리를 감소시키고 싶은 경우 Pre-processing에서 HOA 계수 신호를 객체 신호와 Ambient신호로 변환한 후 해당 특정 객체 신호에 1보다 작은 이득값을 곱함으로써 customization이 가능하다.

- Natural Binaural Renderer의 입력 신호는 Format Conversion을 거친 HOA신호가 대표적인데, 이 신호는 필요에 따라 Pre-processing 단을 pass-through하여 바로 Natural Binaural Renderer의 입력 신호로 사용할 수 있다.

도 3의 각 모듈은 연산량 최적화를 위하여 실제 구현 과정에서 생략되거나 병합 될 수 있다.

(Natural Binaural Renderer)

도 3은 Natural Binaural Renderer의 세부 구조를 나타내는 블록도이다. Natural Binaural Renderer의 경우 콘볼루션 기반의 Convolutive BR, 이보다 부정확하지만 매우 효율적인 Parameteric BR, 그리고 높은 주파수 대역에 효과적으로 렌더링 가능한 QTDL 등이 사용될 수 있다.

(Spectral Contents Dependent Rendering)

특정 객체 오디오 신호의 경우 특정 주파수 대역에만 에너지가 몰려 있거나 상대적인 중요도가 매우 다를 수 있다. 예를 들면 차임벨 소리는 특정 하모닉을 포함하는 주파수 빈을 제외하고 에너지가 없으며, 벌 소리의 경우 특정 대역을 제외하면 상대적인 중요도가 매우 낮다. 따라서 객체 오디오의 Time-frequency tile의 중요도를 포함하는 메타데이터를 포함할 수 있다. 상기 메타데이터는 렌더러의 수행 가능한 연산량에 따라 연산 수행의 정도를 결정한다. 예를들면 연산량이 충분한 경우 모든 대역을 처리해도 되지만, 연산량이 부족한 경우 낮은 중요도를 가지는 time-frequency tile은 도 3에 있는 VLCR 등의 rendering으로 처리하는 방법이 예가 될 수 있다. 본 방법을 사용하면, 연산량과 저장공간의 추가적인 개선이 가능하다.

(Static to Interactive)

360 동영상에 포함되어 저장된 오디오 신호는 종래와 같은 스테레오 신호가 대부분이다. 스테레오 혹은 모노 신호를 입력으로 헤드 트래킹 등의 상호작용에 따라 360 도 공간을 움직이는 동영상에 대응을 하면 화면과 소리가 불일치하여 문제가 발생한다.

아래 도 4 (a)의 3차원 공간에서 청자는 공간 중앙에 위치할 때, 사운드는 도 4 (b)와 같이 스테레오로 믹스되어 있다. 도 5에서와 같이 청자가 현재의 시점에서 방위각 90도, 180도, 270도 각각 방향을 돌릴 경우, 청자의 화면(screen)에는 다른 장면이 펼쳐지나, 헤드폰에는 여전히 도 4 (b)의 스테레오 사운드가 들려 화면과 소리의 불일치가 발생한다.

이와 같은 문제를 해결하기 위해서는 상호작용에 맞게 대응하는 인터렉티브 사운드 렌더링이 요구된다.

<< S2I solution #1: Hi-Resolution Binauralizer >>

도 6과 같이 (필요시) upmix 후, 업믹스된 pre-rendererd sound scene (스피커)에 대응하는 high-resolution HRTF를 이용한 binaural rendering 으로 구현한다.

(solution #1 var: front 강화 : 5.1 포맷?)

스테레오를 업믹스 (사용한 업믹스 방법 구체화해서 써넣기 - 테드)

(solution #1 var: non-symmetry)

한편 stereo source를 upmix할 때, FB confusion 은 해결해야할 중요 과제이다. localize 성능 향상과 함께 FB confusion을 줄이기 위한 방안으로 front angle과 back angle 및 공간 해상도를 차별적으로 부여할 수 있다. 즉, 종래의 ITU-T 5.1 채널 레이아웃과 같이 전면은 narrow angle로 3채널을 부여하고, rear 혹은 side에 대응하는 back channel은 wide angle로 할당할 수 있다.

나아가서 rear에 매칭된 신호는 gain을 0으로 하여 (즉, mute하여) 구현하는 방법도 가능하다. 이와 같은 방법으로 음원

(solution #1 var: low-pass filtering for rear)

후면으로 assign된 신호에 대해서는 hrtf convolution 후 lowpass filtering을 하는 등의 후처리를 추가로 적용할 수 있다.

어쨌든 upmixing을 거치고 나면 일종의 channel re-mapping이 되는 상황이라 후면에 해당하는 새로 생성되는 개별 채널의 위치를 알 수 있을 것 같은데요.

<< S2I solution #2: Sparse Binaural & Mix >>

N-sparse point binaural rendering 후 Interpolation으로 구현한다. 도 7는 본 발명에 따른 S2I의 두번째 방법을 나타낸 구조도이다.

본 발명에 따르면, 전체 공간을 고해상도 point로 렌더링하는 대신 N 개 sparse point 만을 binauralization point로 하고, 그 외의 위치는 sparse point 를 이용한 power panning 을 비롯한 여러가지 interpolation 기법을 이용하여 구현한다.

이때, N은 예를 들어 하나의 수평면에 위치한 동/서/남/북 4개의 위치일 수 있다. 이 경우, 각각의 방향은 90도 각도로 다른 방향을 향하고 있으며, 각각의 방향에 대응되는 speaker position을 갖는다.

인터폴레이션의 일 실시예로 nearest 2 포인트에 대응하는 입력으로부터 power panning을 통해 구현할 수 있다. Power panning 된 출력을 각각 Pz_L, Pz_R 이라고 정의한다.

(sol #2 var: elevation구체화 1) Peak/Notch EQ

도 8는 본 발명에 따른 S2I 두번째 방법에 대한 보다 상세한 일 실시예를 나타낸다. (Pze_L, Pze_R은 도4에서 각각 PL, PR에 대응된다.

수평면에 대응되는 4 포인트의 씬만을 가지고 있으므로, 그 사이를 메우는 각 azimuth에 대응하는 scene을 렌더링하기 위해서는 4포인트 값을 이용한 interpolation이 필요하며, 또한 elevation 방향으로의 렌더링을 위해서는 별도의 처리를 통한 일종의 extrapolation이 구현되어야 한다.

익스트라폴레이션의 일 실시예로, 각 방위각에서 elevation에 대응하는 notch 및 peak 값을 가져와 Oz 신호에 추가적인 효과필터를 수행하여 Pze_L, Pze_R 을 생성할 수 있다.

(sol #2 var: elevation구체화 2) 머리 뒤쪽 신호에 대한 High frequency attenuation

HRTF의 일반적 특성을 고려할 때 머리 뒤쪽 음원에 대한 HRTF는 상대적으로 high freq가 attenuation 되는 특징을 갖는다. (귓바퀴에 의한 음영현상의 영향 ?). 이와 같은 특성을 추가로 고려하여, elevation extrapolation 시 rear azimuth에 대한 parameter와 front azimuth에 대한 파라미터를 구별하여 제공할 수 있다.

(sol #2 var: elevation 구체화 3) elevation +/-90도 귀 추가

elevation 큐를 extrapolation하기 위한 또 다른 방법으로 +90 및 -90도에 해당하는 HRTF를 이용한 렌더링된 신호를 추가적으로 이용할 수 있다. (설명 추가 plz.)

sol #2: What is claimed here:

스테레오 이상의 다채널 입력 오디오 신호 수신,

재생을 위한 목표 방위각을 수신 (목표 방위각은 머리 방향과 재생 씬의 기준 방향(화면의 정면)을 기준으로 결정)

목표 방위각에 대응하는 두개의 인접 방위각을 결정

두개 인접 방위각과 목표 방위각 사이의 panning gain 결정

인접 방위각에 대응하고 소스의 speaker configuration에 대응하는 HRTF set을 결정

pre-panned HRTF set 생성

상기 panned HRTF set 과 상기 입력 오디오 신호에 대한 필터링을 통해 출력 바이노럴 오디오 신호 생성

상기 두개 인접 방위각은 50도 이상 (큰 간격) 인 것을 특징으로 함.

상기 panned HRTF set 이 결정된 후 elevation 파라미터를 추가로 더 반영하는 것을 특징.

(sol #2: symmetric 의 활용)

스테레오에 대해 정면향인 경우 left speaker hrtf = LRflip ( right speaker hrtf);

center hrtf는 Hc_l = Hc_r 임

스테레오 스피커를 45도 간격으로 위치하는 경우 방위각 90도로 향하는 경우 정면의 오른쪽 신호 렌더링이 90도에서는 왼쪽 신호 렌더링에 대응함 (아래 그림) > any efficiency ?

인터폴레이션까지 고려시 특징 발생?

<< Solution #1, #2와 independent한 issues / solutions >>

(롤링- 좌/우 귀 높이 달라지는 움직임-에 대응하는 렌더링 방법 )

사용자가 몸통은 기준 방향을 유지한 채, 고개만을 돌려서 요잉, 피칭, 롤링 운동을 하는 경우 기존의HRTF DB의 레코딩 환경과 다른 상황이 발생한다. 이 가운데 특히 롤링의 경우는 왼쪽귀에 대한 elevation 입사각과 오른쪽귀에 대한 elevation 입사각이 달라지는 상황이 발생한다. 패럴랙스를

간단히는 elevation rendering 적용하면 가능해보임.

(a/v 공간 동기화)

360 영상과 stereo 오디오에 대해 stereo 는 static sound stage를 가지고 있기 때문에 특정한 방향을 기준으로 mix되어 있다. 이때, 360 영상의 어떤 direction과 stereo audio 가 매칭되어mix 되어 있는지를 알 수 없는 경우가 대부분이며, 이 때, 영상과 stereo audio의 기준 방향을 매칭시켜야만 본 발명에서 제공한 여러 interactive rendering을 적용할 수 있다.

동기화 방법1: 360 영상의 첫번째 view를 정면으로 간주한다.

컨텐츠 저작자 가 잘 작성한 360 영상이라면, 첫번째 view 를 정면으로 하여 stereo mix를 하였을 가능성이 높다. 따라서 별도의 연산 없이 이 정보를 활용할 수 있다.

동기화 방법 2: active searching video info.

보다 정확히 정면을 정의하기 위해 360 영상 정보에 있는 참고할 수 있는 값들을 활용한다.

이를테면, 일반적으로 보컬, 대사가 오디오의 센터에 있다. 따라서, 입이 움직이는 얼굴을 찾아내서 해당 위치를 정면으로 정의할 수 있다.

혹은, 스크린과 같이 비디오에서 정면에 해당하는 큐들이 있을 수 있다.

동기화 방법 3: 360도 영상 참조 상세

잘 mix된 stereo 음원이라면, 360도 (혹은 180도)영상의 360 direction에 대응되는 3차원 음원을 downmix하여 스테레오를 생성했을 것이다. 따라서, 비디오 정보로부터 stereo 음원에 이미 믹스된 개별 object를 공간상에 매칭시키는 과정을 수행할 수 있으며, 이를 이용하여 정면 매칭을 더 정확히 할 수 있다.

도 1과 도 2를 참조하면, 본 발명에 따른 360도 영상과 스테레오 음원에 대한 공간 동기화 및 스테레오로부터 사운드 객체를 추출하는 과정을 보다 구체적으로 설명할 수 있다.

도 1(a)의 탑뷰에서 시계방향으로 360도 회전하면서 나타나는 스크린의 영상이 도 2의 (a), (b), (c), (d)에 해당한다고 볼 수 있다. 영상으로부터 객체를 추출할 수 있을 때, 추출된 객체와 스테레오 사운드 객체에 대한 시공간 매칭을 통해 정면 공간 동기화를 구현할 수 있다. 예를 들어 S1이 guitar playing object라고 하면, 화면에서 기타가 연주되는 움직임(시간)과 공간상 위치와 스테레오 믹스 상의 (LR 로 이루어진 1차원 공간만 존재하는 경우라도) sound activation 되는 시간과 위치와의 매칭을 통해 도 2(a)가 스테레오 mix 에 매칭되는 정방향임을 알 수 있다.

한편 정면 매칭후, 도 2(a) ~ (d)의 screen 오브젝트와 active sound 오브젝트와의 비교를 통해 stereo 로부터 3차원 upmix를 위한 공간 정보를 추출할 수 있다. 예를들어, S3는 도 2(a)로부터 전면에 등장하지 않는 음원이면서 LR 1차원 수직공간에서 R에 가까운 곳에 있는 것으로부터 rear right direction으로 업믹스되어야 함을 유추할 수 있다. 이어서, 도 2(b)의 장면으로부터 이와 같은 방향 결정이 맞음을 확인할 수 있다.

동기화 방법 4: vvector에서 AV 공간 동기화 하는 방법과 유사하게 ?

(내용 가져와서 편집) >> 위의 방법 3의 설명에 해당하는 영상과 음성 객체 용어들 정의했던 것으로 기억.

>> 아래 텍스트와 같은 용어를 사용하여 3, 4를 합치기! (스캇. 루크가 잘 이해할 수 있도록 CDVO 등의 정의를 최대한잘 재활용하고 리마인드해주기)

먼저 360 비디오에 대한 공간 좌표계와 HOA 신호에 대한 공간 좌표계를 일치(calibration)시킨다. 이를테면 360 비디오의 정북 방향과 elevation 0도를 HOA 신호의 그것과 일치시킨다. 또한, geo-location 을 일치시킨다. 이후 영상과 오디오 신호는 Yaw-Pitch-Role 등 공간 좌표값을 공유할 수 있다.

비디오 신호로부터 하나 이상의 candidate dominant visual object CDVO를 추출한다.

HOA 신호로부터 하나 이상의 candidate dominant audio object CDAO를 추출한다.

CDVO와 CDAO 를 상호참조하여, dominant visual object, DVO와 dominant audio object DAO 를 결정한다. CDVO와 CDAO는 각 object 를 추출하는 과정에서 모호함(ambiguity)의 정도를 확률로 가질 수 있으며, 각각의 확률값을 비교하고 이용하여 iterative한 과정을 통해 DVO와 DAO를 결정할 수 있다. 이때 모든 CDVO 와 CDAO가 1:1로 대응하지 않을 수 있다. Visual object가 없는 audio object가 있을 수 있으며 (eg 바람소리), 소리가 없는 visual object는 실제로 시동 꺼진 자동차, 나무, 태양 처럼 매우 많기 때문이다. Video와 Audio가 매칭된 dominant object를 DAVO (Dominant Audio-Visual Object)라고 칭한다.

Moving object인 경우, CDVO의 trajectory (이전 프레임의 위치값)와 CDAO의 trajectory를 참고하여 위치를 더 정확히 얻을 수 있다.

CDVO의 부피(volume)을 참고할 때, CDAO의 volume를 결정할 수 있다. Volume에 대응하여 object 에 대한 beam width 등 HOA 파라미터를 변경하거나 CDAO에 대응되는 object에 대한 부피를 반영하는 바이노럴 렌더링을 수행할 수 있다. 상기 부피를 반영하는 바이노럴 렌더링은 될 수 있다. 상기 auditory width를 Control하는 방법은 서로 다른 복수개의 위치에 상응하는 바이노럴 렌더링을 수행하거나, 디코릴레이터를 이용하여 auditory width를 control하는 것이 될 수 있다.

이와같은 방법으로 DAVO가 추출되면 (추출되는 과정에서), HOA 신호로부터 object를 추출하는 과정의 성능을 개선할 수 있다.

이상의 방법으로 오브젝트를 추출하면, 이하 설명된 것과 같이 Vvector를 이용한 주요 객체 렌더링과 앰비언트 렌더링을 통해 연산량 이득과 함께 성능이 향상된 바이노럴 렌더링이 가능하다.

동기화 방법 5: 일부 동기화

선행 너무 많을것 같은데 비디오나 다른 인포를 잘 섞어서 회피?

오브젝트 (방향성 있는 신호)와 앰비언트를 분리

오브젝트는 주요한 Video object를 detection -> matching 시킴

앰비언트는 bypass / IACC matching / simple reverb 등의 추가.

V3 추가 - (EXID 뮤비 360 - 탐이 새로 믹스한거, 보면서 든 생각)

visual cue와 꼭 맞고 여부를 떠나서, 가수가 빙둘러싼 씬처럼 사방에 멤버가 있는 경우는 upmix가 아니라 예를 들어 입력 2채널을 카피해서 4채널로 만들어서 2개는 전방, 2개는 후방 HRTF로 믹스해서 (각도는 좀 다르게 해서) 렌더링해도 좋겠다는 생각이 듦.

(시청자는 누가 누구 목소리라기보다 사방에서 소리가 나는 것이 fun한 상황임.

뒤에 객체가 없는데 4방에서 소리가 나면 이상하니, 결국 비주얼 인포를 참고하긴 해야하는데, 기존 S2I Sol #1, #2와는 조금 다른 솔루션이 될 것 같음.

조금 정리하고 트라이해서 이번 출원

>> (일 실시예로) 얼굴 인식 적용해보기

<< server - client efficient rendering >>

서버에서 렌더링해서 이미지만 전송하는 경우는 전송하는 영상은 360 시점 중 현재 대상 화면만 보내면 된다. 한편, 음향은 화면밖 영역까지 전체 음향에 대해 관찰 시점에 맞게 렌더링된 소리를 재생해야한다.

(영상처리)

360 영상의 경우 360 전체를 보내면 전송 BW가 높아 충분한 BW가 확보되지 않은 application에서는 구현이 어려우며, 실제 재생 시에 이를 모두 받아도 다 사용하지 않으므로 전송의 낭비가 발생한다. 현재 관찰 영상과 헤드 트레킹의 최대 폭을 고려한 주변 영역의 영상까지만 보내는 방법으로 구현하면 전송 BW를 줄일 수 있다. 이때, 360 영상이 이와 같은 장면으로 분할( eg coding tile)되어 있지 않으면, 전송되는 장면에 대해 실시간 동영상 부호화를 실행해야하는 부담이 있다.

(객체 오디오 처리 방법1 - sol #2 기반 server-client rendering)

K개의 오브젝트가 있는 경우 서버에서 오브젝트 신호를 전송, 단말에서 바이노럴 렌더링을 수행하는 경우 K개의 오브젝트 신호를 전송해야하며 2K번의 바이노럴 렌더링을 수행해야 한다.

K개의 오브젝트를 M개(Preferably M<K)의 채널로 믹스하여, 믹스된 채널을 N-direction sparse rendering하는 방법을 통한 S2I를 구현하는 경우, 최대 2N개의 바이노럴 오디오 신호를 전송하고, client에서는 샘플 당 곱셈 2번으로 바이노럴 렌더링 수행이 가능하다.

도 10에 본 방법을 서버-클라이언트 관계도로 나타내었다.

한편, 도10의 방법은 N direction의 개수가 증가함에 따라 전송해야하는 오디오 데이터의 BW가 증가하는 단점이 있다. 도 11은 BW 최적화를 위한 개선된 방법이다. 실제 현재 head direction을 알고 있으면, 이에 매칭되는 nearest N' direction (typically N'는 2 or 3) 만이 유효하므로 이 정보만을 전송하는 것이 바람직하다. 결론적으로 BW는 줄이면서도 성능의 차이는 없는 구현이 가능하다.

대신 head direction info를 실시간으로 수신하여 binauralization rendering을 수행하여 전송하므로, 추가적인 latency를 발생시킬 수 있는 단점이 있다.

서버의 경우 연산량에 critical 하지 않은 점을 고려하면, Binauralization 연산은 N'가 아니라 모든 direction N에 대해 미리 계산을 하여 Head direction info 수신 후 전송해야할 2N' 개의 Audio 만 추려서 전송하는 방법으로 구현할 수도 있다 (도 12).

이 방법은 객체 오디오가 아닌 스테레오와 같이 이미 channel mix된 오디오 신호에도 적용이 가능하다.

(객체 오디오 처리 방법 2 - )

8개의 S2I 라고 생각하면, 45도 만큼 바뀔 때 마다 출력을 swithing -> BW를 4개 바이노럴 신호로 줄일 수 있다. (즉 머리에 각도에 따라 다른 spk layout을 사용한다.) 이때 스위칭 구간을 어떻게 처리해야하느냐는 생각해볼 포인트.

(객체 오디오 처리방법 3 - sparse binaural pre-renderer)

특정 시간 구간동안 사람이 인지 가능한 최소 거리 변화를 JND_Dist 라고 하자. 예를들면 사람이 평균적으로 10ms 동안 10cm이내의 거리 변화를 인지를 하지 못한다면 JND_Dist = 10cm / 10ms = 10m/s = 360 km/h이다. JND_Dist보다 높은 속도를 갖는 객체의 경우 S2I를 사용하지 않고 discrete object로 전송한다.

일반적인 경우 개별 object를 nearest HRTF set에 매핑하거나 nearest 3 HRTF set을 이용하여 interpolation하는 바이노럴 렌더링이 이용된다. 일반적으로 볼 때, 이 방법은 가장 안정된 localization 성능과 음질을 제공할 수 있으며, 청자의 머리 움직임과 object 모두 고정인 경우 interpolation 된 하나의 HRTF 셋을 이용하여 렌더링 가능하므로 연산량에서도 유리한 방법이다. 그런데, 동적인 객체 혹은 머리 움직임이 있는 경우 매번 HRTF를 갱신하는 과정이 필요하며, 이 과정에서 연산량 증가는 물론이고, 급격한 HRTF 계수의 변화가 음질 왜곡을 일으키는 문제를 갖기도 한다. 특히 서버-클라이언트 구조인 경우 클라이언트에 full HRTF set을 가지기 어려운 경우 실시간으로 대상 HRTF set을 전송하거나, 서버에서 렌더링을 수행 후 전송할 경우 latency 라는 또다른 부담을 유발하는 요인이 될 수 있다. Latency를 줄이기 위해 클라이언트(단말)에서 연산하는 경우의 연산량 부담 문제를 개선할 수도 있다. (바이노럴 렌더링을 단말에서 수행하지 않아도 된다. (BRIR과 같이 긴 필터를 단말에서 처리 할 필요가 없다.))

본 발명에 따른 sparse binauralizer 기반 pre-renderer는 object의 동적 영역을 커버하는 넓은 공간 범위의 3개의 HRTF (sparse point)를 이용하여 object를 pre-rendering (binauralization)한다. 3개 point의 바이노럴라이즈된 오디오 신호를 최종 renderer (단말)에 전송한다.

최종 렌더러에서는 수신된 3개의 sparse point에 대한 pre-rendered 오디오 신호를 이용하여 VBAP, power panning 등의 interpolation 기법을 이용하여 최종 출력신호를 얻어낸다. Target rendering point가 3개의 sparse point 범위안에 존재하는 경우 sparse point 에 대한 업데이트가 불필요한 점에서 latency 를 최소화하는 장점과 필터 변화 주기가 낮은 점에서 음질을 개선하는 효과를 기대할 수 있다. 한편 object가 현재의 cover 영역의 경계로 진입하는 경우 하나의 추가적인 sparse point를 추가 전송하여 영역 이탈시 단말에서 즉시 대응하도록 할 수 있다. 상기 설명에 대응하는 본 발명에 따른 sparse binaural pre-renderer 는 도14에 나타내었다.

본 방법은 또한 BRIR 데이터와 같이 낮은 spatial resolution만을 갖는 HRTF Filter에 사용 할 수 있는 장점이 있다.

본 방법은 또한 sample-wise position update가 가능한 장점이 있다.

본 방법은 음원이 채널기반 믹스인 경우처럼 개별 객체의 자유 이동은 없고 헤드 트레킹에 의한 렌더링만 있는 경우에 더 유리한 방법이다. 같은 그룹인 오브젝트인 경우 (등간격 상에 있다던지 등각도 상에 있다던지 같이 움직인다던지) 전송해야 할 채널 수를 줄일 수 있다.

What is claimed here:

(도 10~도14 기반 공통 특징 및 variation 뽑아내보기)

<< Rear drop >>

(Ted) User가 보고 있는 각도에 따라서 보고있는 범위에 있는 신호는 키우고 뒤쪽은 로우패스 필터링을 수행한다. (심지어 버린다)

- 엔트릭스 시나리오 : 스피커 환경에서 뒤쪽은 잘 안되니 버린다.

- S2I 현재 버전 이용해서 실험 진행

360 영상 재생을 TV , 모바일폰 등 기존의 스크린에서 구현하는 경우, 그리고 이때 시청자가 헤드폰 (이어폰)을 착용하지 않고, 해당 기기 혹은 외장의 스피커를 사용하여 재생하는 시나리오를 생각할 수 있다. 이 시나리오는 다시 리어 또는 사이드 등 스크린 방위각이 아닌 곳에 서라운드 / 다채널 스피커가 설치되어 있는 경우와 그렇지 않은 경우로 구분할 수 있다. 후자인 경우는 헤드폰을 착용한 경우와 마찬가지로 전방위 렌더링이 가능하다고 가정할 수 있다. Typical한 모바일 출력인 경우 스피커는 mono 출력이라고 볼 수 있다. Typical한 TV의 경우는 stereo 출력을 가정할 수 있다. 이때, 청자가 TV 스크린크기에 비해 TV로부터 멀리 떨어진 경우 L,R 스피커의 방위각 차이가 크지 않고, 크로스톡을 고려하면 mono like한 소리가 될 수 있다.

이와 같이 스크린에 동반된 모노 혹은 스테레오만을 이용하여 360 영상에 대응하는 360 오디오를 재생하는 경우는 바이노럴 렌더링이나 단순한 모노/스테레오 다운믹스로 구현할 경우 기대하는 성능을 얻기 어렵다. 도 15은 이와 같은 문제를 나타낸 일 실시예다. 모바일폰의 스크린을 통해 360 영상을 시청 시, 시청하는 방위각에 관계없이 스피커로는 항상 동일한 모노 (전체신호)가 재생되는 것을 설명한다. 이때, 오디오 대해 실제로 binaural rendering을 수행하더라도, 복잡한 연산량만 소비하고 downmix되어버려 그 효과는 기대하기 어렵다.

이와 같은 문제를 해결하기 위해, 본 발명의 일 실시예에 따르면, 도 16에 예시한 것과 같이 mix된 전체 contents 가운데, 화면에 대응하여 현재의 시점(시청각도)을 고려하여 각 객체의 크기와 필터 특성 등을 조정하는 방법으로 스크린 스피커 사운드를 재생한다. 일 실시예로 스크린 방향에 해당하는 객체는 gain 1로 bypass하고, 스크린 방향에 해당하지 않는 신호는 gain 0으로 생략할 수 있다. Gain 0과 1사이를 analogous하게 연결하여 재생을 구현할 수 있다. 스크린 방향에 해당하지 않는 신호에 대해 gain 0이 아니라 0.5 등 상대적으로 작은 gain을 적용할 수 있다.

일 실시예로 스크린이 현재 방위각 0도를 중심으로 재생하고 있다면, -30~30도(스크린 범위)는 gain 1, 30~150도는 gain 0.5, 150~-150도는 gain 0 식으로 재생할 수 있다.

스크린 방향에 해당하지 않는 신호에 대해 gain 제어와 함께 low pass filtering을 적용할 수 있다. 후면에 해당하는 신호는 귓바퀴의 영향등으로 low pass 효과가 있는 점을 고려한 것이다.

이때, 각 음원 (객체) 신호는 본 발명의 다른 실시예, S2I 방법에서 개시된 것과 같은 upmix에 따라 얻어진 신호일 수도 있고, 개별 객체로 수신된 신호일 수도 있다.

이와 같은 수행에 대한 결정은 현재 재생 형태가 모노/스테레오 스피커 재생인지, 헤드폰 재생인지를 판별하는 외부의 판단부에서 제공된 정보를 참조하여 수행할 수 있다.

What is claimed here:

출력 config를 확인하는 단계 (출력 config는 audio jack이 꽂혀있는지 여부, 스피커 layout, 사용자가 정보 제공 등으로 확인),

출력 config가 적어도 하나의 rear / side channel을 재생할 수 있는 환경이면 (eg 5.1 or binaural) 제1모드 (immersive mode)로 재생

출력 config가 rear / side channel을 재생할 수 없는 스테레오 환경이면, 제 2 모드 (focused downmix mode)로 재생

이때 focused downmix 는 재생 화면에 대응되는 소리의 방향에 대해서 focuse된 소리를 제공하는 것을 특징으로 한다.

재생 화면에 속하지 않는 영역의 오디오 신호에 대해서는 analogous attenuation and/or low pass filtering된 형태로 재생하는 것을 특징으로 한다.

(빔포밍과는 다른 어떤 무엇?)

(사용자 이동 고려)

헤드트레킹 이외에 걸어가는 등의 추가 동작에 대응하는 특징?

360 비디오로 한정한다면 zoom-in 시나리오.

이때 오디오를 어떻게 해주면 좋을지에 다한 아이디어 필요.

단순히 gain만 키워준다?

Zoom-in방향의 각도에 인접한 두개 채널 신호는 downmix 해서 단일 신호로 두고 ADR적용. 나머지 field는 원래 시나리오대로 렌더링. 추후 signal superpositioin할 수 있지 않을까요?. (Upmixing Scenario)

(Externalization)

HRTF를 이용한 Binaural rendering에서 HRTF가 공간 정보를 포함하지 않고 있기 때문에 in-head localization이 발생하는 문제가 있다. 이러한 문제를 초기 반사음을 통해 externalization을 수행할 수 있으면 이때 입사각의 90도에 해당하는 초기 반사음이 효과가 크다.

입사각에 90도에 해당하는 왼쪽과 오른쪽 귀에 합성되는 신호들을 감쇄 게인과 시간지연을 거쳐 섞어줌으로써 externalization을 효과를 줄수 있다. 이 때 입사각의 직교 방향에 들어오는 성분을 청취자가 특정 공간에 있는 경우 벽면에 반사되어 들어오는 음원으로 볼수 있다. 실시예로써 도 10에서 처럼 먼저 음원 S의 입사각의 양귀에 쌍을 파워패닝으로 모델링하고 입사각으로 부터 좌우 90도에 해당하는 음원 ES1,ES2입사각들을 초기 반사음의 방향이라고 보고 이 방향으로 파워 패닝을 수행하여 반사음을 생성한다. 생성된 반사음을 시간지연을 다르게 부여하되 배수가 되지 않도록 하고 신호의 게인 또한 다르게 부여한다.

(Ambient Modeling)

S2I는 기본적으로 서로 직교하는 4방향에서 들어오는 4ch 생성.

오브젝트 신호 파워 패닝

ambient 신호 전방향 합성 + decorrelation

스테레오 신호일 경우 primary ambient 분리

primary 파워 패닝

ambient 전방향 합성 + decorrelation

James' Opinion>

S2I 내용이 4쌍의 binaural signal을 이용하는 쪽과 channel 신호의 panning에 관련된 내용이 혼재되어 있어서 명확한 구분이 안되고 특허의 목적 및 내용이 불분명한 듯 합니다. 구조를 새로 잡아볼 필요가 있어 보입니다.

HO) brain storming 단계에서는 모든 아이디어를 일단 늘어놓고, 다름 사람 생각에 살을 붙여가고 (1단계), 정리단계에선 이를 한줄로 꿰어 스토리를 만들어서 정리하고 (2단계), 정리된 내용으로부터 핵심 클레임을 도출하고 (3단계). >> 제 욕심은 1-2단계가 한 두번의 iteration으로 돌고나서 (후순서에 있는 사람이 살을 붙이면서 이전 작성 내용을 흐름에 맞게 sorting하는 식으로) 결정이 되고, 3단계는 한번의 미팅 등을 통해서 부러트리는 것인데, 현재는 한바퀴 돈 이후 1단계도 아직 미진한 것 같음.

(1단계에서는 “~~은 어떨지?“식의 허공을 향한 외침보다는 “어떨지”에 해당하는 내용을 최대한 쏟아내서 적어두기. 질문형 코멘트는 모르는 내용을 다른 사람에게 질문하거나, “~~게 있으면 좋겠는데, 나는 아이디어가 없네~”일 때 특정인 혹은 불특정 상대에게 토스할 때 쓰기.)

현재에서 S2I Sol #1, #2 및 variation 에 해당하는 특징들만 남기고, external, 이동고려 등은 추가 확장을 위해 다음 발명으로 넘길까 함.

남기는 특징들이 아직 킬러샷이 없는 느낌인데, 우선 QC팀 실험을 통해 best 를 찾아보았으면 함.

Convention:

가급적 서식 안쓴 plain text로 작성하기 (들여쓰기도 안쓰는게 좋을 듯: 그림 삽입 시 불편) 번호붙이기나, 불릿포인트 등이 있을 때, HLT export할 때 불편함.)

이상에서는 본 발명을 구체적인 실시예를 통하여 설명하였으나, 당업자라면 본 발명의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있다. 즉, 본 발명은 오디오 신호에 대한 바이노럴 렌더링의 실시예에 대하여 설명하였지만, 본 발명은 오디오 신호뿐만 아니라 비디오 신호를 포함하는 다양한 멀티미디어 신호에도 동일하게 적용 및 확장 가능하다. 따라서 본 발명의 상세한 설명 및 실시예로부터 본 발명이 속하는 기술분야에 속한 사람이 용이하게 유추할 수 있는 것은 본 발명의 권리범위에 속하는 것으로 해석된다.

标题	发布/更新时间	阅读量
音频信号处理装置	2020-08-01	0
音频校验方法、装置、存储介质及电子设备	2020-07-11	2
一种音频通信设备	2020-08-28	1
一种媒体编解码协商方法及终端设备	2021-02-10	1
多分辨率切换音频编码/解码方案	2023-06-21	1
听力仪器	2021-10-07	0
一种风廓线雷达大气温度探测系统及方法	2023-04-08	1
一种减震机构及移动多媒体广播装置	2022-07-10	1
一种蓝牙智能手环	2023-03-20	0
电梯交互式数字对讲装置	2020-11-10	1

오디오 신호 처리 방법 및 장치

오디오 신호 처리 방법 및 장치{A METHOD AND AN APPARATUS FOR PROCESSING AN AUDIO SIGNAL}

该功能需要专业版企业版VIP权限，您可以：