興味区間抽出装置、興味区間抽出方法

申请号 JP2012551746 申请日 2011-10-28 公开(公告)号 JP5658285B2 公开(公告)日 2015-01-21
申请人 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America; パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America; 发明人 小沼 知浩; 知浩 小沼; 亮一 川西; 亮一 川西; 上野山 努; 上野山  努;
摘要
权利要求
  • 動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出装置であって、
    基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを予め蓄積しているアンカーモデル蓄積手段と、
    前記指定時刻を取得する指定時刻取得手段と、
    オーディオ信号の単位区間毎に、前記オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を前記アンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成手段と、
    前記尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、前記指定時刻を含む前記候補区間の全部または一部を興味区間として抽出する興味区間抽出手段とを備える ことを特徴とする興味区間抽出装置。
  • 前記単位区間を第1単位区間として、当該第1単位区間のN倍(Nは2以上の自然数)の長さの第2単位区間のオーディオ信号から生成されたN個の尤度ベクトルから頻度ベクトルを生成する頻度ベクトル生成手段を備え、
    前記候補区間は、前記頻度ベクトルに基づいて算出される ことを特徴とする請求項1記載の興味区間抽出装置。
  • 前記頻度ベクトルの各成分を複数の成分群に分類する成分分類手段と、
    複数の前記成分群それぞれに基づいて複数の特徴区間を算出する特徴区間算出手段とを備え、
    前記候補区間は、複数の前記特徴区間により定まる ことを特徴とする請求項2記載の興味区間抽出装置。
  • 前記成分分類手段は、オーディオ信号の全区間の尤度ベクトルから重心ベクトルを生成し当該重心ベクトルの各成分の大きさに基づいて、前記頻度ベクトルの各成分を第1成分群と第2成分群とに分類し、
    前記特徴区間算出手段は、前記重心ベクトルにおける前記第1成分群に属する各成分に基づいて第1特徴区間を算出し、前記重心ベクトルにおける前記第2成分群に属する各成分に基づいて第2特徴区間を算出し、
    前記候補区間は、前記第1特徴区間および前記第2特徴区間により定まる ことを特徴とする請求項3記載の興味区間抽出装置。
  • 前記興味区間は、前記第1特徴区間に含まれ且つ前記第2特徴区間を包含する区間である ことを特徴とする請求項4記載の興味区間抽出装置。
  • ユーザが予め設定した興味区間の長さを取得する興味区間長取得手段と、
    前記指定時刻から前記第2単位区間ずつ時刻をずらしながら前記第2特徴区間に含まれる特徴時刻を検索して抽出する特徴時刻抽出手段を備え、
    前記興味区間抽出手段は、前記指定時刻から前記特徴時刻抽出手段が抽出した前記特徴時刻に向かって前記第2単位区間ずつ時刻をずらしながら、対象時刻が前記第1特徴区間に属し且つ当該対象時刻と前記指定時刻との間の長さが予め設定された興味区間の長さよりも短いか否かを判断し、対象時刻が前記第1特徴区間に属し且つ当該対象時刻と前記指定時刻との間の長さが予め設定された興味区間の長さよりも短いと判断すると前記対象時刻を含む第2単位区間を興味区間とする ことを特徴とする請求項5記載の興味区間抽出装置。
  • 前記動画ファイルは、1つのコンテンツを表す動画に対応する ことを特徴とする請求項6記載の興味区間抽出装置。
  • 前記興味区間抽出手段は、複数の前記指定時刻に対応する複数の前記興味区間を前記指定時刻の順に整列して外部記憶装置に記憶する ことを特徴とする請求項7記載の興味区間抽出装置。
  • 前記指定時刻取得手段は、動画ファイルに含まれ且つユーザの指定した区間に対応する画像データそれぞれの特徴量の時間変化に基づいて、当該ユーザの指定した区間の中から自動的に前記指定時刻を取得する ことを特徴とする請求項8記載の興味区間抽出装置。
  • 動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出方法であって、
    基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを蓄積するアンカーモデル蓄積ステップと、
    前記指定時刻を取得する指定時刻取得ステップと、
    オーディオ信号の単位区間毎に、前記オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を前記アンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成ステップと、
    前記尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、前記指定時刻を含む前記候補区間の全部または一部を興味区間として抽出する興味区間抽出ステップとを含む ことを特徴とする興味区間抽出方法。
  • コンピュータにより動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出処理を実現させるためのプログラムであって、前記興味区間抽出処理は、
    基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを蓄積するアンカーモデル蓄積ステップと、
    前記指定時刻を取得する指定時刻取得ステップと、
    オーディオ信号の単位区間毎に、前記オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を前記アンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成ステップと、
    前記尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、前記指定時刻を含む前記候補区間の全部または一部を興味区間として抽出する興味区間抽出ステップとを含む ことを特徴とする興味区間抽出プログラム。
  • 動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出用集積回路であって、
    基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを予め蓄積しているアンカーモデル蓄積部と、
    前記指定時刻を取得する指定時刻取得部と、
    オーディオ信号の単位区間毎に、前記オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を前記アンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成部と、
    前記尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、前記指定時刻を含む前記候補区間の全部または一部を興味区間として抽出する興味区間抽出部とを備える ことを特徴とする興味区間抽出用集積回路。
  • 说明书全文

    本発明は、AVコンテンツからユーザの興味の対象となる興味区間を抽出する技術であって、殊に、オーディオ信号を用いる技術に関する。

    デジタルカメラ等の動画撮影機器において、ユーザが撮影したAVコンテンツから不要な区間を取り除いて興味がある区間(以下、興味区間と称す。)だけを抽出することができる機能が求められている。

    これに対して、従来から、ユーザがAVコンテンツの内容を視聴しながら、興味区間の開始時刻が来ると、コントローラを操作(例えば、コントローラの入釦を押下する操作)して興味区間の開始時刻を決め、その後、興味区間の終了時刻が来ると、再度、コントローラを操作して興味区間の終了時刻を決めることにより、興味区間を抽出することができる動画撮影機器がある。

    ところが、この動画撮影機器では、適切な興味区間を抽出しようとすると、AVコンテンツの内容を視聴しながらタイミング良くコントローラを操作する必要があり、AVコンテンツの内容を視聴ながらコントローラを操作する作業にある程度の熟練が必要であった。 そして、興味区間の開始時刻と終了時刻を適切に決めることができない場合には、再度、AVコンテンツの内容を視聴しながらコントローラを操作する作業を繰り返すこととなり、興味区間の抽出に手間がかかることが多かった。

    そこで、従来、ユーザが指定した時刻に対して、ユーザが予めコンテンツの内容に応じて設定したオフセット時間を加えた時刻をイン点およびアウト点とする機能を備えた動画編集装置が提案されている(特許文献1参照)。 この動画編集装置であれば、例えば、イン点の時刻をユーザが指定した時刻よりもオフセット時間だけ繰り上げるように設定しておけば、ユーザがイン点を指定するタイミングが遅れてしまっても、所望のイン点を指定することができ、適切な興味区間を抽出することができる。

    また、従来から、予め興味区間の開始時刻(イン点)における音響特徴条件と終了時刻(アウト点)における音響特徴条件とを設定しておき、これらの音響特徴条件からイン点とアウト点とを決定することにより興味区間を抽出する方法が提案されている(特許文献2参照)。

    特開2001−057660号公報

    特開平3−080782号公報

    しかしながら、特許文献1に記載された方法では、適切なオフセット時間がAVコンテンツの内容に応じて異なる長さに設定する必要があることが一般的であり、例えば、複数種類のAVコンテンツそれぞれから興味区間を抽出してダイジェストを作成したい場合には、各AVコンテンツ毎にオフセット時間を設定してから興味区間を抽出する必要がある。 この複数種類のAVコンテンツそれぞれから興味区間を抽出したい場合、各AVコンテンツ毎に別々のオフセット時間を設定する作業がユーザにとって非常に手間がかかるものであった。

    また、特許文献2に記載された方法では、AVコンテンツの内容に応じてイン点とアウト点における音響特徴条件を設定する必要があるので、複数種類のAVコンテンツから興味区間を抽出したい場合には、AVコンテンツそれぞれについてイン点およびアウト点における音響特徴条件を設定する必要がある。 従って、複数種類のAVコンテンツそれぞれについて音響特徴条件を設定して興味区間を抽出する場合、この設定作業がユーザにとって大きな負担となることがあった。

    本発明は、上記事由に鑑みてなされたものであり、AVコンテンツから興味区間を抽出する際のユーザの作業負担の低減を図ることを目的とする。

    本発明に係る興味区間抽出装置は、動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出装置であって、基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを予め蓄積しているアンカーモデル蓄積手段と、指定時刻を取得する指定時刻取得手段と、オーディオ信号の単位区間毎に、オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度をアンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成手段と、尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、指定時刻を含む候補区間の全部または一部を興味区間として抽出する興味区間抽出手段とを備える。

    本構成によれば、AVコンテンツから興味区間を抽出する際に、指定時刻を指定するだけで適切な興味区間が抽出されるので、興味区間を抽出する際のユーザの作業負担の低減を図ることができる。

    また、本発明に係る興味区間抽出装置は、単位区間を第1単位区間として、当該第1単位区間のN倍(Nは2以上の自然数)の長さの第2単位区間のオーディオ信号から生成されたN個の尤度ベクトルから頻度ベクトルを生成する頻度ベクトル生成手段を備え、候補区間は、頻度ベクトルに基づいて算出されるものであってもよい。

    また、本発明に係る興味区間抽出装置は、頻度ベクトルの各成分を複数の成分群に分類する成分分類手段と、複数の成分群それぞれに基づいて複数の特徴区間を算出する特徴区間算出手段とを備え、候補区間は、複数の特徴区間により定まるものであってもよい。

    本構成によれば、AVコンテンツ全体における各サウンド素片の出現頻度を表す、オーディオ信号の全区間から生成される尤度ベクトルの重心ベクトルの各成分に基づいて複数の成分群に分類し、複数の成分群それぞれに基づいて算出された特徴区間により候補区間を定めることにより、音環境の性質の違いで成分を分類すれば、音環境が同質の成分に基づいて算出された特徴区間から候補区間を決めることができるので、音環境の性質を特徴区間に反映させることができるようになる。

    また、本発明に係る興味区間抽出装置は、成分分類手段が、オーディオ信号の全区間の尤度ベクトルから重心ベクトルを生成し当該重心ベクトルの各成分の大きさに基づいて、頻度ベクトルの各成分を第1成分群と第2成分群とに分類し、特徴区間算出手段が、重心ベクトルにおける第1成分群に属する各成分に基づいて第1特徴区間を算出し、重心ベクトルにおける第2成分群に属する各成分に基づいて第2特徴区間を算出し、候補区間が、第1特徴区間および第2特徴区間により定まるものであってもよい。

    本構成によれば、特徴区間算出手段が、重心ベクトルのうち所定量以上の大きさの成分に対応するアンカーモデルに対応する重心ベクトルの成分を第1成分群とし、重心ベクトルのうち所定量未満の大きさの成分に対応するアンカーモデルに対応する重心ベクトルの成分を第2成分群とし、第1成分群に基づいて第1特徴区間を算出し、第2成分群に基づいて第2特徴区間を算出する構成とすることにより、第1成分群に属する各成分に基づいて安定的な性質の音環境の継続期間である第1特徴区間と、第2成分群に属する各成分に基づいて突発的な性質の音環境の継続期間である第2特徴区間とを算出することができるので、安定的な性質の音環境と突発的な性質の音環境とを含む興味区間を抽出することができる。

    また、本発明に係る興味区間抽出装置は、興味区間が、第1特徴区間に含まれ且つ第2特徴区間を包含する区間であってもよい。

    本構成によれば、興味区間が、第1特徴区間に含まれ且つ第2特徴区間を包含する区間であることにより、突発的な音環境を含む興味区間を正確に抽出することができるので、安定的な音環境と突発的な音環境とを含む興味区間を正確に抽出することができる。

    また、本発明に係る興味区間抽出装置は、ユーザが予め設定した興味区間の長さを取得する興味区間長取得手段と、指定時刻から第2単位区間ずつ時刻をずらしながら第2特徴区間に含まれる特徴時刻を検索して抽出する特徴時刻抽出手段を備え、興味区間抽出手段は、指定時刻から特徴時刻抽出手段が抽出した特徴時刻に向かって第2単位区間ずつ時刻をずらしながら、対象時刻が第1特徴区間に属し且つ当該対象時刻と指定時刻との間の長さが予め設定された興味区間の長さよりも短いか否かを判断し、対象時刻が第1特徴区間に属し且つ当該対象時刻と指定時刻との間の長さが予め設定された興味区間の長さよりも短いと判断すると対象時刻を含む第2単位区間を興味区間とするものであってもよい。

    本構成によれば、第1特徴区間の長さがユーザが予め設定した興味区間の長さよりも短い場合に、興味区間抽出手段の処理負荷を軽減することができる。

    また、本発明に係る興味区間抽出装置は、動画ファイルが、1つのコンテンツを表す動画に対応するものであってもよい。

    本構成によれば、動画ファイルが、1つのコンテンツを表す動画に対応するものであることにより、1つのコンテンツ全体から第1特徴区間および第2特徴区間を抽出することができるので、コンテンツに対するユーザの興味区間をより正確に抽出することができる。

    また、本発明に係る興味区間抽出装置は、興味区間抽出手段が、複数の指定時刻に対応する複数の興味区間を示す興味区間データを指定時刻の順に整列して外部記憶装置に記憶するものであってもよい。

    本構成によれば、興味区間の動画が指定時刻の順に現れるダイジェスト動画を作成する場合、外部記憶装置から興味区間データを取得するときの興味区間データと時刻情報との対応付け処理を行う必要がなくなるので、ダイジェスト動画作成処理の負担を軽減することができる。

    また、本発明に係る興味区間抽出装置は、指定時刻取得手段が、動画ファイルに含まれ且つユーザの指定した区間に対応する画像データそれぞれの特徴量の時間変化に基づいて、当該ユーザの指定した区間の中から自動的に指定時刻を取得するものであってもよい。

    本構成によれば、ユーザが指定時刻としたい時刻を含む区間を大まかに指定するだけで、指定時刻取得手段が、当該ユーザの指定した区間の仲から自動的に指定時刻を取得するので、ユーザの指定時刻を指定する際の負担を軽減することができる。

    また、本発明は、動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出方法であって、基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを予め蓄積しているアンカーモデル蓄積ステップと、指定時刻を取得する指定時刻取得ステップと、オーディオ信号の単位区間毎に、オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度をアンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成ステップと、尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、指定時刻を含む候補区間の全部または一部を興味区間として抽出する興味区間抽出ステップとを含む興味区間抽出方法であってもよい。

    本構成によれば、ユーザが指定時刻を指定するだけで容易に興味区間を抽出することができる。

    また、本発明は、コンピュータにより動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出処理を実現させるためのプログラムであって、興味区間抽出処理は、基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを予め蓄積しているアンカーモデル蓄積ステップと、指定時刻を取得する指定時刻取得ステップと、オーディオ信号の単位区間毎に、オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度をアンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成ステップと、尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、指定時刻を含む候補区間の全部または一部を興味区間として抽出する興味区間抽出ステップとを含む興味区間抽出プログラムであってもよい。

    本構成によれば、ユーザが指定時刻を指定するだけで容易に興味区間を抽出することができる。

    また、本発明は、動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出用集積回路であって、基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを予め蓄積しているアンカーモデル蓄積部と、指定時刻を取得する指定時刻取得部と、オーディオ信号の単位区間毎に、オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度をアンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成部と、尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、指定時刻を含む候補区間の全部または一部を興味区間として抽出する興味区間抽出部とを備える興味区間抽出用集積回路であってもよい。

    本構成によれば、搭載する装置の小型化を図ることができる。

    実施の形態に係る興味区間抽出装置を搭載した映像編集装置の概要を説明する図である。

    実施の形態に係る特徴量ベクトルの算出方法の説明図である。

    実施の形態に係る特徴量ベクトルの例を示す図である。

    実施の形態に係るアンカーモデルの例を示す図である。

    実施の形態に係る尤度ベクトルの例を示す図である。

    実施の形態に係る興味区間抽出装置を搭載した映像編集装置の構成図である。

    実施の形態に係る興味区間抽出装置の機能ブロック図である。

    実施の形態に係る成分分類部の動作説明図である。

    実施の形態に係る第1単位区間と第2単位区間との関係を示した図である。

    実施の形態に係る低頻度ベクトルと高頻度ベクトルを示した図である。

    実施の形態に係る基準ベクトル・閾値生成部が基準ベクトルを生成するときの動作説明図である。

    実施の形態に係る基準ベクトル・閾値生成部が閾値を算出するときの動作説明図である。

    実施の形態に係る特徴点抽出部の動作説明図である。

    実施の形態に係る特徴区間に含まれる高頻度ベクトルを説明するための図である。

    実施の形態に係る興味区間抽出部の動作説明図である。

    実施の形態に係る興味区間、第1特徴区間および第2特徴区間の関係を説明するための図である。

    実施の形態に係る興味区間、第1特徴区間および第2特徴区間の関係を説明するための図である。

    実施の形態に係るアンカーモデル作成装置の機能ブロック図である。

    <実施の形態>
    <1>概要 本実施の形態に係る興味区間抽出装置は、動画ファイルに含まれるオーディオ信号の第1単位区間(10msec)毎に複数種類のアンカーモデルArそれぞれを用いてオーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を成分とする尤度ベクトルを生成し、尤度ベクトルの各成分を2つの成分群に分類し、各成分群に属する成分に基づいて第1特徴区間(候補区間)および第2特徴区間の終了時刻を算出する。

    例えば、図1に示すように、動画ファイルが、運動会のシーンを撮影したものとする。 そして、ユーザが、この動画ファイルの中から徒競走のスタート時刻前後の所定の長さの時間内のシーンだけを切り出す編集をしたいとする。 この場合、ユーザは徒競争のシーンの中におけるスタート時刻付近の時刻を指定すると、まず、徒競争のシーン全体に相当する第1特徴区間の中から指定時刻を含む一部の区間を興味区間として抽出する。

    また、本実施の形態に係る興味区間抽出装置では、興味区間として抽出しようとする区間内に徒競争のスタートを告げる発砲シーン(図1の第2特徴区間)を含んだ形で興味区間を抽出することができる。 なお、本実施の形態では、第1単位区間の100倍の第2単位区間(1sec)を最小単位として興味区間を抽出する。 また、本実施の形態では、発砲シーン等の突発的な音環境の継続時間を適宜設定して、第2特徴区間の終了時刻(特徴点Tk)だけを求め当該終了時刻から当該継続時間だけ遡った時刻を第2特徴区間の開始時刻とみなして処理を行う。
    <2>データ 本実施の形態に係る興味区間抽出装置で使用するデータについて説明する。
    <2−1>動画ファイル 動画ファイルは、オーディオ信号と複数の画像データとから構成されている。 そして、オーディオ信号は、図2(a)に示すような波形を有する。 なお、オーディオ信号は、振幅値の時系列である<2−2>特徴量ベクトル 以下、オーディオ信号から特徴量ベクトルMを生成するまでの概要を述べる。

    まず、図2(a)に示すように、音声抽出装置102が抽出したオーディオ信号の第1単位区間(時刻T から時刻T n+1の間の区間,10msec)毎にパワースペクトラムS(ω)を算出する(図2(b)参照)。

    その後、パワースペクトラムS(ω)の横軸を実周波数ωからメル周波数ω melに変換する(図2(c)参照)。

    そして、横軸がメル周波数ω melに変換されたパワースペクトラムS(ω mel )から、第1単位区間内における26個のメル周波数ケプストラム係数MFCC(Mel−Frequency Cepstrum Coefficients)からなるベクトル(以下、特徴量ベクトルと称す。)を算出する。

    この特徴量ベクトルMは、図3に示すように第1単位区間毎(10msec毎)に算出される。 従って、時刻0secから時刻1secまでの間のオーディオ信号から100個の特徴量ベクトルMが生成されることになる。
    <2−3>アンカーモデル 本実施の形態に係るアンカーモデルは、尤度を算出する際に基準となる1024種類のサウンド素片それぞれの特徴を表現するものであり、サウンド素片ごとに作成されている。 そして、各アンカーモデルを規定するパラメータから構成される。

    本実施の形態では、GMM(Gaussian Mixture Model)を採用して、アンカーモデルArを作成する。

    各アンカーモデルArは、図4に示すように、第1単位区間における1024種類のサウンド素片それぞれに対応する特徴量出現確率関数b Ar (M)により構成される。 ここで、特徴量出現確率関数b Arは、アンカーモデルArごとに存在する確率関数であり、この特徴量出現確率関数b Ar (M)を用いることによって、MFCC26次のベクトル(特徴量ベクトル)Mを引数として尤度が算出される。 なお、どのアンカーモデルがどのサウンド素片に対応するかは区別していない。
    <2−4>尤度ベクトル 尤度ベクトルFは、複数のサウンド素片それぞれに対応するアンカーモデルAr(r=1,2,・・・,1024)を用いて、オーディオ信号の特徴量を表現する特徴量ベクトルMに対して算出された尤度Lrを成分とする。 従って、尤度ベクトルは、1024次元のベクトルで表現される。 この特徴量ベクトルMは、前述<2−3>のように、音声抽出装置102が抽出したオーディオ信号の第1単位区間毎に生成されるものである。

    図5に1024種類のサウンド素片それぞれのアンカーモデルArを用いて算出された尤度ベクトルFn,Fm(n<m)を示す。 ここにおいて、図5の縦軸が尤度であり、横軸がアンカーモデルArの種類を示している。 尤度ベクトルFn,Fmは、時刻0からn番目の第1単位区間(即ち、時刻(10×n)msecから時刻(10×(n+1))msecの間の区間)に対応する尤度ベクトルおよびm番目の第1単位区間(即ち、時刻(10×m)msecから時刻(10×(m+1))msecの間の区間)における尤度ベクトルFmを示している(図2(a)参照)。 この尤度ベクトルFは、図5に示すように、対象とするオーディオ信号の時間変化に応じて変化することになる。
    <3>構成 本実施の形態に係る興味区間抽出装置104を搭載した映像編集装置100を図6に示す。
    <3−1>全体構成 映像編集装置100は、図6に示すように、入力装置101と、コンテンツ記憶装置103と、音声抽出装置102と、興味区間抽出装置104と、興味区間記憶装置105と、出力装置106と、アンカーモデル作成装置108と、音声データ記憶装置130と、インターフェース装置109とを備える。

    入力装置101は、ディスクドライブ装置等で構成され、記録媒体110が装着されると、記録媒体110から動画ファイルを読み込んで、コンテンツ記憶装置103に格納する。

    コンテンツ記憶装置103は、ハードディスク装置等で構成され、入力装置101が記録媒体110から取得した動画ファイルを格納している。

    音声抽出装置102は、コンテンツ記憶装置103から動画ファイルを取得し、取得した動画ファイルからオーディオ信号を抽出して興味区間抽出装置104に入力する。 ここにおいて、音声抽出装置102は、符号化されているオーティオ信号に対して復号処理を行うことで、図2(a)に示すようなオーディオ信号を生成する。

    出力装置106は、表示装置120に映像を表示する。 ここにおいて、出力装置106は、興味区間記憶装置105から興味区間データを取得し、取得した興味区間データに基づいてコンテンツ記憶装置103から動画ファイルの一部を構成する複数の画像データを選出する。 つまり、興味区間データから定まる時刻を示す時刻データに対応付けがなされた複数の画像データを選出する。 また、出力装置106は、各興味区間に対応する指定時刻が早い順に動画をつなぎあわせたダイジェスト動画を外部の表示装置120に表示させる。

    音声データ記憶装置130は、ハードディスク装置等で構成され、アンカーモデル作成装置108が複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルArを作成する際に用いる音声データを記憶している。 この音声データは、興味区間を抽出する対象となる動画ファイルとは別に、予め複数の動画ファイルから抽出して復号処理を行って得られたオーディオ信号から構成されている。

    インターフェース装置109は、キーボード等の操作部(図示せず)を備え、ユーザからの入力操作を受け付けて、入力された情報を興味区間抽出装置104やアンカーモデル作成装置108に通知する機能を有する。 ユーザは、このインターフェース装置109を介して指定時刻や興味区間の長さに関する情報を興味区間抽出装置104に入力することになる。
    <3−2>興味区間抽出装置 興味区間抽出装置104は、メモリ(図示せず)とプロセッサ(図示せず)とから構成され、プロセッサがメモリに読み込まれたプログラムを実行することにより、図7に示す各構成を実現している。 以下、各構成について詳述する。
    <3−2−1>特徴量ベクトル生成部 特徴量ベクトル生成部201は、入力されるオーディオ信号から特徴量ベクトルを生成する。 この特徴量ベクトル生成部201は、まず、音声抽出装置102から入力されるオーディオ信号に対して第1単位区間毎に音響分析を行い、パワースペクトラムS(ω)を算出する。 特徴量ベクトル生成部201は、算出したパワースペクトラムS(ω)から特徴量ベクトルM(M(1),M(2),・・・,M(26))を生成する。 特徴量ベクトル生成部201は、100個の特徴量ベクトルMを生成することになる(図3参照)。
    <3−2−2>尤度ベクトル生成部 尤度ベクトル生成部202は、各サウンド素片のアンカーモデルArを用いて特徴量ベクトルMに対する尤度Lrを算出し、算出した尤度Lrを各成分とする尤度ベクトルFを生成する。 尤度ベクトル生成部202は、アンカーモデルArを構成する各パラメータをアンカーモデル蓄積部107から取得する。
    <3−2−3>尤度ベクトルバッファ 尤度ベクトルバッファ203は、メモリの一部の領域により構成され、尤度ベクトル生成部202で生成された尤度ベクトルFを記憶する。
    <3−2−4>成分分類部 成分分類部205は、[数1]の関係式に従って、尤度ベクトルバッファ203からオーディオ信号の全区間から生成された全ての尤度ベクトルFを読み出し、これらの尤度ベクトルFの総和の各成分を全区間に含まれる第1単位区間の数で割ったもの(重心ベクトルG)を算出する。

    ここにおいて、第1単位区間が10msecであるから、全区間の長さが1時間(3600sec)に設定されていれば、T=360000となる。 また、各尤度ベクトルFは、1024種類のアンカーモデルArを用いて算出されるので、R=1024となる。

    ところで、この重心ベクトルGの各成分は、オーディオ信号の全区間に含まれる各第1単位区間における各アンカーモデルArの尤度Lrの平均値(正規化累積尤度とも言う。)である。 つまり、オーディオ信号の全区間における各アンカーモデルArが示すサウンド素片の出現頻度を表していることになる。 従って、重心ベクトルGの成分が大きいほど当該成分に対応するアンカーモデルArが示すサウンド素片の出現頻度が高いことになる。 なお、本実施の形態では、サウンド素片の出現頻度を正規化累積尤度で表現する例について説明しているが、この出現頻度の表現としてはこれに限られるものではない。

    そして、成分分類部205は、算出した重心ベクトルGの各成分を昇順に並べる。 このとき、アンカーモデルArの種類の総数の1/4に相当する順位よりも高い順位の成分、即ち、順位が256位以上の成分を出現頻度の高いアンカーモデルAr(高頻度群)、その他の成分を出現頻度の低いアンカーモデルAr(低頻度群)として分類する。 この成分分類部205の処理の様子を図8に示す。 図8のヒストグラム(a)および(b)では、縦軸に重心ベクトルGの各成分の大きさ、横軸に重心ベクトルGの各成分Grおよび各成分Grそれぞれに対応するアンカーモデルArを示す。
    <3−2−5>頻度ベクトル生成部 頻度ベクトル生成部206は、頻度ベクトルNFを生成するときに用いる区間を第2単位区間ずつ(1secずつ)ずらしながら頻度ベクトルNFを生成していく。 この第2単位区間は、図9に示すように、複数個の第1単位区間の集合に相当する。 この頻度ベクトルNFの各成分は、第2単位区間に含まれる尤度ベクトルFの各成分の正規化累積尤度に相当する。 この頻度ベクトルNFの一例を図10上段に示す。

    この頻度ベクトル生成部206は、後述の興味区間抽出部209から後述の頻度ベクトル作成終了指示が通知されると頻度ベクトルNFの生成を終了し、一方、頻度ベクトル作成開始指示が通知されると頻度ベクトルNFの生成を開始する。

    そして、頻度ベクトル生成部206は、成分分類部205により分類された結果に基づいて、出現頻度の高いアンカーモデルAr(高頻度群)に属する成分と出現頻度の低いアンカーモデルAr(低頻度群)に属する成分とを頻度ベクトルNFから抽出し、高頻度群に対応する成分からなる高頻度ベクトルNFhと低頻度群に対応する成分からなる低頻度ベクトルNFlとを生成する。 ここにおいて、頻度ベクトル生成部206は、成分分類部205から入力される各アンカーモデルArの属性情報(即ち、各アンカーモデルArが低頻度群と高頻度群のいずれに属するかを示す情報)とを用いて高頻度ベクトルNFhと低頻度ベクトルNFlとを生成する。
    <3−2−6>頻度ベクトルバッファ 頻度ベクトルバッファ207は、メモリの一部の領域により構成され、頻度ベクトル生成部206が生成した低頻度ベクトルNFlと高頻度ベクトルNFhを記憶する。

    頻度ベクトルバッファ207に記憶されている低頻度ベクトルNFlと高頻度ベクトルNFhの各成分を折れ線グラフで示したものを図10下段に示す。
    <3−2−7>基準ベクトル・閾値生成部 基準ベクトル・閾値生成部204は、頻度ベクトルバッファ203から指定時刻に対応する高頻度ベクトルNFhを含む複数の第2単位区間に含まれる高頻度ベクトルNFhを取得して基準ベクトルNFh0を算出する。 図11の例では、基準ベクトルNFh0が、指定時刻に対応する第2単位区間の前後4個の第2単位区間(合計で9個の第2単位区間)内に含まれる9個の高頻度ベクトルNFhの総和を、第2単位区間の数(9個)で割って得られる。

    そして、基準ベクトル・閾値生成部204は、更に、基準ベクトルNFh0を生成する際に用いた複数の高頻度ベクトルNFhと基準ベクトルNFh0との間のユークリッド距離を算出し、基準ベクトルNFh0との間の距離が最も遠い高頻度ベクトルNFhと基準ベクトルNFh0との間のユークリッド距離を第1特徴区間に属するか否かの判断に用いる閾値Rthとして設定する。 この様子を高頻度ベクトル空間の概念を用いて説明したものを図12に示す。

    その後、基準ベクトル・閾値生成部204は、生成した基準ベクトルNF0および閾値Rthを興味区間抽出部209に入力する。
    <3−2−8>指定時刻取得部 指定時刻取得部210は、インターフェース装置109から指定時刻に関する情報を取得し、基準ベクトル・閾値生成部204、特徴点抽出部208および興味区間抽出部209に入力する。
    <3−2−9>特徴点抽出部 特徴点抽出部208は、指定時刻T0から1sec刻みで時刻を遡りながら低頻度ベクトルNFl(T),NFl(T−1)の差分Δ(NFl(T)−NFl(T−1))のノルムを算出していく。

    そして、特徴点抽出部208は、差分Δ(NFl(T)−NFl(T−1))のノルムが閾値Thを超える時刻のうち最も指定時刻T0に近い時刻を算出して当該時刻を特徴点(特徴時刻)とする。 つまり、特徴点抽出部208は、指定時刻T0から第2単位区間ずつ時刻を過去にずらしながら第2特徴区間の終了時刻である特徴点Tkを検索し、当該特徴点Tkを抽出することになる。

    低頻度ベクトルNFl(T)の差分Δ(NFl(T)−NFl(T−1))のノルムの例を図13に示す。 図13では、時刻Tkで|Δ(NFl(T)−NFl(T−1))|が閾値Thを超えるので、時刻Tkを特徴点とする。

    このようにして、特徴点抽出部208は、指定時刻取得部210から入力される指定時刻の情報と頻度ベクトルバッファ207に記憶されている低頻度ベクトルを用いて第2特徴区間の終了時刻である特徴点Tkを抽出する(図1参照)。 この指定時刻の情報は、動画ファイルの開始時刻からの経過時間で示される。
    <3−2−10>興味区間抽出部 興味区間抽出部209では、指定時刻取得部210から入力される指定時刻に関する情報と、高頻度ベクトルNFhとに基づいて第1特徴区間(候補区間)を抽出する。

    興味区間抽出部209は、まず、指定時刻(図14(a)の時刻T0)を含む第2単位区間を特定する。 そして、興味区間抽出部209は、基準ベクトル・閾値生成部204から入力される基準ベクトルNFhcと他の時刻の高頻度ベクトルNFhとのユークリッド距離を算出していく。 ここにおいて、高頻度ベクトルNFhと基準ベクトルNFhcとの間のユークリッド距離が基準ベクトル・閾値生成部204から入力される閾値Rthを超える2つの時刻TL1,TL2の間の区間が、第1特徴区間に相当することになる(図14(a))。 高頻度ベクトルNFh空間における閾値と、ユークリッド距離との関係を図13(b)に示す。 第1特徴区間内の高頻度ベクトルNFhは、図14(b)に示す高頻度ベクトル空間における基準ベクトルNFhcを中心とした半径Rthの球の内側に存在することになる。

    ここにおいて、興味区間抽出部209は、図15に示すように、指定時刻T0から時刻を遡りながら(つまり、指定時刻T0から特徴点抽出部208が抽出した特徴点Tkに向かって第2単位区間ずつ時刻をずらしながら)、対象時刻における高頻度ベクトルNFhと基準ベクトルNFhcとの間のユークリッド距離を算出し、算出したユークリッド距離が閾値Rthを超えるか否か(つまり、対象時刻を含む第2単位区間が第1特徴区間に含まれるか否か)を判定していく。

    ここにおいて、興味区間抽出部209は、算出したユークリッド距離が閾値(Rth)を超えると、頻度ベクトル生成部206に対して頻度ベクトル作成終了指示を通知する。

    また、興味区間抽出部209は、同時に当該対象時刻と指定時刻T0との間の長さが予め設定された興味区間の長さleよりも短いか否かも判断する。 そして、ユークリッド距離が閾値Rthを超えず(第1特徴区間に含まれる)且つ対象時刻と指定時刻T0との間の長さが予め設定された興味区間の長さleよりも短い(つまり、興味区間の条件を具備している)と判断すると対象時刻を含む第2単位区間が興味区間となる。

    そして、興味区間抽出部209は、対象時刻が特徴点Tkに一致すると、対象時刻と指定時刻T0との間の長さが、予め設定された興味区間の長さleよりも短いか否かを判断し、短いと判断すると今度は、時刻T0から第2単位区間ずつ時刻を進みながら対象時刻における高頻度ベクトルNFhと基準ベクトルNFhcとの間のユークリッド距離を順に算出し、前述と同様の判断を行っていく。

    このとき、興味区間抽出部209は、頻度ベクトル生成部206に対して頻度ベクトル作成開始指示を通知する。

    そして、興味区間抽出部209は、算出したユークリッド距離が所定の閾値Rthを超えるか或いは興味区間として特定した区間の全長が予め設定された興味区間の長さleを超えたところで、処理を終了し、頻度ベクトル生成部206に対して頻度ベクトル作成終了指示を通知する。 このとき、第1特徴区間の中から特徴点Tkを含む長さleの区間を興味区間として抽出される(図16参照)。

    この興味区間の長さleは、予め簡易編集アプリケーションによるユーザ評価によって決めておく(例えば、ユーザ評価により60secと決めておく。)。 そして、特徴点Tkが、指定時刻T0から60sec以上離れている場合には、図17(a)に示すように特徴点Tkを含まない60secの長さの期間を興味区間として抽出する。 これは、例えば、指定時刻T0が1000secであり、特徴点Tkが900secであり、興味区間の長さleが50secの場合である。 この場合、特徴点Tkから指定時刻T0までの時間100secよりも興味区間の長さleが短い。

    一方、指定時刻T0と時刻TL1との間の長さが、指定区間le以下である場合には、図17(b)に示すように時刻TL1から指定区間leだけ後の時刻までの区間を興味区間として抽出する。 これは、例えば、指定時刻が1000secであり、時刻TL1が950secであり、興味区間の長さleが60secの場合である。 この場合、時刻TL1から指定時刻T0までの時間50secよりも興味区間の長さleが長い。
    <3−2−10>アンカーモデル蓄積部 アンカーモデル蓄積部107は、メモリの一部により構成され、アンカーモデル作成装置108が作成したアンカーモデルArを蓄積している。 このアンカーモデル蓄積部107は、興味区間抽出処理を行う前に予めアンカーモデルArを蓄積している。
    <3−3>アンカーモデル作成装置 本実施の形態に係るアンカーモデル作成装置108の機能ブロックを図18に示す。 アンカーモデル作成装置108は、音声データ蓄積装置130に蓄積されている音声データからアンカーモデルArを作成してアンカーモデル蓄積部107に蓄積する。

    アンカーモデル作成装置108は、メモリ(図示せず)とプロセッサ(図示せず)とから構成され、プロセッサがメモリに読み込まれたプログラムを実行することにより、図18に示す各構成を実現している。 即ち、アンカーモデル作成装置108は、図18に示すように、特徴量ベクトル生成部301と、特徴量ベクトル分類部302と、アンカーモデル生成部303とを実現している。
    <3−3−1>特徴量ベクトル生成部 特徴量ベクトル生成部301は、前述<3−2−1>で説明した特徴量ベクトル生成部201と同様に、音声データ蓄積部130から取得した音声データを第1単位区間に分割し、第1単位区間毎に音響分析を行ってパワースペクトラムS(ω)を算出し、算出したパワースペクトラムS(ω)から特徴量ベクトルMを生成する。
    <3−3−2>特徴量ベクトル分類部 特徴量ベクトル分類部302は、インターフェース装置109から入力されるアンカーモデルArの個数Kに基づいて、K−means法により複数の特徴量ベクトルMをK個のクラスタに分離し、各クラスタを表す代表的な特徴量ベクトル(以下、クラスタ特徴量ベクトルと称す。)を算出する。 この各クラスタが各アンカーモデルArに対応することになる。 なお、本実施の形態では、K=1024に設定されている。
    <3−3−3>アンカーモデル生成部 アンカーモデル生成部303は、各クラスタのクラスタ特徴量ベクトルに基づいて、各アンカーモデルArに対応する特徴量出現確率関数b Ar (M)を算出する。
    <4>動作<4−1>映像編集装置の動作 以下、本実施の形態に係る興味区間抽出装置104を搭載した映像編集装置100の動作について説明する。

    まず、入力装置101が、ユーザにより興味区間を抽出して表示させる旨の指示があった動画ファイルを記録媒体110から取得し、コンテンツ記憶部102に格納する。

    次に、音声抽出装置102が、コンテンツ記憶部102に格納されている動画ファイルからオーディオ信号を抽出する。

    そして、興味区間抽出装置104が、音声抽出装置102が抽出したオーディオ信号に基づいて、後述の興味区間抽出処理を行う。 この興味区間抽出処理の中で、興味区間抽出装置105に抽出した興味区間データを格納する。

    最後に、出力装置106が、動画ファイルから興味区間抽出処理で抽出された興味区間データに対応する複数の画像データを選出し、表示装置120に表示させる。
    <4−2>興味区間抽出処理 興味区間抽出処理について、図8に基づいて更に詳細に説明する。

    まず、音声抽出装置102が、コンテンツ記録装置103からユーザが指定した動画ファイルに含まれるオーディオ信号を抽出して(矢印P1)、特徴量ベクトル生成部201に入力する(矢印P2)。

    次に、特徴量ベクトル生成部201では、入力されたオーディオ信号から特徴量ベクトルを生成して尤度ベクトル生成部202に入力する(矢印P3)。

    続いて、尤度ベクトル生成部202が、入力される特徴量ベクトルとアンカーモデル蓄積部107から取得した(矢印P4)アンカーモデルArとから第1単位区間毎に尤度ベクトルFを生成して尤度ベクトルバッファ203に格納する(矢印P5)。

    そして、成分分類部205が、尤度ベクトルバッファ203に格納されている全ての尤度ベクトルFを取得し(矢印P6)これらの重心ベクトルGを算出するとともに、当該重心ベクトルGの各成分について、所定の閾値よりも大きい成分に対応するアンカーおデルArを高頻度群、所定の閾値よりも小さい成分に対応するアンカーモデルArを低頻度群として分類し、その結果を示す属性情報を頻度ベクトル生成部206に入力する(矢印P7)。

    更に、頻度ベクトル生成部206が、尤度ベクトルバッファ203に格納されている複数の尤度ベクトルFを取得して(矢印P8)、頻度ベクトルFを生成する。 そして、頻度ベクトル生成部206が、頻度ベクトルNFそれぞれについて、成分分類部205から入力される属性情報に基づいて高頻度ベクトルNFhおよび低頻度ベクトルNFlを算出して頻度ベクトルバッファ207に格納する(矢印P10)。 この処理は、興味区間抽出部209から頻度ベクトル生成終了指示が通知されると終了し、一方、頻度ベクトル生成開始指示が通知されると再開する(矢印P9)。

    そして、特徴点抽出部208が、頻度ベクトルバッファ207から低頻度ベクトルNFlを取得して(矢印P11)、取得した低頻度ベクトルNFlと指定時刻取得部210から入力される(矢印P12)指定時刻の情報とを用いて第2特徴区間を示す特徴点を抽出する。 このとき、特徴点抽出部208は、指定時刻T0から第2単位区間ずつ時刻をずらしながら第2特徴区間の終了時刻である特徴点Tkを検索し、当該特徴点Tkを抽出する。

    図1で説明すると、特徴点抽出部208は、徒競争のシーンを象徴する音楽等が流れている区間(第1特徴区間)の中の指定時刻T0から時間を第2単位区間ずつ遡りながら、鉄砲音が鳴動した区間(第2特徴区間)の終了時刻Tkを抽出することになる。

    続いて、特徴点抽出部208は、抽出した特徴点の情報を興味区間抽出部209に入力する(矢印P13)。

    一方、基準ベクトル・閾値生成部204は、頻度ベクトルバッファ207から指定時刻に対応する高頻度ベクトルNFhを含む複数の高頻度ベクトルNFhを取得するとともに(矢印P17)指定時刻取得部210から指定時刻の情報を取得し(矢印P19)、基準ベクトルNFh0の生成および閾値Rthの算出を行う。 そして、基準ベクトル・閾値生成部204は、生成した基準ベクトルNFh0および閾値Rthを興味区間抽出部209に入力する(矢印P18)。

    また、興味区間抽出部209は、頻度ベクトルバッファ207から取得した(矢印P14)と、基準ベクトル・閾値生成部204から入力される(矢印P18)基準ベクトルNFhcおよび閾値Rthと、指定時刻取得部210から入力される(矢印P15)指定時刻の情報とを用いて、対象時刻が第1特徴区間に属するか否かを判断する。 このとき、興味区間抽出部209は、指定時刻T0から特徴点抽出部208が抽出した特徴点Tkに向かって第2単位区間ずつ時刻をずらしながら、対象時刻が第1特徴区間に属し且つ対象時刻と指定時刻T0との間の長さが予め設定された興味区間の長さleよりも短いか否かを判断し、対象時刻が第1特徴区間に属し且つ対象時刻と指定時刻T0との間の長さが予め設定された興味区間の長さleよりも短いと判断すると対象時刻を含む第2単位区間を興味区間とする。

    図1で説明すると、興味区間抽出部209は、対象時刻が運動会のシーンの中の徒競争のシーンを象徴する音楽等が流れている区間に含まれるか否かを判断することになる。

    最後に、興味区間抽出部209は、算出した第1特徴区間と、特徴点の情報とを用いて第1特徴区間に含まれ且つ第2特徴区間を包含する興味区間を抽出し、抽出した興味区間を示す興味区間データを興味区間記憶装置105に格納する(矢印P16)。 図1で説明すると、徒競争のシーンを象徴する音楽等が流れている区間(第1特徴区間)に含まれ、且つ、鉄砲音が鳴動している区間(第2特徴区間)を包含する区間を興味区間として抽出して、当該興味区間を示すデータを興味区間記憶装置105に格納することになる。 このとき、興味区間抽出部209は、抽出した興味区間データを興味区間記憶装置105に格納する際、各興味区間データを指定時刻の順に格納していく(例えば、指定時刻の早い順にアドレス番号の若い格納領域に格納していく)。 これにより、出力装置106は、興味区間記憶装置105から複数の興味区間データを取得する際、当該興味区間データと当該興味区間データに対応する指定時刻の前後関係を決定する処理を行う必要がなくなるので、出力装置106での処理負荷が軽減されることになる。
    <変形例>
    以上、本発明に係る興味区間抽出装置104について実施形態1および2に基づいて説明したが、本発明は前述の実施形態1および2で示した興味区間抽出装置104に限られないことはもちろんである。

    (1)前述の実施の形態では、動画ファイルに含まれるオーディオ信号の第1単位区間(10msec)毎に複数種類のアンカーモデルArそれぞれを用いてオーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を成分とする尤度ベクトルを生成し、尤度ベクトルの各成分を2つの成分群に分類し、各成分群に属する成分に基づいて第1特徴区間(候補区間)および第2特徴区間の終了時刻を算出する例について説明したが、これに限定されるものではない。

    例えば、興味区間抽出装置104が、動画ファイルに含まれるオーディオ信号から生成された特徴量ベクトルと複数種類のサウンド素片のアンカーモデルを表現するベクトルそれぞれとの類似度を成分とする類似度ベクトルの変化量に基づいて興味区間を抽出するものであってもよい。

    (2)前述の実施の形態では、音声データ蓄積装置130が複数のAVコンテンツに対応する音声データを蓄積するとして説明したが、このAVコンテンツの数や種類には特に制限はない。

    (3)前述の実施の形態では、指定時刻T0から時間を遡りながら特徴点Tkを抽出する例について説明したが、これに限定されるものではない。 例えば、指定時刻T0から時間を進ませながら特徴点Tkを抽出するものであってもよい。 この特徴点Tkは、第2特徴区間の開始時刻に相当することになる。 この場合、第1特徴区間のうち指定時刻T0よりも後の区間を興味区間として抽出することになる。

    (4)前述の実施の形態では、第2特徴区間の終了時刻である特徴点Tkだけを抽出する例について説明したが、これに限定されるものではない。 例えば、第2特徴区間の開始時刻および終了時刻の両方を抽出するようにしてもよい。

    本変形例によれば、突発的な音環境の継続時間の長さが大きく変化しても、第2特徴区間を含む興味区間をより確実に抽出することかできる。

    (5)前述の実施の形態では、指定時刻取得部210が、ユーザがインターフェース装置109を用いて入力した指定時刻T0を取得する例について説明したが、これに限定されるものではない。 例えば、指定時刻取得部210が、動画ファイルに含まれる複数の画複データそれぞれの特徴量の時間変化に基づいて、自動的に指定時刻T0を取得するものであってもよい。

    ここにおいて、指定時刻取得部210は、動画ファイルに含まれる複数の画像データそれぞれについて一般的なクラスタリング手法により複数のシフト特徴量を算出し、各画像データ間における所定のシフト特徴量の差分から指定時刻T0を算出するようにすればよい。 例えば、複数の画像データそれぞれの背景画像を表すシフト特徴量に着目し、時間軸上で隣接する2つの画像データ間の当該シフト特徴量の差分が大きく変化するところを自動的に指定時刻T0とすることが考えられる。

    さらに、前述の実施の形態では、指定時刻が、ユーザが指定した1つの時刻で与えられる例について説明したが、これに限定されるものではなく、例えば、ユーザが指定した2つの時刻で定まる区間で与えられるようにしてもよい。 この区間を定める2つの時刻としては、例えば、ユーザが大まかに指定した興味区間の開始時刻および終了時刻等が挙げられる。

    この場合、与えられた2つの時刻の情報を基準ベクトル・閾値生成部204に渡し、基準ベクトルおよび閾値をこの2つの時刻の間の第2単位区間に基づいて生成するようにすればよい。 なお、2つの時刻が与えられた場合でも、これらの2つの時刻の情報を基準ベクトル・閾値生成部204に渡すのではなく、2つの時刻のいわゆる中点時刻を指定時刻T0として特徴点抽出部208に渡すようにしてもよい。

    さらに、指定時刻取得部210は、ユーザ入力により指定時刻を取得する他、自動で指定時刻を取得するようにしてもよい。 この場合、例えば、頻度ベクトル生成部206で生成された低頻度ベクトルを利用し、当該低頻度ベクトルを示すデータの先頭から、低頻度ベクトルの前時刻と現時刻との間のユークリッド距離を計算し、予め設定した閾値を越える時刻を自動的に指定時刻T0として判定するように構成してもよい。

    (6)前述の実施の形態1では、音声データ蓄積装置130に予め蓄積されている音声データから自動的に複数種類のサウンド素片それぞれのアンカーモデルArを作成する(いわゆる教師無しでアンカーモデルを作成する)例について説明したが、これに限定されるものではない。 例えば、サウンド素片の種類が少数(例えば、数十種類)に限定されている場合には、音声データ蓄積装置130に蓄積されている音声データについて、ユーザが各サウンド素片それぞれに対応する音声データを選択し、それぞれに種別ラベルを付与し、種別ラベルが同一な音声データから対応するサウンド素片のアンカーモデルを作成する(いわゆる教師ありでアンカーモデルArを作成する)ものであってもよい。

    (7)実施形態1で示した興味区間抽出処理を興味区間抽出装置のプロセッサおよびそのプロセッサに接続された各種回路に実行させるためのプログラムコードからなるプログラムを、記録媒体に記録すること又は各種通信路等を介して流通させ頒布することもできる。 このような記録媒体には、ICカード、ハードディスク、光ディスク、フレキシブルディスク、ROMなどがある。 流通、頒布された制御プログラムはプロセッサに読み出されうるメモリなどに格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより各実施形態で示したような機能が実現されるようになる。 なお、制御プログラムの一部を画像管理装置とは別個のプログラム実行可能な装置(プロセッサ)に各種ネットワークを介して送信して、その別個のプログラム実行可能な装置においてその制御プログラムの一部を実行させることとしてもよい。

    (8)実施の形態で示した興味区間抽出装置を構成する構成要素の一部又は全部は、1又は複数の集積回路(IC、LSIなど)として実装されることとしても良く、画像管理装置の構成要素に更に他の要素を加えて集積回路化(1チップ化)されることとしてもよい。

    ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。 また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。 LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、LSI内部の回路セルの接続または設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。 さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。 バイオ技術の適応等が可能性としてありえる。

    本発明にかかる興味区間抽出装置および興味区間抽出方法は、音声、家の中の音、外出時の音などを含むAVコンテンツのオーディオ信号からユーザが興味の対象とする興味区間を抽出することにより、AVコンテンツの編集を行う技術として有用である。

    102 音声抽出装置 103 コンテンツ記憶装置 104 興味区間抽出装置 105 興味区間記憶装置 106 興味区間抽出部 107 アンカーモデル蓄積部 108 アンカーモデル作成装置 109 インターフェース装置 130 音声データ蓄積装置 201,301 特徴量ベクトル生成部 202 尤度ベクトル生成部 202b 頻度ベクトル生成部 203c 成分分類部 204 特徴点抽出部 205 興味区間抽出部 302 特徴量ベクトル分類部 303 アンカーモデル生成部

    QQ群二维码
    意见反馈