一种控制视频拍摄的方法和装置专利检索-画中画显示技术专利检索查询-专利查询网

一种控制视频拍摄的方法和装置

阅读：1016发布：2020-06-11

专利汇可以提供一种控制视频拍摄的方法和装置专利检索，专利查询，专利分析的服务。并且本发明提供一种控制视频拍摄的方法和装置，涉及视频图像领域，能够在保留讲话者的面部画面的同时，减少视频切换次数，使画面的衔接紧密，输出的视频更加流畅，所述方法包括：在第一讲话者讲话时，控制第一摄像装置拍摄第一讲话者的视频；在当前讲话者从所述第一讲话者变更为第二讲话者时，控制第二摄像装置拍摄第二讲话者的视频，其中，所述第二讲话者为与所述第一讲话者位置不同的下一个讲话者；当后续再发生讲话者变更时，依次控制所述第一摄像装置和所述第二摄像装置交替拍摄当前讲话者的视频；在成功获取所述当前讲话者的视频之后，输出所述当前讲话者的视频。本发明用于视频会议中。，下面是一种控制视频拍摄的方法和装置专利的具体信息内容。

权利要求

1.一种控制视频拍摄的方法，其特征在于，包括：
在第一讲话者讲话时，控制第一摄像装置拍摄第一讲话者的视频；
在当前讲话者从所述第一讲话者变更为第二讲话者时，控制第二摄像装置拍摄第二讲话者的视频，其中，所述第二讲话者为与所述第一讲话者位置不同的下一个讲话者；
当后续再发生讲话者变更时，依次控制所述第一摄像装置和所述第二摄像装置交替拍摄当前讲话者的视频；
在成功获取所述当前讲话者的视频之后，输出所述当前讲话者的视频；
其中，所述在当前讲话者从所述第一讲话者变更为第二讲话者时，控制第二摄像装置拍摄第二讲话者的视频包括：
判断所述第二讲话者位置是否在所述第一讲话者的输出画面中；
若所述第二讲话者位置不在所述第一讲话者的输出画面中，则控制所述第二摄像装置拍摄所述第二讲话者的视频；
若所述第二讲话者位置在所述第一讲话者的输出画面中，则进一步判断所述第二讲话者位置是否在所述第一讲话者的输出画面的设定区域内；
若所述第二讲话者位置在所述设定区域内，则控制所述第一摄像装置拍摄所述第二讲话者的视频；
若所述第二讲话者位置不在所述设定区域内，则控制所述第一摄像装置跟踪拍摄所述第二讲话者，以使所述第二讲话者位置在所述设定区域内。
2.根据权利要求1所述的方法，其特征在于，所述输出所述当前讲话者的视频包括：全屏输出所述当前讲话者的视频。
3.根据权利要求2所述的方法，其特征在于，所述全屏输出所述当前讲话者的视频包括：
在成功获取所述当前讲话者的视频之前，全屏输出所述当前讲话者的前一个讲话者的视频；
在成功获取所述当前讲话者的视频之后，全屏输出所述当前讲话者的视频。
4.根据权利要求1所述的方法，其特征在于，所述输出所述当前讲话者的视频包括：以画中画的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频；
其中，所述画中画包括第一画面和包含在所述第一画面中的、比所述第一画面小的第二画面，在所述第一画面中输出所述当前讲话者，在所述第二画面中输出所述当前讲话者的前一个讲话者。
5.根据权利要求4所述的方法，其特征在于，所述方法还包括：
在当前讲话者从所述第二讲话者变更为第三讲话者时，控制所述第一摄像装置拍摄第三讲话者的视频，其中，所述第三讲话者为与所述第二讲话者位置不同的下一个讲话者；
所述以画中画的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频包括：
在成功获取所述第三讲话者的视频之前：在所述第一画面中输出所述第二讲话者，在所述第二画面中输出所述第一讲话者的凝固画面；或者，在所述第一画面中输出所述第二讲话者，在所述第二画面中输出已经开始拍摄但尚未成功获取过程中的所述第三讲话者；
在成功获取所述第三讲话者的视频之后：在所述第一画面中输出所述第三讲话者，在所述第二画面中输出所述第二讲话者。
6.根据权利要求1所述的方法，其特征在于，所述输出所述当前讲话者的视频包括：以双画面的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频；
其中，所述双画面包括互不包含的二部分画面，一部分画面输出所述当前讲话者，另一部分画面输出所述当前讲话者的前一个讲话者。
7.根据权利要求6所述的方法，所述方法还包括：
在当前讲话者从所述第二讲话者变更为第三讲话者时，控制所述第一摄像装置拍摄第三讲话者的视频，其中，所述第三讲话者为与所述第二讲话者位置不同的下一个讲话者；
所述以双画面的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频包括：
在成功获取所述第三讲话者的视频之前：在所述一部分画面中输出所述第一讲话者的凝固画面，在所述另一部分画面中输出所述第二讲话者；或者，在所述一部分画面中输出已经开始拍摄但尚未成功获取过程中的所述第三讲话者，在所述另一部分画面中输出所述第二讲话者；
在成功获取所述第三讲话者的视频之后：在所述一部分画面中输出所述第三讲话者，在所述另一部分画面中输出所述第二讲话者。
8.根据权利要求1所述的方法，其特征在于，在所述控制第一摄像装置拍摄第一讲话者的视频之前，所述方法还包括：
在初始状态时，控制所述第一摄像装置和所述第二摄像装置拍摄整个会场的视频并将所拍摄的视频输出。
9.根据权利要求1-8任意一项所述的方法，其特征在于，在所述控制第一摄像装置拍摄第一讲话者的视频之前，所述方法还包括：
为所述第一摄像装置和所述第二摄像装置分别设置追踪标志，其中，所述第一摄像装置的追踪标志初始为第一追踪标志，所述第二摄像装置的追踪标志初始为第二追踪标志；
所述在第一讲话者讲话时，控制第一摄像装置拍摄第一讲话者的视频包括：在第一讲话者讲话时，控制具有第一追踪标志的第一摄像装置去拍摄第一讲话者的视频，在成功获取所述第一讲话者的视频后，将所述第一摄像装置的追踪标志从所述第一追踪标志设置为所述第二追踪标志，同时将所述第二摄像装置的追踪标志从所述第二追踪标志设置为所述第一追踪标志；
所述在当前讲话者从所述第一讲话者变更为第二讲话者时，控制第二摄像装置拍摄第二讲话者的视频包括：在当前讲话者从所述第一讲话者变更为第二讲话者时，控制具有所述第一追踪标志的第二摄像装置去拍摄第二讲话者的视频，在成功获取所述第二讲话者的视频后，将所述第二摄像装置的追踪标志从所述第一追踪标志设置为所述第二追踪标志，同时将所述第一摄像装置的追踪标志从所述第二追踪标志设置为所述第一追踪标志。
10.根据权利要求9所述的方法，其特征在于，
所述当后续再发生讲话者变更时，依次控制所述第一摄像装置和所述第二摄像装置交替拍摄当前讲话者的视频包括：后续每次发生讲话者变更时，控制具有所述第一追踪标志的摄像装置去拍摄当前讲话者的视频，在成功获取当前讲话者的视频后，将所述第一摄像装置和所述第二摄像装置的追踪标志互换。
11.根据权利要求10所述的方法，其特征在于，控制摄像装置拍摄讲话者的视频包括：
利用声源定位技术，控制摄像装置拍摄讲话者的视频。
12.根据权利要求11所述的方法，其特征在于，所述利用声源定位技术，控制摄像装置拍摄讲话者的视频包括：
利用声源定位技术并结合预置位或图像识别技术，控制摄像装置拍摄讲话者的视频。
13.一种控制视频拍摄的装置，其特征在于，包括：
控制单元，用于在第一讲话者讲话时，控制第一摄像装置拍摄第一讲话者的视频；
所述控制单元，还用于在当前讲话者从所述第一讲话者变更为第二讲话者时，控制第二摄像装置拍摄第二讲话者的视频，其中，所述第二讲话者为与所述第一讲话者位置不同的下一个讲话者；
所述控制单元，还用于当后续再发生讲话者变更时，依次控制所述第一摄像装置和所述第二摄像装置交替拍摄当前讲话者的视频；
处理单元，与所述控制单元连接，用于在成功获取所述当前讲话者的视频之后输出所述当前讲话者的视频；
其中，所述控制单元具体用于：
判断所述第二讲话者位置是否在所述第一讲话者的输出画面中；
若所述第二讲话者位置不在所述第一讲话者的输出画面中，则控制所述第二摄像装置拍摄所述第二讲话者的视频；
若所述第二讲话者位置在所述第一讲话者的输出画面中，则进一步判断所述第二讲话者位置是否在所述第一讲话者的输出画面的设定区域内；
若所述第二讲话者位置在所述设定区域内，则控制所述第一摄像装置拍摄所述第二讲话者的视频；
若所述第二讲话者位置不在所述设定区域内，则控制所述第一摄像装置跟踪拍摄所述第二讲话者，以使所述第二讲话者位置在所述设定区域内。
14.根据权利要求13所述的装置，其特征在于，所述处理单元具体用于：
设置所述当前讲话者的视频全屏显示；
全屏输出所述当前讲话者的视频。
15.根据权利要求14所述的装置，其特征在于，所述处理单元具体用于：
在成功获取所述当前讲话者的视频之前，全屏输出所述当前讲话者的前一个讲话者的视频；
在成功获取所述当前讲话者的视频之后，全屏输出所述当前讲话者的视频。
16.根据权利要求13所述的装置，其特征在于，所述处理单元具体用于：
设置所述当前讲话者的视频和所述当前讲话者的前一个讲话者的视频以画中画的形式进行显示；
其中，所述画中画包括第一画面和包含在所述第一画面中的、比所述第一画面小的第二画面，在所述第一画面中显示所述当前讲话者，在所述第二画面中显示所述当前讲话者的前一个讲话者；
以画中画的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频。
17.根据权利要求14所述的装置，其特征在于，所述控制单元还用于：
在当前讲话者从所述第二讲话者变更为第三讲话者时，控制所述第一摄像装置拍摄第三讲话者的视频，其中，所述第三讲话者为与所述第二讲话者位置不同的下一个讲话者；
所述处理单元具体用于：
在成功获取所述第三讲话者的视频之前：在所述第一画面中输出所述第二讲话者，在所述第二画面中输出所述第一讲话者的凝固画面；或者，在所述第一画面中输出所述第二讲话者，在所述第二画面中输出已经开始拍摄但尚未成功获取过程中的所述第三讲话者；
在成功获取所述第三讲话者的视频之后：在所述第一画面中输出所述第三讲话者，在所述第二画面中输出所述第二讲话者。
18.根据权利要求13所述的装置，其特征在于，所述处理单元具体用于：
设置所述当前讲话者的视频和所述当前讲话者的前一个讲话者的视频以双画面的形式进行显示；
其中，所述双画面包括互不包含的二部分画面，一部分画面显示所述当前讲话者，另一部分画面显示所述当前讲话者的前一个讲话者；
以双画面的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频。
19.根据权利要求18所述的装置，其特征在于，所述控制单元还用于：
在当前讲话者从所述第二讲话者变更为第三讲话者时，控制所述第一摄像装置拍摄第三讲话者的视频，其中，所述第三讲话者为与所述第二讲话者位置不同的下一个讲话者；
所述处理单元具体用于：
在成功获取所述第三讲话者的视频之前：在所述一部分画面中输出所述第一讲话者的凝固画面，在所述另一部分画面中输出所述第二讲话者；或者，在所述一部分画面中输出已经开始拍摄但尚未成功获取过程中的所述第三讲话者，在所述另一部分画面中输出所述第二讲话者；
在成功获取所述第三讲话者的视频之后：在所述一部分画面中输出所述第三讲话者，在所述另一部分画面中输出所述第二讲话者。
20.根据权利要求13所述的装置，其特征在于，控制第一摄像装置拍摄第一讲话者的视频之前，所述控制单元还用于：
在初始状态时，控制所述第一摄像装置和所述第二摄像装置拍摄整个会场的视频；
所述处理单元，还用于将所述控制单元所拍摄的整个会场的视频输出。
21.根据权利要求13-20任意一项所述的装置，其特征在于，所述控制单元还用于：
为所述第一摄像装置和所述第二摄像装置分别设置追踪标志，其中，所述第一摄像装置的追踪标志初始为第一追踪标志，所述第二摄像装置的追踪标志初始为第二追踪标志；
所述控制单元具体用于：在第一讲话者讲话时，控制具有第一追踪标志的第一摄像装置去拍摄第一讲话者的视频，在成功获取所述第一讲话者的视频后，将所述第一摄像装置的追踪标志从所述第一追踪标志设置为所述第二追踪标志，同时将所述第二摄像装置的追踪标志从所述第二追踪标志设置为所述第一追踪标志；
所述控制单元具体用于：在当前讲话者从所述第一讲话者变更为第二讲话者时，控制具有所述第一追踪标志的第二摄像装置去拍摄第二讲话者的视频，在成功获取所述第二讲话者的视频后，将所述第二摄像装置的追踪标志从所述第一追踪标志设置为所述第二追踪标志，同时将所述第一摄像装置的追踪标志从所述第二追踪标志设置为所述第一追踪标志。
22.根据权利要求21所述的装置，其特征在于，所述控制单元具体用于：后续每次发生讲话者变更时，控制具有所述第一追踪标志的摄像装置去拍摄当前讲话者的视频，在成功获取当前讲话者的视频后，将所述第一摄像装置和所述第二摄像装置的追踪标志互换。
23.根据权利要求22所述的装置，其特征在于，所述控制单元具体用于：
利用声源定位技术，控制摄像装置拍摄讲话者的视频。
24.根据权利要求23所述的装置，其特征在于，所述控制单元具体用于：
利用声源定位技术并结合预置位或图像识别技术，控制摄像装置拍摄讲话者的视频。

说明书全文

一种控制视频拍摄的方法和装置

技术领域

[0001] 本发明涉及视频图像领域，尤其涉及一种控制视频拍摄的方法和装置。

背景技术

[0002] 一般情况下，视频会议中摄像机以固定的大小、固定的角度拍摄所有与会者的全景画面。当会场比较大时，摄像机可能离讲话人较远，拍摄出来的画面无法确定谁在讲话，无法看清讲话人的面部表情，由此造成会议有价值信息的损失。

[0003] 为了避免因只拍摄全景画面而造成会议有价值信息的损失，可以使用两台摄像机同时拍摄会场画面。其中一台摄像机始终用于拍摄会场的全景画面，另一台摄像机用于跟踪拍摄讲话人的画面。

[0004] 当会场中有人交替讲话时，由于跟踪拍摄讲话者画面的摄像机在成功获取当前讲话者的画面之前需要转动/推拉摄像头，这一过程中拍摄到的视频不稳定，观看不舒服，在这期间画面需要先切换到会场的全景。但是，这种切换会导致画面的衔接不紧密，传送到远端会场的视频不流畅，会给观看者很不舒服的感觉。

发明内容

[0005] 本发明的实施例提供一种控制视频拍摄的方法和装置，能够在保留讲话者的面部画面的同时，减少视频切换次数，使画面的衔接紧密，输出的视频更加流畅。

[0006] 第一方面，提供一种控制视频拍摄的方法，包括：

[0007] 在第一讲话者讲话时，控制第一摄像装置拍摄第一讲话者的视频；

[0008] 在当前讲话者从所述第一讲话者变更为第二讲话者时，控制第二摄像装置拍摄第二讲话者的视频，其中，所述第二讲话者为与所述第一讲话者位置不同的下一个讲话者；

[0009] 当后续再发生讲话者变更时，依次控制所述第一摄像装置和所述第二摄像装置交替拍摄当前讲话者的视频；

[0010] 在成功获取所述当前讲话者的视频之后，输出所述当前讲话者的视频。

[0011] 结合第一方面，在第一种可能的实现方式中，所述输出所述当前讲话者的视频包括：全屏输出所述当前讲话者的视频；

[0012] 结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述全屏输出所述当前讲话者的视频包括：

[0013] 在成功获取所述当前讲话者的视频之前，全屏输出所述当前讲话者的前一个讲话者的视频；

[0014] 在成功获取所述当前讲话者的视频之后，全屏输出所述当前讲话者的视频。

[0015] 结合第一方面，在第一方面的第三种可能的实现方式中，所述输出所述当前讲话者的视频包括：以画中画的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频；

[0016] 其中，所述画中画包括第一画面和包含在所述第一画面中的比所述第一画面小的第二画面，在所述第一画面中输出所述当前讲话者，在所述第二画面中输出所述当前讲话者的前一个讲话者。

[0017] 结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，所述方法还包括：

[0018] 在当前讲话者从所述第二讲话者变更为第三讲话者时，控制所述第一摄像装置拍摄第三讲话者的视频，其中，所述第三讲话者为与所述第二讲话者位置不同的下一个讲话者；

[0019] 所述以画中画的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频包括：

[0020] 在成功获取所述第三讲话者的视频之前：在所述第一画面中输出所述第二讲话者，在所述第二画面中输出所述第一讲话者的凝固画面；或者，在所述第一画面中输出所述第二讲话者，在所述第二画面中输出已经开始拍摄但尚未成功获取过程中的所述第三讲话者；

[0021] 在成功获取所述第三讲话者的视频之后：在所述第一画面中输出所述第三讲话者，在所述第二画面中输出所述第二讲话者。

[0022] 结合第一方面，在第一方面的第五种可能的实现方式中，所述输出所述当前讲话者的视频包括：以双画面的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频；

[0023] 其中，所述输出画面包括互不包含的二部分画面，一部分画面输出所述当前讲话者，另一部分画面输出所述当前讲话者的前一个讲话者。

[0024] 结合第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，所述方法还包括：

[0025] 在当前讲话者从所述第二讲话者变更为第三讲话者时，控制所述第一摄像装置拍摄第三讲话者的视频，其中，所述第三讲话者为与所述第二讲话者位置不同的下一个讲话者；

[0026] 所述以双画面的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频包括：

[0027] 在成功获取所述第三讲话者的视频之前：在所述一部分画面中输出所述第一讲话者的凝固画面，在所述另一部分画面中输出所述第二讲话者；或者，在所述一部分画面中输出已经开始拍摄但尚未成功获取过程中的所述第三讲话者，在所述另一部分画面中输出所述第二讲话者；

[0028] 在成功获取所述第三讲话者的视频之后：在所述一部分画面中输出所述第三讲话者，在所述另一部分画面中输出所述第二讲话者。

[0029] 结合第一方面，在第一方面的第七种可能的实现方式中，在所述控制第一摄像装置拍摄第一讲话者的视频之前，所述方法还包括：

[0030] 在初始状态时，控制所述第一摄像装置和所述第二摄像装置拍摄整个会场的视频并将所拍摄的视频输出。

[0031] 结合第一方面或第一方面的第一种至第七种可能的任一实现方式，在第一方面的第八种可能的实现方式中，在所述控制第一摄像装置拍摄第一讲话者的视频之前，所述方法还包括：

[0032] 为所述第一摄像装置和所述第二摄像装置分别设置追踪标志，其中，所述第一摄像装置的追踪标志初始为第一追踪标志，所述第二摄像装置的追踪标志初始为第二追踪标志；

[0033] 所述在第一讲话者讲话时，控制第一摄像装置拍摄第一讲话者的视频包括：在第一讲话者讲话时，控制具有第一追踪标志的第一摄像装置去拍摄第一讲话者的视频，在成功获取所述第一讲话者的视频后，将所述第一摄像装置的追踪标志从所述第一追踪标志设置为所述第二追踪标志，同时将所述第二摄像装置的追踪标志从所述第二追踪标志设置为所述第一追踪标志；

[0034] 所述在当前讲话者从所述第一讲话者变更为第二讲话者时，控制第二摄像装置拍摄第二讲话者的视频包括：在当前讲话者从所述第一讲话者变更为第二讲话者时，控制具有所述第一追踪标志的第二摄像装置去拍摄第二讲话者的视频，在成功获取所述第二讲话者的视频后，将所述第二摄像装置的追踪标志从所述第一追踪标志设置为所述第二追踪标志，同时将所述第一摄像装置的追踪标志从所述第二追踪标志设置为所述第一追踪标志。

[0035] 结合第一方面的第八种可能的实现方式，在第一方面的第九种可能的实现方式中，所述当后续再发生讲话者变更时，依次控制所述第一摄像装置和所述第二摄像装置交替拍摄当前讲话者的视频包括：后续每次发生讲话者变更时，控制具有所述第一追踪标志的摄像装置去拍摄当前讲话者的视频，在成功获取当前讲话者的视频后，将所述第一摄像装置和所述第二摄像装置的追踪标志互换。

[0036] 结合第一方面的第九种可能的实现方式，在第一方面的第十种可能的实现方式中，控制摄像装置拍摄讲话者的视频包括：

[0037] 利用声源定位技术，控制摄像装置拍摄讲话者的视频。

[0038] 结合第一方面的第十种可能的实现方式，在第一方面的第十一种可能的实现方式中，所述利用声源定位技术，控制摄像装置拍摄讲话者的视频包括：

[0039] 利用声源定位技术并结合预置位或图像识别技术，控制摄像装置拍摄讲话者的视频。

[0040] 结合第一方面或第一方面的第一种至第十一种可能的任一实现方式，在第一方面的第十二种可能的实现方式中，所述在当前讲话者从所述第一讲话者变更为第二讲话者时，控制第二摄像装置拍摄第二讲话者的视频包括：

[0041] 判断所述第二讲话者位置是否在所述第一讲话者的输出画面中；

[0042] 若所述第二讲话者位置不在所述第一讲话者的输出画面中，则控制所述第二摄像装置拍摄所述第二讲话者的视频；

[0043] 若所述第二讲话者位置在所述第一讲话者的输出画面中，则进一步判断所述第二讲话者位置是否在所述第一讲话者的输出画面的设定区域内；

[0044] 若所述第二讲话者位置在所述设定区域内，则控制所述第一摄像装置拍摄所述第二讲话者的视频；

[0045] 若所述第二讲话者位置不在所述设定区域内，则控制所述第一摄像装置跟踪拍摄所述第二讲话者，以使所述第二讲话者位置在所述设定区域内。

[0046] 第二方面，提供一种控制视频拍摄的装置，包括：

[0047] 控制单元，用于在第一讲话者讲话时，控制第一摄像装置拍摄第一讲话者的视频；

[0048] 所述控制单元，还用于在当前讲话者从所述第一讲话者变更为第二讲话者时，控制第二摄像装置拍摄第二讲话者的视频，其中，所述第二讲话者为与所述第一讲话者位置不同的下一个讲话者；

[0049] 所述控制单元，还用于当后续再发生讲话者变更时，依次控制所述第一摄像装置和所述第二摄像装置交替拍摄当前讲话者的视频；

[0050] 处理单元，与所述控制单元连接，用于在成功获取所述当前讲话者的视频之后输出所述当前讲话者的视频。

[0051] 结合第二方面，在第二方面的第一种可能的实现方式中，所述处理单元具体用于：

[0052] 设置所述当前讲话者的视频全屏显示；

[0053] 全屏输出所述当前讲话者的视频。

[0054] 结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述处理单元具体用于：

[0055] 在成功获取所述当前讲话者的视频之前，全屏输出所述当前讲话者的前一个讲话者的视频；在成功获取所述当前讲话者的视频之后，全屏输出所述当前讲话者的视频。

[0056] 结合第二方面，在第二方面的第三种可能的实现方式中，所述处理单元还具体用于：

[0057] 设置所述当前讲话者的视频和所述当前讲话者的前一个讲话者的视频以画中画的形式进行显示；

[0058] 其中，所述画中画包括第一画面和包含在所述第一画面中的、比所述第一画面小的第二画面，在所述第一画面中显示所述当前讲话者，在所述第二画面中显示所述当前讲话者的前一个讲话者；

[0059] 以画中画的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频；

[0060] 结合第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，所述控制单元还用于：

[0061] 在当前讲话者从所述第二讲话者变更为第三讲话者时，控制所述第一摄像装置拍摄第三讲话者的视频，其中，所述第三讲话者为与所述第二讲话者位置不同的下一个讲话者；

[0062] 所述处理单元具体用于：

[0063] 在成功获取所述第三讲话者的视频之前：在所述第一画面中输出所述第二讲话者，在所述第二画面中输出所述第一讲话者的凝固画面；或者，在所述第一画面中输出所述第二讲话者，在所述第二画面中输出已经开始拍摄但尚未成功获取过程中的所述第三讲话者；

[0064] 在成功获取所述第三讲话者的视频之后：在所述第一画面中输出所述第三讲话者，在所述第二画面中输出所述第二讲话者。

[0065] 结合第二方面，在第二方面的第五种可能的实现方式中，所述处理单元还具体用于：

[0066] 设置所述当前讲话者的视频和所述当前讲话者的前一个讲话者的视频以双画面的形式进行显示；

[0067] 其中，所述双画面包括互不包含的二部分画面，一部分画面显示所述当前讲话者，另一部分画面显示所述当前讲话者的前一个讲话者；

[0068] 以双画面的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频。

[0069] 结合第二方面的第五种可能的实现方式，在第二方面的第六种可能的实现方式中，所述控制单元还用于：

[0070] 在当前讲话者从所述第二讲话者变更为第三讲话者时，控制所述第一摄像装置拍摄第三讲话者的视频，其中，所述第三讲话者为与所述第二讲话者位置不同的下一个讲话者；

[0071] 所述处理单元具体用于：

[0072] 在成功获取所述第三讲话者的视频之前：在所述一部分画面中输出所述第一讲话者的凝固画面，在所述另一部分画面中输出所述第二讲话者；或者，在所述一部分画面中输出已经开始拍摄但尚未成功获取过程中的所述第三讲话者，在所述另一部分画面中输出所述第二讲话者；

[0073] 在成功获取所述第三讲话者的视频之后：在所述一部分画面中输出所述第三讲话者，在所述另一部分画面中输出所述第二讲话者。

[0074] 结合第二方面，在第二方面的第七种可能的实现方式中，所述控制单元还用于：

[0075] 在控制第一摄像装置拍摄第一讲话者的视频之前，在初始状态时，控制所述第一摄像装置和所述第二摄像装置拍摄整个会场的视频；

[0076] 所述处理单元，还用于将所拍摄的视频输出。

[0077] 结合第二方面或第二方面的第一种至第七种可能的任一实现方式，在第二方面的第八种可能的实现方式中，所述控制单元还用于：

[0078] 为所述第一摄像装置和所述第二摄像装置分别设置追踪标志，其中，所述第一摄像装置的追踪标志初始为第一追踪标志，所述第二摄像装置的追踪标志初始为第二追踪标志；

[0079] 所述控制单元具体用于：在第一讲话者讲话时，控制具有第一追踪标志的第一摄像装置去拍摄第一讲话者的视频，在成功获取所述第一讲话者的视频后，将所述第一摄像装置的追踪标志从所述第一追踪标志设置为所述第二追踪标志，同时将所述第二摄像装置的追踪标志从所述第二追踪标志设置为所述第一追踪标志；

[0080] 所述控制单元具体用于：在当前讲话者从所述第一讲话者变更为第二讲话者时，控制具有所述第一追踪标志的第二摄像装置去拍摄第二讲话者的视频，在成功获取所述第二讲话者的视频后，将所述第二摄像装置的追踪标志从所述第一追踪标志设置为所述第二追踪标志，同时将所述第一摄像装置的追踪标志从所述第二追踪标志设置为所述第一追踪标志。

[0081] 结合第二方面的第八种可能的实现方式，在第二方面的第九种可能的实现方式中，所述控制单元具体用于：后续每次发生讲话者变更时，控制具有所述第一追踪标志的摄像装置去拍摄当前讲话者的视频，在成功获取当前讲话者的视频后，将所述第一摄像装置和所述第二摄像装置的追踪标志互换。

[0082] 结合第二方面的第九种可能的实现方式，在第二方面的第十种可能的实现方式中，所述控制单元具体用于：

[0083] 利用声源定位技术，控制摄像装置拍摄讲话者的视频。

[0084] 结合第二方面的第十种可能的实现方式，在第二方面的第十一种可能的实现方式中，所述控制单元具体用于：

[0085] 利用声源定位技术并结合预置位或图像识别技术，控制摄像装置拍摄讲话者的视频。

[0086] 结合第二方面或第二方面的第一种至第十一种可能的任一实现方式，在第二方面的第十二种可能的实现方式中，所述控制单元具体用于：

[0087] 判断所述第二讲话者位置是否在所述第一讲话者的输出画面中；

[0088] 若所述第二讲话者位置不在所述第一讲话者的输出画面中，则控制所述第二摄像装置拍摄所述第二讲话者的视频；

[0089] 若所述第二讲话者位置在所述第一讲话者的输出画面中，则进一步判断所述第二讲话者位置是否在所述第一讲话者的输出画面的设定区域内；

[0090] 若所述第二讲话者位置在所述设定区域内，则控制所述第一摄像装置拍摄所述第二讲话者的视频；

[0091] 若所述第二讲话者位置不在所述设定区域内，则控制所述第一摄像装置跟踪拍摄所述第二讲话者，以使所述第二讲话者位置在所述设定区域内。

[0092] 采用上述技术方案后，根据本发明提供的控制视频拍摄的方法和控制视频拍摄的装置，当会场中有人交替讲话时，依次控制所述第一摄像装置和所述第二摄像装置交替拍摄当前讲话者的视频，并输出当前讲话者的视频，这样，即使在会场中存在多人快速地交替讲话，两台摄像装置也能够拍摄多个讲话者的面部画面，而且在本发明所提供的技术方案中，只有在摄像装置成功获取当前讲话者的视频之后，才输出当前讲话者的视频，相对于现有技术中需要在摄像装置成功获取下一个讲话者的视频之前先切换到会场的全景，本发明确实能够减少视频切换次数，从而使画面衔接紧密，输出的视频更加流畅。附图说明

[0093] 为了更清楚的说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0094] 图1为本发明控制视频拍摄的方法的一实施例的流程图;

[0095] 图2A为变更后讲话者位置在变更前讲话者的输出画面的设定区域内的情况下，拍摄变更后讲话者的示意图；

[0096] 图2B为变更后讲话者位置在变更前讲话者的输出画面中但不在该画面的设定区域内的情况下，拍摄变更后讲话者的示意图；

[0097] 图2C为变更后讲话者位置不在变更前讲话者的输出画面中的情况下，拍摄变更后讲话者的示意图；

[0098] 图3A为本发明控制视频拍摄的方法的一具体实施例的流程图；

[0099] 图3B为本发明控制视频拍摄的方法的一具体实施例的另一流程图；

[0100] 图4为本发明控制视频拍摄的方法的一具体实施例的示意图；

[0101] 图5A为全屏显示时输出摄像机转动/推拉过程的效果示意图；

[0102] 图5B为全屏显示时不输出摄像机转动/推拉过程的效果示意图；

[0103] 图6为本发明控制视频拍摄的方法的另一具体实施例的流程图；

[0104] 图7为本发明控制视频拍摄的方法的另一具体实施例的示意图；

[0105] 图8A为以画中画显示时输出摄像机转动/推拉过程的效果示意图；

[0106] 图8B为以画中画显示时不输出摄像机转动/推拉过程的效果示意图；

[0107] 图9为本发明控制视频拍摄的方法的又一具体实施例的流程图；

[0108] 图10为本发明控制视频拍摄的方法的又一具体实施例的示意图；

[0109] 图11A为以双画面显示时输出摄像机转动/推拉过程的效果示意图；

[0110] 图11B为以双画面显示时不输出摄像机转动/推拉过程的效果示意图；

[0111] 图12为本发明控制视频拍摄的装置的一实施例的结构框图；

[0112] 图13A为本发明控制视频拍摄的装置的另一实施例的结构示意图；

[0113] 图13B为本发明控制视频拍摄的装置的再一实施例的结构示意图；

[0114] 图13C为本发明控制视频拍摄的装置的又一实施例的结构示意图。

具体实施方式

[0115] 下面结合附图对本发明实施例的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0116] 图1是本发明控制视频拍摄的方法的一实施例的流程图。本发明实施例提供的控制视频拍摄的方法可以由具备控制处理功能的一类装置来实施，所述装置举例而言可以为摄像机、视频控制器、视频终端等。如图1所示，本发明实施例提供的控制视频拍摄的方法包括：

[0117] S11，在第一讲话者讲话时，控制第一摄像装置拍摄第一讲话者的视频。

[0118] 在本发明实施例中，设置两组摄像装置：第一摄像装置和第二摄像装置来拍摄讲话者的视频。其中，所述第一摄像装置可以为一个摄像模块，所述第二摄像装置也可以为一个摄像模块。当然，在本发明的范围内，所述第一摄像装置和所述第二摄像装置也可以分别为多个摄像模块，多个摄像模块的具体应用可根据一个摄像模块的应用而类似地得到。所述第一摄像装置和所述第二摄像装置可以由连接装置连接固定在一起，也可以相互独立。本发明实施例中提及的摄像装置可以为摄像机或其他具备摄像功能的终端设备。

[0119] 本发明实施例提供的控制视频拍摄的方法可以应用于视频会议中，用于拍摄并输出本地会场中讲话者的视频，还可以用于将本地会场的画面传送到远端会场，以便于远端会场的与会者观看本地会场的情况。

[0120] 在摄像装置开启后，视频会议开始时，若本地会场中尚无人讲话，可同时控制第一摄像装置和第二摄像装置均拍摄本地会场的全景。若预定控制所述第一摄像装置拍摄会场中第一个出现的讲话者，优选的是先将第二摄像装置所拍摄的视频输出至远端会场。此时，由于尚无讲话者出现，远端会场的与会者只需观看本地会场的全景即可。当本地会场中有讲话者开始讲话时，即出现第一讲话者时，可立即控制第一摄像装置拍摄第一讲话者的视频；同时可仍控制第二摄像装置拍摄本地会场的全景。

[0121] 在本发明实施例中，可以利用声源定位技术确定讲话者的位置。只利用声源定位技术可能由于噪声干扰等原因而无法准确获取讲话者的位置，因此，进一步地，也可以预先设定讲话者在本地会场中讲话时所处的可能位置，在通过声源定位技术获取讲话者的位置时，结合预先设定的可能位置（即预置位）进行判断的准确率更高。为了更加准确地获取讲话者的位置，可以结合声源定位技术和图像识别技术。具体地，在控制摄像装置(包括第一摄像装置和第二摄像装置)拍摄讲话者的视频时，可将多个拾音麦克风组成拾音麦克风阵列，当第一讲话者讲话时，利用所述拾音麦克风阵列拾取本地会场的声音，经过音频前处理，传送给声源定位器。其中，所述声源定位器是位于所述具备控制处理功能的一类装置中具备声源定位功能的模块，所述拾音麦克风阵列由两个以上的、分布在本地会场不同位置的拾音麦克风组成。所述声源定位器接收到所述拾音麦克风阵列拾取的声音之后对其进行定位处理，得到第一讲话者的位置信息。控制器可根据位置信息生成相应的摄像装置控制指令发送给云台，云台控制所述第一摄像装置转动到合适的拍摄角度，以粗略获取所述第一讲话者的视频，其中，所述云台用于接收和执行所述控制器发送的摄像装置控制指令。然后，结合声源定位得到的位置信息、预置位信息或图像识别技术（所述图像识别技术具体可以为人脸识别，人脸检测，唇动检测等），得到所述第一讲话者的更加准确的位置信息，生成新的控制指令发送给云台，控制所述第一摄像装置转动/推拉摄像头，按照需求获取所述第一讲话者大小合适的画面，例如可以使所述第一讲话者的面部占据整个画面的1/2、1/3或1/4等。

[0122] 由于声源定位技术的精度不高或容易受到噪声干扰而造成定位不准，本发明实施例利用声源定位技术结合预置位或图像识别技术，能够准确确定讲话者的位置，进而控制摄像装置进行拍摄。需要说明的是，本发明中可以根据实际情况只使用声源定位技术，或使用声源定位技术结合预置位，或使用声源定位技术集合预置位，还可以使用声源定位技术同时结合预置位和图像识别技术。

[0123] S12，在当前讲话者从所述第一讲话者变更为第二讲话者时，控制第二摄像装置拍摄第二讲话者的视频，其中，所述第二讲话者为与所述第一讲话者位置不同的下一个讲话者。

[0124] 当前讲话者是指本地会场中当前正在讲话的人，在步骤S11、S12中，当前讲话者分别是所述第一讲话者和所述第二讲话者。需要说明的是，在讲话者位置发生变更后且摄像装置成功获取变更后讲话者的视频之前，虽然所述摄像装置尚未成功获取所述变更后讲话者的视频，但是，在此过程中，当前讲话者已经是所述变更后讲话者。

[0125] 与所述控制第一摄像装置拍摄第一讲话者的视频类似，可以先根据声源定位技术识别出讲话者的位置发生变更，即讲话者从所述第一讲话者变更为位置不同于所述第一讲话者的所述第二讲话者，进而控制第二摄像装置转动/推拉到合适的拍摄角度和拍摄大小。然后，像步骤S11那样地，结合预置位或图像识别技术，按照需求进一步控制所述第二摄像装置转动/推拉摄像头，拍摄所述第二讲话者大小合适的视频。

[0126] 需要说明的是，若讲话者只是稍微移动，例如只移动了一、两个身位的距离，可以认为讲话者的位置没有发生变更，不需要切换摄像装置，而且，只要讲话者仍然处于拍摄画面的设定区域内，如占整个画面80%的中心区域内，摄像装置也不需要转动/推拉摄像头进行跟踪。若讲话者发生了走动，只要讲话者仍然处于拍摄画面的设定区域内，可以认为讲话者的位置没有发生变更，不需要切换摄像装置，摄像装置也不需要转动/推拉摄像头进行跟踪。若讲话者变更为另一个讲话者，但是，两个讲话者只是在同一位置上发生讲话交替，或者，两个讲话者的距离很近，同处于一拍摄装置拍摄画面的设定区域内，则可以认为讲话者的位置没有发生变更，不需要切换摄像装置，摄像装置也不需要转动/推拉摄像头进行跟踪（参照图2Ａ，实线表示拍摄画面，虚线表示设定区域）。不论是同一讲话者还是不同讲话者，若讲话者位置在输出画面中但不在设定区域内，则不需要切换摄像装置，但是可以轻微地转动/推拉摄像头，使得变更后的讲话者处于画面的中部（参照图2Ｂ）。在下文的说明中，除特别说明外，讲话者的变更或讲话者的位置变更均指讲话者的位置发生变更，而且变更后的位置与拍摄画面中心位置之间的距离达到了需要切换摄像装置的程度，所述程度可以根据实际的具体场景设定（参照图2Ｃ）。

[0127] S13，当后续再发生讲话者变更时，依次控制所述第一摄像装置和所述第二摄像装置交替拍摄当前讲话者的视频。

[0128] 具体而言，当后续讲话者从所述第二讲话者变更为所述第二讲话者的下一个讲话者-第三讲话者时，控制所述第一摄像装置拍摄所述第三讲话者的视频。若之后再发生讲话者变更，即讲话者从所述第三讲话者变更为所述第三讲话者的下一个讲话者-第四讲话者，则控制所述第二摄像装置拍摄所述第四讲话者的视频。如此反复，保证所述第一摄像装置和所述第二摄像装置交替拍摄当前讲话者的视频。

[0129] 举例而言,若本地会场中存在甲、乙、丙、丁四位讲话者，甲最先开始讲话，则先控制第一摄像装置拍摄甲；讲话者由甲变更为乙时，则控制第二摄像装置拍摄乙；之后讲话者由乙变更为丙时，则再次控制第一摄像装置拍摄丙；当讲话者再由丙变更为丁时，则再次控制第二摄像装置拍摄丁，如此反复。

[0130] 当会场中多人快速地交替讲话时，现有技术用于拍摄讲话者视频的摄像装置拍摄的画面会将多个讲话者包含进来，若所述多个讲话者距离较远，则无法在所拍摄的画面中观察所述多个讲话者的表情，导致会议有价值的信息损失。本发明则不然，第一摄像装置和第二摄像装置均可以追踪讲话者，其中，在一摄像装置追踪当前讲话者时，另一摄像装置追踪变更后的讲话者。如此，可以保证第一摄像装置和第二摄像装置相互配合、无缝对接：在第一摄像装置拍摄当前讲话者时，利用第二摄像装置拍摄所述当前讲话者的下一个讲话者；在第二摄像装置拍摄当前讲话者时，利用第一摄像装置拍摄所述当前讲话者的下一个讲话者。尤其是当本地会场中只有甲、乙两位讲话者时，第一摄像装置可以保持跟踪拍摄甲，第二摄像装置可以保持跟踪拍摄乙，若讲话者交替讲话，则由于第一摄像装置和第二摄像装置都分别已经调整好了焦距，因而省去了转动/推拉摄像头的过程。这样，即使在会场中存在讲话者快速地交替讲话，两摄像装置也能够交替拍摄讲话者的面部画面，更多地保留会议有价值的信息，而且视频追踪的效率也得到提高。

[0131] S14，在成功获取所述当前讲话者的视频之后，输出所述当前讲话者的视频。

[0132] 具体而言，拍摄所述当前讲话者的摄像装置在成功获取到所述当前讲话者的视频之后，输出所述当前讲话者的视频，所述输出所述当前讲话者的视频包括在所述摄像装置的显示屏或本地会场的显示屏中以不同的方式（即全屏、画中画、双画面等）进行输出，也包括以不同的方式输出到远端会场。需要说明的是，本发明对于在本地会场中所拍摄的视频通过何种方式（例如编码、解码等）传送到远端会场不做限定。在传送到远端会场的过程中，例如可以将所述当前讲话者的视频发送给视频信号处理器，视频信号处理器收到所述当前讲话者的视频之后，进行编码压缩等处理，然后将所述编码压缩后得到的码流通过网络传送到远端会场；远端会场接收到所述码流后，进行解码等处理，得到所述当前讲话者的视频，然后可以以不同的方式在远端会场的显示屏上进行显示。这样，远端会场的与会者就可以在所述显示屏上观看本地会场的画面。

[0133] 在讲话者发生变更时，摄像装置获取变更后讲话者视频的过程需要一定的时间。在这期间，现有技术会先将画面切换到会场的全景，待摄像装置成功获取变更后的讲话者的视频时，才将画面切换到变更后的讲话者，这样会导致视频不流畅。在本发明实施例中，在步骤S14成功获取所述当前讲话者的视频之前，本发明实施例提供的控制视频拍摄的方法还可包括：输出所述当前讲话者的前一个讲话者的视频。即，在成功获取所述当前讲话者的视频之前，输出所述当前讲话者的前一个讲话者的视频；在成功获取所述当前讲话者的视频之后，输出所述当前讲话者的视频。这样，在全屏输出画面时，不仅可以保证输出画面连续，而且还可以保证输出画面质量较高，避免摄像装置在获取所述当前讲话者的视频的过程中，因摄像装置转动/推拉摄像头而导致输出的画面出现模糊、晃动等现象。

[0134] 当然，在本发明实施例中，在输出所述本地会场的画面时，不仅可以全屏输出，而且还可以以画中画、双画面等形式进行输出。当采用画中画的形式输出时，在成功获取所述当前讲话者的视频之后，可以在大画面(第一画面)中输出所述当前讲话者，而在小画面(第二画面)中输出所述当前讲话者的前一个讲话者。当采用双画面形式输出时，在成功获取所述当前讲话者的视频之后，可以在互不包含的两部分画面的其中一部分画面中输出所述当前讲话者，而在另一部分画面中输出所述当前讲话者的前一个讲话者。关于这些输出形式的具体实现方式将会在后面的具体实施例中分别介绍。

[0135] 进一步地，在本发明实施例中，为了便于控制两摄像装置轮流拍摄当前讲话者和输出所述当前讲话者的视频，可以在开始拍摄之前分别为两摄像装置设置追踪标志，例如可以为所述第一摄像装置和所述第二摄像装置分别设置初始的追踪标志为第一追踪标志和第二追踪标志，所述追踪标志可以使用0或1等数字来表示。可以设置追踪标志为第一追踪标志的摄像装置专门用于拍摄当前讲话者的视频，设置追踪标志为第二追踪标志的摄像装置专门用于拍摄所述当前讲话者的下一个讲话者（或前一个讲话者）的视频。而且，在成功获取所述当前讲话者的视频后，所述第一摄像装置和所述第二摄像装置的追踪标志需要互换。

[0136] 在为第一摄像装置和第二摄像装置设置追踪标志的情况下，步骤S11在第一讲话者讲话时，控制第一摄像装置拍摄第一讲话者的视频可包括：在第一讲话者讲话时，控制具有第一追踪标志的第一摄像装置去拍摄第一讲话者的视频，在成功获取所述第一讲话者的视频后，将所述第一摄像装置的追踪标志从所述第一追踪标志设置为所述第二追踪标志，同时将所述第二摄像装置的追踪标志从所述第二追踪标志设置为所述第一追踪标志。

[0137] 步骤S12在当前讲话者从所述第一讲话者变更为第二讲话者时，控制第二摄像装置拍摄第二讲话者的视频可包括：在当前讲话者从所述第一讲话者变更为第二讲话者时，控制具有所述第一追踪标志的第二摄像装置去拍摄第二讲话者的视频，在成功获取所述第二讲话者的视频后，将所述第二摄像装置的追踪标志从所述第一追踪标志设置为所述第二追踪标志，同时将所述第一摄像装置的追踪标志从所述第二追踪标志设置为所述第一追踪标志。

[0138] 步骤S13当后续再发生讲话者变更时，依次控制所述第一摄像装置和所述第二摄像装置交替拍摄当前讲话者的视频可包括：后续每次发生讲话者变更时，控制具有所述第一追踪标志的摄像装置去拍摄当前讲话者的视频，在成功获取当前讲话者的视频后，将所述第一摄像装置和所述第二摄像装置的追踪标志互换。这样，能够保证两摄像装置相互配合、无缝对接，交替拍摄所述当前讲话者的视频。

[0139] 本发明实施例中，第一摄像装置和第二摄像装置均可以追踪讲话者。在第一讲话者讲话时，控制所述第一摄像装置拍摄所述第一讲话者，与此同时，所述第二摄像装置正处于准备跟踪拍摄所述第一讲话者的下一个讲话者的待命状态。在当前讲话者由所述第一讲话者变更为第二讲话者（即与所述第一讲话者位置不同的下一个讲话者）时，则控制所述第二摄像装置拍摄所述第二讲话者，与此同时，所述第一摄像装置保持拍摄所述第一讲话者，并转变为准备跟踪拍摄与所述第二讲话者位置不同的下一个讲话者的状态。这样，可以保证第一摄像装置和第二摄像装置可以相互配合、无缝对接。由于在讲话者发生变更时，摄像装置成功获取变更后的讲话者的视频的过程需要一定的时间。在这期间，现有技术由于采用一摄像装置专门用于拍摄本地会场的全景，另一摄像装置专门用于跟踪拍摄讲话者，因此，在所述专门用于跟踪拍摄讲话者的摄像装置成功获取当前讲话者的视频之前，需要先将画面切换到会场的全景，待摄像装置成功获取当前讲话者的视频时，才将画面切换到变更后的讲话者，这样会导致视频不流畅。而本发明所提供的技术方案中，只有在摄像装置成功获取当前讲话者的视频之后，才输出所述当前讲话者的视频，在摄像装置成功获取当前讲话者的视频之前，保持输出所述当前讲话者的前一个讲话者的视频。这样，相对于现有技术需要在摄像装置成功获取下一个讲话者的视频之前先切换到本地会场的全景，本发明确实能够减少视频切换次数，从而使画面衔接紧密，输出的视频更加流畅。而且，当本地会场中多人快速地交替讲话时，根据现有技术拍摄的画面会将多个讲话者包含进来，若所述多个讲话者距离较远，则无法在所拍摄的画面中观察所述多个讲话者的表情。在本发明中，由于所述第一摄像装置和所述第二摄像装置的相互配合，即使在本地会场中存在讲话者快速地交替讲话，两摄像装置也能够交替拍摄讲话者的面部画面。

[0140] 为更好地理解本发明，下面参照图3A至图10，再以几个具体实施例为例来对本发明进行进一步说明。亦须注意，以下所列举的实施例只是本发明的一部分实施例，本领域技术人员由本发明所述内容，可易于想到其他实施例，它们都在本发明的范围内。

[0141] 在以下的具体实施例中，可以利用追踪标志对摄像装置进行标记，并输出指定追踪标志的摄像装置所拍摄的视频。例如，可以将第一摄像装置的初始的追踪标志设置为0（即第一追踪标志），第二摄像装置的初始的追踪标志设置为1（即第二追踪标志），其中，追踪标志为0的摄像装置用于拍摄当前讲话者的视频；追踪标志为1的摄像装置用于拍摄当前讲话者的下一讲话者的视频，下文中为了简便均以此为例进行说明。当然，将第一摄像装置的追踪标志设置为1，第二摄像装置的追踪标志设置为0，或者其他设置追踪标志的方式也是可以的，本发明对此不作限定。

[0142] 图3A是本发明控制视频拍摄的方法的一具体实施例的流程图。图3B为本发明控制视频拍摄的方法的一具体实施例的另一流程图。

[0143] 如图3A所示，以摄像装置是摄像机为例，本发明具体实施例提供的控制视频拍摄的方法包括：

[0144] S31，会议开始时，控制两台摄像机拍摄本地会场的全景。

[0145] 在所述两台摄像机（第一摄像机和第二摄像机）开启后，即在会议开始时，本地会场还尚无人讲话，为了将本地会场的布置情况传送到远端会场，可以控制所述两台摄像机拍摄本地会场的全景，拍摄的角度和大小可由用户设置，优选的设置可以是能够包含所有与会者和主要会议场景的设置。将摄像机拍摄的画面从本地会场传送到远端会场时，由于此时两台摄像机拍摄的均为本地会场的全景，因而可以传送任意一台摄像机拍摄的画面，优选的是先传送追踪标志为1的摄像机（即第二摄像机）拍摄的画面。

[0146] S32，利用声源定位技术，控制第一摄像机拍摄所述第一讲话者的视频。

[0147] 在控制所述两台摄像机拍摄会场的全景之后，当会场中有一个人开始讲话时，即出现第一讲话者时，拾音麦克风阵列拾取本地会场的声音，并将所述声音发送给声源定位器，所述声源定位器根据声源定位技术产生讲话者位置信息。然后，控制器根据所述位置信息控制追踪标志为0的摄像机拍摄所述第一讲话者大小合适的视频。所述追踪标志为0的摄像机（即第一摄像机）拍摄到所述第一讲话者大小合适的视频之后，其追踪标志置为1，另一台摄像机（即第二摄像机）的追踪标志由1置为0。

[0148] S33，在当前讲话者从所述第一讲话者变更为第二讲话者时，控制所述第二摄像机拍摄所述第二讲话者的视频，其中，所述第二讲话者为与所述第一讲话者位置不同的下一个讲话者。

[0149] 当所述第一摄像机拍摄到所述第一讲话者大小合适的视频之后，所述第一摄像机的追踪标志变为了1，所述第二摄像机的追踪标志变为了0。之后，如果讲话者的位置发生变化，即由所述第一讲话者变更为与所述第一讲话者位置不同的所述第二讲话者，控制器可以控制所述追踪标志为0的摄像机（即所述第二摄像机）去拍摄所述第二讲话者的视频，控制拍摄的方法同S32。当所述追踪标志为0的摄像机拍摄到所述第二讲话者大小合适的视频之后，其追踪标志置为1，另一台摄像机的追踪标志则由1置为0。

[0150] S34，当后续再发生讲话者变更时，依次控制所述第一摄像机和所述第二摄像机交替拍摄当前讲话者的视频。

[0151] 当所述第二摄像机拍摄到所述第二讲话者大小合适的视频之后，所述第二摄像机的追踪标志变为了1，所述第一摄像机的追踪标志变为了0。之后，如果讲话者再由所述第二讲话者变更为第三讲话者（即所述第二讲话者的下一个讲话者），则控制追踪标志为0的摄像机（即所述第一摄像机）去拍摄第三讲话者，当所述追踪标志为0的摄像机成功获取所述第三讲话者的视频之后，所述追踪标志为0的摄像机的追踪标志由0置为1，另一台摄像机的追踪标志由1置为0。类似地，当讲话者由所述第三讲话者变更为第四讲话者（所述第三讲话者的下一个讲话者）时，再控制追踪标志为0的摄像机（即所述第二摄像机）去拍摄所述第四讲话者，当所述追踪标志为0的摄像机成功获取所述第四讲话者的视频之后，所述追踪标志为0的摄像机的追踪标志由0置为1，另一台摄像机的追踪标志由1置为0。这样，每次发生讲话者变更时，均控制追踪标志为0的摄像机（具体可能为第一摄像机或第二摄像机）去跟踪拍摄变更后的讲话者，而且，该摄像机成功地获取讲话者的视频之后，其追踪标志均由0置为1，另一台摄像机的追踪标志则由1置为0。

[0152] S35，在拍摄所述当前讲话者视频的摄像机成功获取当前讲话者的视频之后，全屏输出所述当前讲话者的视频。

[0153] 当标识为0的摄像机成功获取当前讲话者的视频之后，所述追踪标志为0的摄像机的追踪标志由0置为1，另一台摄像机的追踪标志则由1置为0。所以，变更后追踪标志为1的摄像机拍摄的视频即为所述当前讲话者的视频。在此，所述全屏输出所述当前讲话者的视频是指输出的视频来自一个摄像机。全屏显示的画面中可以只显示一个讲话者，也可以显示多个讲话者。其中，多个讲话者的距离较近，使得根据拍摄出来的视频能够观察到每个讲话者的肢体语言或面部信息。参照步骤S12，若多个讲话者距离较远以至无法在同一个摄像机拍摄的视频观察每一个讲话者，则可以认为讲话者的位置发生了变更，可以使用另一台摄像机拍摄讲话者的视频。在所述当前讲话者的视频以全屏的形式传送到远端会场之后，远端会场的与会者可以清楚地观察到所述当前讲话者的特写画面，其中所述特写画面可能包含着重要的会议信息，这样，可以尽可能多地保留重要的会议信息。

[0154] 如图4所示，从左到右的三幅图中，第一幅图表示会议开始时，显示器全屏显示本地会场的全景；第二幅图表示，第一讲话者出现后，显示器全屏显示第一讲话者的视频；第三幅图表示，当讲话者由第一讲话者变更为第二讲话者之后，显示器全屏显示第二讲话者。

[0155] S36，在拍摄所述当前讲话者视频的摄像机成功获取所述当前讲话者的视频之前，输出所述当前讲话者的前一个讲话者的视频。

[0156] 需要说明的是，步骤S36在步骤S35之前执行。

[0157] 由于从讲话者发生变更开始，到摄像机成功获取所述当前讲话者的视频之前的过程中，摄像机会转动/推拉摄像头，由此会产生模糊或不稳定的画面。但是，在上述过程中，通过输出所述当前讲话者的前一个讲话者的视频，可以避免输出所述模糊或不稳定的画面。

[0158] 为便于理解，下面对照附图5A及5B进行说明。如图5A所示，按照从左到右的顺序，约定三幅图分别为第一幅图、第二幅图、第三幅图。第三幅图讲话者是第一幅图讲话者的下一个讲话者，从讲话者发生变更开始到摄像机成功获取第三幅图讲话者大小合适的视频之前的过程中，如果直接输出摄像机在转动/推拉摄像头过程中拍摄的画面，就会出现第二幅图中模糊或不稳定的画面。相应地，本发明具体实施例在上述过程中，输出的是第一幅图讲话者的视频，而且只有在成功获取第三幅图讲话者的大小合适的视频之后，才输出第三幅图讲话者的视频，这样能够避免输出所述模糊或不稳定的画面(参照图5B)。

[0159] 另外，根据本地会场的情况，本具体实施例在实现的过程中可能出现以下几种情况，对应的处理方式如下：

[0160] （1）、本地会场无人讲话

[0161] 不切换输出的画面，仍输出本地会场的全景画面；

[0162] （2）、本地会场单个人讲话，无人插话

[0163] 输出的画面是当前讲话者的全屏显示画面；

[0164] （3）、本地会场单个人在讲话，有人插话，但插话时间很短

[0165] 不切换输出的画面，仍输出主讲话人全屏显示的画面；

[0166] （4）、本地会场单个人讲话，时有移动

[0167] 若讲话者的走动，头或身体的偏移没有超出当前的输出画面且位于该画面的设定中心区域内，则摄像机不切换，也不做跟踪，输出的画面是当前讲话者位于中心区域内的全屏显示画面；若讲话者的移动使得讲话者仍未超出当前的输出画面但有可能或已经超出该画面的设定中心区域，则摄像机不切换，但可以做适当的跟踪，以保持讲话者位于中心区域内；若讲话者的移动使得讲话者已经超出了当前的输出画面，则切换摄像机，对讲话者进行跟踪；

[0168] （5）、本地会场讲话人发生一次变更，变更成旁边的人或其他人

[0169] 若变更后的讲话者位置未超出变更前的输出画面且位于该画面的设定中心区域内，则摄像机不切换，也不做跟踪，输出的画面是变更后的讲话者位于中心区域内的全屏显示画面；若变更后讲话者的位置仍未超出变更前的输出画面但有可能或已经超出该画面的设定中心区域，则摄像机不切换，但可以做适当的跟踪，以保持变更后的讲话者位于中心区域内，输出的画面为变更后的讲话者位于中心区域内的全屏显示画面；若变更后的讲话者位置已经超出了变更前的输出画面，则切换摄像机，对变更后的讲话者进行跟踪；

[0170] （6）、本地会场多人同时讲话，即抢话状态

[0171] 这种情况下抢话的时间通常很短，不切换输出的画面；

[0172] （7）、本地会场多人讨论，交替讲话，即多次发生讲话人位置变更[0173] 摄像机交替跟踪每次位置发生变更后的讲话人，输出的画面为变更后讲话者的全屏显示画面。

[0174] 本具体实施例中，每次发生讲话者的位置变更时，均控制追踪标志为0的摄像机去跟踪拍摄位置变更后的讲话者，而且，在该摄像机成功地获取讲话者的合适视频之后，其追踪标志均由0置为1，另一台摄像机的追踪标志则由1置为0。这样就总可以保证在某个时刻，有一台摄像机正在拍摄当前讲话者，同时还有另外一台摄像机可以用于拍摄所述当前讲话者的下一个讲话者。也就是说，两台摄像机可以相互配合、无缝对接。由于在讲话者的位置发生变更时，摄像机成功获取变更后的讲话者的视频的过程需要一定的时间。在这期间，保持输出所述当前讲话者的前一个讲话者的视频，只有在摄像机成功获取当前讲话者的视频之后，才输出所述当前讲话者的视频，相对于现有技术需要先将画面切换到会场的全景，待摄像机成功获取变更后的讲话者的视频时，才将画面切换到变更后的讲话者，本发明确实能够减少视频切换次数，从而使画面衔接紧密，输出的视频更加流畅。而且，当会场中多人快速地交替讲话时，现有技术专门用于拍摄讲话者视频的摄像机拍摄的画面会将多个讲话者包含进来，若所述多个讲话者距离较远，则无法在所拍摄的画面中观察所述多个讲话者的表情。在本发明中，由于所述第一摄像机和所述第二摄像机的相互配合，即使在会场中存在讲话者快速地交替讲话，两摄像机也能够交替拍摄讲话者的面部画面。此外，通过全屏输出所述当前讲话者的视频，远端会场的与会者可以更加清楚地观察到所述当前讲话者的面部特写，这些面部特写可能包含着重要的会议信息，这样，可以更多地保留有价值的会议信息。

[0175] 图6是本发明控制视频拍摄的方法的另一具体实施例的流程图。

[0176] 如图6所示，以摄像装置是摄像机为例，本发明具体实施例提供的控制视频拍摄的方法包括：

[0177] S61，会议开始时，控制两台摄像机拍摄本地会场的全景。

[0178] 在所述两台摄像机开启后，即在会议开始时，本地会场还没有人讲话，为了将本地会场的布置情况传送到远端会场，可以控制所述两台摄像机拍摄本地会场的全景，拍摄的角度和大小可由用户设置，优选的设置可以是能够包含所有与会人和主要会议场景的设置，而且，在输出本地会场的全景视频时，优选的是先输出追踪标志为1的摄像机所拍摄的视频。

[0179] S62，结合声源定位技术和预置位，控制第一摄像机拍摄所述第一讲话者的视频。

[0180] 在控制所述两台摄像机拍摄会场的全景之后，当会场中有一个人开始讲话时，即出现第一讲话者时，利用声源定位技术获取第一讲话者的位置信息。再结合预置位，即结合预先设定的、讲话者在本地会场中讲话时所处的可能位置，确定所述第一讲话者的准确位置。具体地，可以从多个预置位中找出与声源定位获得的位置最接近的预置位作为准确位置。然后，控制器根据所述第一讲话者的准确位置，控制追踪标志为0的摄像机去拍摄第一讲话者的视频。所述追踪标志为0的摄像机拍摄到所述第一讲话者的合适视频之后，其追踪标志置为1，另一台摄像机的追踪标志由1置为0。

[0181] S63，在当前讲话者从所述第一讲话者变更为第二讲话者时，控制所述第二摄像机拍摄所述第二讲话者的视频，其中，所述第二讲话者为与所述第一讲话者位置不同的下一个讲话者。

[0182] 当所述第一摄像机成功拍摄到所述第一讲话者的视频之后，所述第一摄像机的追踪标志变为了1，所述第二摄像机的追踪标志变为了0。此时，如果讲话者发生变化，即由所述第一讲话者变更为与所述第一讲话者位置不同的所述第二讲话者，像步骤S62那样地，控制器可以控制所述追踪标志为0的摄像机（即所述第二摄像机）去拍摄所述第二讲话者的视频。当所述追踪标志为0的摄像机成功拍摄到所述第二讲话者的视频之后，其追踪标志置为1，另一台摄像机的追踪标志由1置为0。

[0183] S64，当后续再发生讲话者变更时，依次控制所述第一摄像机和所述第二摄像机交替拍摄当前讲话者的视频。

[0184] 当所述第二摄像机成功拍摄到所述第二讲话者的视频之后，所述第二摄像机的追踪标志变为了1，所述第一摄像机的追踪标志变为了0。如果讲话者再由所述第二讲话者变更为第三讲话者，则控制追踪标志为0的摄像机（即所述第一摄像机）去拍摄第三讲话者，当所述追踪标志为0的摄像机成功获取所述第三讲话者的合适视频之后，所述追踪标志为0的摄像机的追踪标志由0置为1，另一台摄像机（即所述第二摄像机）的追踪标志由1置为0。类似地，当讲话者由所述第三讲话者变更为第四讲话者（即所述第三讲话者的下一个讲话者），再控制追踪标志为0的摄像机（即所述第二摄像机）去拍摄第四讲话者，当所述追踪标志为0的摄像机成功获取所述第四讲话者的合适视频之后，所述追踪标志为0的摄像机的追踪标志由0置为1，另一台摄像机（即所述第一摄像机）的追踪标志由1置为0。当后续再发生讲话者变更时，以同样的方式进行交替拍摄。

[0185] S65，在拍摄所述当前讲话者视频的摄像机成功获取当前讲话者的视频之后，以画中画的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频；其中，所述画中画包括第一画面和包含在所述第一画面中的、比第一画面小的第二画面，在所述第一画面中输出所述当前讲话者，所述第二画面中输出所述当前讲话者的前一个讲话者。

[0186] 当标识为0的摄像机成功获取当前讲话者的视频之后，所述追踪标志为0的摄像机的追踪标志由0置为1。此时，追踪标志为1的摄像机拍摄的是所述当前讲话者的视频，追踪标志为0的摄像机拍摄的是所述当前讲话者的前一个讲话者的视频。在此，所述以画中画的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频，是指在所述第一画面中输出所述当前讲话者，在包含于所述第一画面且比第一画面小的所述第二画面中，输出所述当前讲话者的前一个讲话者。这样，远端会场的与会者除了可以观察到所述当前讲话者的面部表情之外，还可以观察到一方对于另一方发言的反应表情，这些表情可能包含着重要的会议信息，这样，可以尽可能多地保留重要的会议信息。

[0187] 如图7所示，从左到右的三幅图中，第一幅图表示会议开始时，以画中画的形式输出本地会场的全景；第二幅图表示，第一讲话者出现后，在大画面（即第一画面）中输出第一讲话者，屏幕的右下角（即第二画面）输出本地会场全景；第三幅图表示，当讲话者由第一讲话者变更为第二讲话者之后，大画面中输出第二讲话者，屏幕的右下角输出第一讲话者。

[0188] S66，在拍摄所述当前讲话者视频的摄像机成功获取所述当前讲话者的视频之前，在所述第一画面和第二画面中分别输出所述当前讲话者的前两个讲话者。

[0189] 需要说明的是，步骤S66在步骤S65之前执行。

[0190] 由于从讲话者发生变更到摄像机成功获取所述当前讲话者的视频的过程中，摄像机会转动/推拉摄像头，从而产生模糊或不稳定的画面。为此，可以在所述第一画面和第二画面中分别输出所述当前讲话者的前两个讲话者，这样能够避免输出所述模糊或不稳定的画面。

[0191] 为便于理解，下面对照附图8A及8B进行说明。如图8A所示，按照从左到右的顺序，约定三幅图分别为第一幅图、第二幅图、第三幅图。第一幅图右下角（即第二画面）讲话者是第一幅图大画面（即第一画面）讲话者的前一个讲话者，第一幅图大画面讲话者是第三幅图大画面讲话者的前一个讲话者。现在，讲话者由第一幅图大画面讲话者变更为第三幅图大画面讲话者。从讲话者发生变更开始到摄像机成功获取第三幅图大画面讲话者的视频之前的过程中，如果直接输出摄像机在转动/推拉摄像头过程中拍摄的画面，就会出现第二幅图右下角画面中模糊或不稳定的画面。如图8B所示，相应地，本发明具体实施例在上述过程中，输出的是第一幅图讲话者的活动画面（第二幅图大画面）和第一幅图讲话者的前一个讲话者的凝固画面（第二幅图右下角画面），能够避免输出所述模糊或不稳定的画面。

[0192] 当然，根据实际需要，从讲话者发生变更到摄像机成功获取所述当前讲话者的视频的过程中，也可以采用图8A的第二幅图所示的输出方式。

[0193] 另外，根据本地会场的情况，本具体实施例在实现的过程中可能出现以下几种情况，对应的处理方式如下：

[0194] （1）、本地会场无人讲话

[0195] 输出画面的组合方式不变，仍输出本地会场的全景画面；

[0196] （2）、本地会场单个人讲话，无人插话

[0197] 第一画面中输出当前讲话者，第二画面输出的是所述当前讲话者的前一个讲话者，画面组合方式不变；

[0198] （3）、本地会场单个人在讲话，有人插话，但插话时间很短

[0199] 第一画面中输出主讲人，第二画面不切换或者输出插话人，优选是所述第二画面不切换；

[0200] （4）、本地会场单个人讲话，时有移动

[0201] 若讲话者的走动，头或身体的偏移没有超出当前输出的第一画面且位于第一画面的设定中心区域内，则摄像机不切换，也不做跟踪，第一画面输出的是当前讲话者有动作的画面，第二画面不变，输出画面组合方式不变；若讲话者的移动使得讲话者仍未超出当前输出的第一画面但有可能或已经超出第一画面的设定中心区域，则摄像机不切换，但可以做适当的跟踪，以保持讲话者位于第一画面的设定中心区域内，第二画面不变，输出画面组合方式不变；若讲话者的移动使得讲话者已经超出了当前输出的第一画面，则切换摄像机，对讲话者进行跟踪，跟踪成功后在第一画面中输出讲话者，摄像机切换前的第一画面切换至第二画面进行输出；

[0202] （5）、本地会场讲话人发生一次变更，变更成旁边的人或其他人

[0203] 若变更后的讲话者位置未超出变更前的第一画面且位于第一画面的设定中心区域内，则摄像机不切换，也不做跟踪，第一画面输出的是变更后的讲话者位于中心区域内的画面，第二画面不变；若变更后讲话者的位置仍未超出变更前的第一画面但有可能或已经超出第一画面的设定中心区域，则摄像机不切换，但可以做适当的跟踪，以保持变更后的讲话者位于第一画面中心区域内，第二画面不变；若变更后的讲话者位置已经超出了变更前的第一画面，则切换摄像机，对变更后的讲话者进行跟踪，第一画面输出变更后的讲话者，第二画面输出变更前的讲话者；

[0204] （6）、本地会场多人同时讲话，即抢话状态

[0205] 这种情况下抢话的时间通常很短，输出画面的组合方式不变；

[0206] （7）、本地会场多人讨论，交替讲话，即多次发生讲话人位置变更[0207] 摄像机交替跟踪每次位置发生变更后的讲话人，改变输出画面的组合方式，即每次变更后，所述第一画面中输出当前讲话者，第二画面输出的是所述当前讲话者的前一个讲话者。

[0208] 在本具体实施例中，每次发生讲话者的位置变更时，均控制追踪标志为0的摄像机去跟踪拍摄位置变更后的讲话者，而且，在该摄像机成功地获取讲话者大小合适的视频之后，其追踪标志均由0置为1，另一台摄像机的追踪标志则由1置为0。这样就总可以保证在某个时刻，有一台摄像机正在拍摄当前讲话者，同时还有另外一台摄像机处于空闲状态，可以用于拍摄所述当前讲话者的下一个讲话者。也就是说，两台摄像机可以相互配合、无缝对接。由于在讲话者的位置发生变更时，摄像机成功获取变更后的讲话者的视频的过程需要一定的时间。在这期间，保持输出所述当前讲话者的前一个讲话者的视频，只有在摄像机成功获取当前讲话者的视频之后，才输出所述当前讲话者的视频，相对于现有技术需要先将画面切换到会场的全景，待摄像机成功获取变更后的讲话者的视频时，才将画面切换到变更后的讲话者，本发明确实能够减少视频切换次数，从而使画面衔接紧密，输出的视频更加流畅。而且，当会场中多人快速地交替讲话时，现有技术专门用于拍摄讲话者视频的摄像机拍摄的画面会将多个讲话者包含进来，若所述多个讲话者距离较远，则无法在所拍摄的画面中观察所述多个讲话者的表情。在本发明中，由于所述第一摄像机和所述第二摄像机的相互配合，即使在会场中存在讲话者快速地交替讲话，两摄像机也能够交替拍摄讲话者的面部画面。此外，以画中画的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频，使得远端会场的与会者可以清楚地观察到所述当前讲话者的面部特写，同时还可以看到本地会场中讲话者变更的情况以及一方对于另一方发言的反应，这样，就更多地保留了有价值的会议信息。

[0209] 图9是本发明控制视频拍摄的方法的又一具体实施例的流程图。

[0210] 如图9所示，以摄像装置是摄像机为例，本发明具体实施例提供的控制视频拍摄的方法包括：

[0211] S91，会议开始时，控制两台摄像机拍摄会场的全景。

[0212] 在所述两台摄像机开启后，即在会议开始时，本地会场还没有人讲话，为了将本地会场的布置情况传送到远端会场，可以控制所述两台摄像机拍摄本地会场的全景，拍摄的角度和大小可由用户设置，优选的设置可以是能够包含所有与会人和主要会议场景的设置，在输出本地会场的全景画面的视频时，优选的是先输出追踪标志为1的摄像机所拍摄的视频。

[0213] S92，利用声源定位技术和图像识别技术，控制第一摄像机拍摄所述第一讲话者的视频。

[0214] 在控制所述两台摄像机拍摄会场的全景之后，当会场中有一个人开始讲话时，即出现第一讲话者时，利用声源定位技术获取第一讲话者的位置，控制追踪标志为0的摄像机转动到合适的角度。再利用图像识别技术，进一步判断所述第一讲话者的准确位置。然后，控制器根据所述第一讲话者的准确位置，控制追踪标志为0的摄像机去拍摄第一讲话者的视频。所述追踪标志为0的摄像机拍摄到所述第一讲话者的合适视频之后，其追踪标志置为1，另一台摄像机的追踪标志由1置为0。

[0215] S93，在当前讲话者从所述第一讲话者变更为第二讲话者时，控制所述第二摄像机拍摄所述第二讲话者的视频，其中，所述第二讲话者为与所述第一讲话者位置不同的下一个讲话者。

[0216] 当所述第一摄像机成功拍摄到所述第一讲话者的视频之后，所述第一摄像机的追踪标志变为了1，所述第二摄像机的追踪标志变为了0。此时，如果讲话者发生变化，即由所述第一讲话者变更为与所述第一讲话者位置不同的所述第二讲话者，像步骤S92那样地，控制器可以控制所述追踪标志为0的摄像机（即所述第二摄像机）去拍摄所述第二讲话者的视频。当所述追踪标志为0的摄像机拍摄到所述第二讲话者的合适视频之后，其追踪标志置为1，另一台摄像机的追踪标志由1置为0。

[0217] S94，当后续再发生讲话者变更时，依次控制所述第一摄像机和所述第二摄像机交替拍摄当前讲话者的视频。

[0218] 当所述第二摄像机成功拍摄到所述第二讲话者的视频之后，所述第二摄像机的追踪标志变为了1，所述第一摄像机的追踪标志变为了0。如果讲话者再由所述第二讲话者变更为第三讲话者，则控制追踪标志为0的摄像机（即所述第一摄像机）去拍摄第三讲话者，当所述追踪标志为0的摄像机成功获取所述第三讲话者的合适视频之后，所述追踪标志为0的摄像机的追踪标志由0置为1，另一台摄像机（即所述第二摄像机）的追踪标志由1置为0。类似地，当讲话者由所述第三讲话者变更为第四讲话者（即所述第三讲话者的下一个讲话者），再控制追踪标志为0的摄像机（即所述第二摄像机）去拍摄第四讲话者，当所述追踪标志为0的摄像机成功获取所述第四讲话者的合适视频之后，所述追踪标志为0的摄像机的追踪标志由0置为1，另一台摄像机（即所述第一摄像机）的追踪标志由1置为0。当后续再发生讲话者变更时，以同样的方式进行交替拍摄。

[0219] S95，在拍摄所述当前讲话者视频的摄像机成功获取当前讲话者的视频之后，以双画面的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频；其中，所述双画面包括互不包含的二部分画面，一部分画面输出所述当前讲话者，另一部分画面输出所述当前讲话者的前一个讲话者。

[0220] 当标识为0的摄像机成功获取当前讲话者的视频之后，所述追踪标志为0的摄像机的追踪标志由0置为1。此时，追踪标志为1的摄像机拍摄的是所述当前讲话者的视频，追踪标志为0的摄像机拍摄的是所述当前讲话者的前一个讲话者的视频。在此，所述以双画面的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频，是指在一个画面中输出所述当前讲话者，在另一个画面中输出所述当前讲话者的前一个讲话者，上述两个画面互不包含。这样，远端会场的与会者除了可以观察到所述当前讲话者的面部表情之外，还可以观察到一方对于另一方发言的反应表情，这些表情可能包含着重要的会议信息，这样，可以尽可能多地保留重要的会议信息。

[0221] 如图10所示，从左到右的三幅图中，第一幅图表示会议开始时，以双画面的形式输出本地会场的全景；第二幅图表示，第一讲话者出现后，在左侧画面中输出第一讲话者，右侧画面输出本地会场全景；第三幅图表示，讲话者由第一讲话者变更为第二讲话者之后，右侧画面中输出第二讲话者，左侧画面输出第一讲话者。

[0222] S96，在拍摄所述当前讲话者视频的摄像机成功获取所述当前讲话者的视频之前，在所述双画面中分别输出所述当前讲话者的前两个讲话者。

[0223] 需要说明的是，步骤S96在步骤S95之前执行。

[0224] 由于从讲话者发生变更开始，到摄像机成功获取所述当前讲话者的视频结束的过程中，摄像机会转动/推拉摄像头，从而产生模糊或不稳定的画面。为此，在所述双画面中分别输出所述当前讲话者的前两个讲话者，可以避免输出所述模糊或不稳定的画面。

[0225] 下面用对照的附图11A及11B进行说明。如图11A，按照从左到右的顺序，约定三幅图分别为第一幅图、第二幅图、第三幅图。第一幅图右侧画面讲话者是第一幅图左侧讲话者的前一个讲话者，第一幅图左侧画面讲话者是第三幅图右侧画面讲话者的前一个讲话者。现在，讲话者由第一幅图左侧画面讲话者变更为第三幅图右侧画面讲话者。从讲话者发生变更开始到摄像机成功获取第三幅图右侧画面讲话者的合适视频之前的过程中，如果直接输出摄像机在转动/推拉摄像头过程中拍摄的画面，就会出现第二幅图右侧画面中模糊或不稳定的画面。如图11B所示，相应地，本发明具体实施例在上述过程中，输出的是第一幅图讲话者的活动画面（第二幅图右侧画面）和第一幅图讲话者的前一个讲话者的凝固画面(第二幅图左侧画面)，能够避免输出所述模糊或不稳定的画面。

[0226] 当然，根据实际需要，从讲话者发生变更到摄像机成功获取所述当前讲话者的视频的过程中，也可以采用图8A的第二幅图所示的输出方式。

[0227] 另外，根据本地会场的情况，本具体实施例在实现的过程中可能出现以下几种情况，对应的处理方式如下：

[0228] （1）、本地会场无人讲话

[0229] 输出画面的组合方式不变，仍输出本地会场的全景画面；

[0230] （2）、本地会场单个人讲话，无人插话

[0231] 一部分画面中输出当前讲话者，另一部分画面输出的是所述当前讲话者的前一个讲话者，画面组合方式不变；

[0232] （3）、本地会场单个人在讲话，有人插话，但插话时间很短

[0233] 一部分画面中输出主讲人，另一部分画面不切换或者输出插话人，优选是所述另一部分画面不切换；

[0234] （4）、本地会场单个人讲话，时有移动

[0235] 若讲话者的走动，头或身体的偏移没有超出当前的输出画面且位于该画面的设定中心区域内，则摄像机不切换，也不做跟踪，输出画面组合方式不变；若讲话者的移动使得讲话者仍未超出当前的输出画面但有可能或已经超出当前的输出画面的设定中心区域，则摄像机不切换，但可以做适当的跟踪，以保持讲话者位于中心区域内，输出画面组合方式不变；若讲话者的移动使得讲话者已经超出了当前的输出画面，则切换摄像机，对讲话者进行跟踪；

[0236] （5）、本地会场讲话人发生一次变更，变更成旁边的人或其他人

[0237] 若后一个讲话者位置未超出前一个讲话者的输出画面且位于该画面的设定中心区域内，则摄像机不切换，也不做跟踪，输出的画面是后一个讲话者位于中心区域内的画面；若后一个讲话者的位置仍未超出前一个讲话者的输出画面但有可能或已经超出该画面的设定中心区域，则摄像机不切换，但可以做适当的跟踪，以保持后一个讲话者位于中心区域内，输出的画面为后一个讲话者位于中心区域内的画面；若后一个讲话者位置已经超出了前一个讲话者的输出画面，则切换摄像机，对后一个讲话者进行跟踪；

[0238] （6）、本地会场多人同时讲话，即抢话状态

[0239] 这种情况下抢话的时间通常很短，输出画面的组合方式不变；

[0240] （7）、本地会场多人讨论，交替讲话，即多次发生讲话人位置变更[0241] 摄像机交替跟踪每次位置发生变更后的讲话人，改变输出画面的组合方式，即每次变更后，一部分画面中输出当前讲话者，另一部分画面输出的是所述当前讲话者的前一个讲话者。

[0242] 本具体实施例中，每次发生讲话者的位置变更时，均控制追踪标志为0的摄像机去跟踪拍摄位置变更后的讲话者，而且，在该摄像机成功地获取讲话者大小合适的视频之后，其追踪标志均由0置为1，另一台摄像机的追踪标志则由1置为0。这样就总可以保证在某个时刻，有一台摄像机正在拍摄当前讲话者，同时还有另外一台摄像机可以用于拍摄所述当前讲话者的下一个讲话者。也就是说，两台摄像机可以相互配合、无缝对接。由于在讲话者的位置发生变更时，摄像机成功获取变更后的讲话者的视频的过程需要一定的时间。在这期间，保持输出所述当前讲话者的前一个讲话者的视频，只有在摄像机成功获取当前讲话者的视频之后，才输出所述当前讲话者的视频，相对于现有技术需要先将画面切换到会场的全景，待摄像机成功获取变更后的讲话者的视频时，才将画面切换到变更后的讲话者，本发明确实能够减少视频切换次数，从而使画面衔接紧密，输出的视频更加流畅。而且，当会场中多人快速地交替讲话时，现有技术专门用于拍摄讲话者视频的摄像机拍摄的画面会将多个讲话者包含进来，若所述多个讲话者距离较远，则无法在所拍摄的画面中观察所述多个讲话者的表情。在本发明中，由于所述第一摄像机和所述第二摄像机的相互配合，即使在会场中存在讲话者快速地交替讲话，两摄像机也能够交替拍摄讲话者的面部画面。此外，通过双画面的形式输出当前讲话者和所述当前讲话者的前一个讲话者的视频，远端会场的与会者除了可以清楚地观察到所述当前讲话者面部特写外，还可以观察到本地会场中一方对于另一方发言的反应（适合多人交谈，特别是两人交谈的情形），这样，就更多地保留有价值的会议信息。

[0243] 与本发明实施例提供的一种控制视频拍摄的方法相对应，本发明实施例还提供一种控制视频拍摄的装置。本发明实施例提供的控制视频拍摄的装置可以由具备控制处理功能的一类装置来实施，所述装置举例而言可以为摄像机、视频控制器、视频终端等。如图12所示，本发明实施例提供的一种控制视频拍摄的装置12包括：

[0244] 控制单元121，用于在第一讲话者讲话时，控制第一摄像装置拍摄第一讲话者的视频；用于在当前讲话者从所述第一讲话者变更为第二讲话者时，控制第二摄像装置拍摄第二讲话者的视频，其中，所述第二讲话者为与所述第一讲话者位置不同的下一个讲话者；还用于当后续再发生讲话者变更时，依次控制所述第一摄像装置和所述第二摄像装置交替拍摄当前讲话者的视频。

[0245] 处理单元122，与所述控制单元121连接，用于在成功获取所述当前讲话者的视频之后输出所述当前讲话者的视频。

[0246] 其中，可选地，在一个实施例中，所述控制单元121还可用于：控制第一摄像装置拍摄第一讲话者的视频之前，在初始状态时，控制所述第一摄像装置和所述第二摄像装置拍摄整个会场的视频；

[0247] 所述处理单元122，还用于将所拍摄的视频输出。

[0248] 可选地，在另一个实施例中，所述控制单元121还用于：为所述第一摄像装置和所述第二摄像装置分别设置追踪标志，其中，所述第一摄像装置的追踪标志初始为第一追踪标志，所述第二摄像装置的追踪标志初始为第二追踪标志。

[0249] 所述控制单元121具体用于：在第一讲话者讲话时，控制具有第一追踪标志的第一摄像装置去拍摄第一讲话者的视频，在成功获取所述第一讲话者的视频后，将所述第一摄像装置的追踪标志从所述第一追踪标志设置为所述第二追踪标志，同时将所述第二摄像装置的追踪标志从所述第二追踪标志设置为所述第一追踪标志。

[0250] 所述控制单元121具体用于：在当前讲话者从所述第一讲话者变更为第二讲话者时，控制具有所述第一追踪标志的第二摄像装置去拍摄第二讲话者的视频，在成功获取所述第二讲话者的视频后，将所述第二摄像装置的追踪标志从所述第一追踪标志设置为所述第二追踪标志，同时将所述第一摄像装置的追踪标志从所述第二追踪标志设置为所述第一追踪标志。

[0251] 所述控制单元121具体用于：后续每次发生讲话者变更时，控制具有所述第一追踪标志的摄像装置去拍摄当前讲话者的视频，在成功获取当前讲话者的视频后，将所述第一摄像装置和所述第二摄像装置的追踪标志互换。

[0252] 可选地，控制单元121具体用于：判断所述第二讲话者位置是否在所述第一讲话者的输出画面中；若所述第二讲话者位置不在所述第一讲话者的输出画面中，则控制所述第二摄像装置拍摄所述第二讲话者的视频；

[0253] 若所述第二讲话者位置在所述第一讲话者的输出画面中，则进一步判断所述第二讲话者位置是否在所述第一讲话者的输出画面的设定区域内；若所述第二讲话者位置在所述设定区域内，则控制所述第一摄像装置拍摄所述第二讲话者的视频；若所述第二讲话者位置不在所述设定区域内，则控制所述第一摄像装置跟踪拍摄所述第二讲话者，以使所述第二讲话者位置在所述设定区域内。

[0254] 可选地，所述控制单元121可具体用于：利用声源定位技术，控制摄像装置拍摄讲话者的视频。

[0255] 进一步地，所述控制单元121可具体用于：利用声源定位技术并结合预置位或图像识别技术，控制摄像装置拍摄讲话者的视频。

[0256] 需要说明的是，所述第一摄像装置和所述第二摄像装置可以由连接装置连接固定在一起，也可以相互独立。

[0257] 本实施例中，有人开始讲话时，控制单元121控制其中一台摄像装置拍摄当前讲话者的视频，处理单元122在成功获取到当前讲话者的视频之后，将所述视频输出。此时，另一台摄像装置处于准备跟踪拍摄所述当前讲话者的下一个讲话者的待命状态。当后续讲话者发生变更时，控制单元121可以立即控制处于所述待命状态的摄像装置拍摄所述当前讲话者的下一个讲话者的视频。由于从讲话者的位置发生变更开始，到获取变更后讲话者的合适视频的过程需要时间，本实施例在这期间输出到远端会场的画面不需要先切换到会场的全景，而是继续输出变更前讲话者的视频，这样，能够减少视频切换次数，从而使画面衔接紧密，输出的视频更加流畅。而且，由于控制单元121控制两台摄像装置交替拍摄当前讲话者的视频，即使在会场中存在讲话者快速地交替讲话，两台摄像装置也能够交替拍摄讲话者的面部画面，更多地保留有价值的会议信息。

[0258] 可选地，在本发明的另一实施例中，处理单元122可以全屏输出所述当前讲话者的视频。处理单元122具体用于：在成功获取所述当前讲话者的视频之后，设置所述当前讲话者的视频全屏显示，完成设置后，全屏输出所述当前讲话者的视频；在成功获取所述当前讲话者的视频之前，全屏输出所述当前讲话者的前一个讲话者的视频。

[0259] 通过全屏输出所述当前讲话者的视频，远端会场的与会者可以更加清楚地观察到所述当前讲话者的面部特写，这些面部特写可能包含着重要的会议信息，这样，可以进一步保留有价值的会议信息。

[0260] 可选地，在本发明的又一实施例中，处理单元122可以以画中画的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频。

[0261] 处理单元122具体用于：在成功获取所述当前讲话者的视频之后，设置所述当前讲话者的视频和所述当前讲话者的前一个讲话者的视频以画中画的形式进行显示；其中，所述画中画包括第一画面和包含在所述第一画面中的、比所述第一画面小的第二画面，在所述第一画面中显示所述当前讲话者，在所述第二画面中显示所述当前讲话者的前一个讲话者；设置完成后，以画中画的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频。

[0262] 控制单元121还用于：在当前讲话者从所述第二讲话者变更为第三讲话者时，控制所述第一摄像装置拍摄第三讲话者的视频，其中，所述第三讲话者为与所述第二讲话者位置不同的下一个讲话者。

[0263] 处理单元122具体用于：在成功获取所述第三讲话者的视频之前：在所述第一画面中输出所述第二讲话者，在所述第二画面中输出所述第一讲话者的凝固画面；或者，在所述第一画面中输出所述第二讲话者，在所述第二画面中输出已经开始拍摄但尚未成功获取过程中的所述第三讲话者；在成功获取所述第三讲话者的视频之后：在所述第一画面中输出所述第三讲话者，在所述第二画面中输出所述第二讲话者。

[0264] 以画中画的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频，使得远端会场的与会者可以清楚地观察到所述当前讲话者的面部特写，同时还可以看到本地会场中讲话者变更的情况以及一方对于另一方发言的反应，这样，就更多地保留了有价值的会议信息。

[0265] 可选地，在本发明的再一实施例中，处理单元122可以以双画面的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频。

[0266] 处理单元122具体用于：在成功获取所述当前讲话者的视频之后，设置所述当前讲话者的视频和所述当前讲话者的前一个讲话者的视频以双画面的形式进行显示；其中，所述双画面包括互不包含的二部分画面，一部分画面显示所述当前讲话者，另一部分画面显示所述当前讲话者的前一个讲话者；设置完成后，以双画面的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频。

[0267] 控制单元121还用于：在当前讲话者从所述第二讲话者变更为第三讲话者时，控制所述第一摄像装置拍摄第三讲话者的视频，其中，所述第三讲话者为与所述第二讲话者位置不同的下一个讲话者。

[0268] 处理单元122具体用于：在成功获取所述第三讲话者的视频之前：在所述一部分画面中输出所述第一讲话者的凝固画面，在所述另一部分画面中输出所述第二讲话者；或者，在所述一部分画面中输出已经开始拍摄但尚未成功获取过程中的所述第三讲话者，在所述另一部分画面中输出所述第二讲话者；在成功获取所述第三讲话者的视频之后：在所述一部分画面中输出所述第三讲话者，在所述另一部分画面中输出所述第二讲话者。

[0269] 通过双画面的形式输出当前讲话者和所述当前讲话者的前一个讲话者的视频，远端会场的与会者除了可以清楚地观察到所述当前讲话者面部特写外，还可以观察到本地会场中一方对于另一方发言的反应（适合多人交谈，特别是两人交谈的情形），这样，就更多地保留有价值的会议信息。

[0270] 值得注意的是，上述控制视频拍摄的装置实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

[0271] 下面参照图13A至图13C对本发明控制视频拍摄的装置的其他实施例进行说明。如图13A所示，本发明实施例提供的控制视频拍摄的装置13包括：

[0272] 控制器131，用于在第一讲话者讲话时，控制第一摄像模块132拍摄第一讲话者的视频；用于在当前讲话者从所述第一讲话者变更为第二讲话者时，控制第二摄像模块133拍摄第二讲话者的视频，其中，所述第二讲话者为与所述第一讲话者位置不同的下一个讲话者；还用于当后续再发生讲话者变更时，依次控制第一摄像模块132和第二摄像模块133交替拍摄当前讲话者的视频。

[0273] 输出处理器134，与第一摄像模块132和第二摄像模块133连接，用于在成功获取所述当前讲话者的视频之后输出所述当前讲话者的视频。

[0274] 所述输出处理器134可以集成在第一摄像模块132或第二摄像模块133中，也可以与第一摄像模块132和第二摄像模块133分离。

[0275] 其中，可选地，所述控制器131还可用于：控制第一摄像模块132拍摄第一讲话者的视频之前，在初始状态时，控制第一摄像模块132和第二摄像模块133拍摄整个会场的视频；

[0276] 所述输出处理器134，还用于将所拍摄的整个会场的视频输出。

[0277] 第一摄像模块132与第二摄像模块133可以相互独立，也可以由连接装置连接固定在一起，形成一个双摄像模块。第一摄像模块132与第二摄像模块133可以集成在控制视频拍摄的装置13上，也可以与控制视频拍摄的装置13分离。

[0278] 可选地，在一个实施例中，所述控制器131还可用于：为所述第一摄像模块132和所述第二摄像模块133分别设置追踪标志，其中，所述第一摄像模块132的追踪标志初始为第一追踪标志，所述第二摄像模块133的追踪标志初始为第二追踪标志。

[0279] 所述控制器131具体用于：在第一讲话者讲话时，控制具有第一追踪标志的第一摄像模块132去拍摄第一讲话者的视频，在成功获取所述第一讲话者的视频后，将所述第一摄像模块132的追踪标志从所述第一追踪标志设置为所述第二追踪标志，同时将所述第二摄像模块133的追踪标志从所述第二追踪标志设置为所述第一追踪标志。

[0280] 所述控制器131具体用于：在当前讲话者从所述第一讲话者变更为第二讲话者时，控制具有所述第一追踪标志的第二摄像模块133去拍摄第二讲话者的视频，在成功获取所述第二讲话者的视频后，将所述第二摄像模块133的追踪标志从所述第一追踪标志设置为所述第二追踪标志，同时将所述第一摄像模块132的追踪标志从所述第二追踪标志设置为所述第一追踪标志。

[0281] 所述控制器131具体用于：后续每次发生讲话者变更时，控制具有所述第一追踪标志的摄像装置去拍摄当前讲话者的视频，在成功获取当前讲话者的视频后，将所述第一摄像模块132和所述第二摄像模块133的追踪标志互换。

[0282] 如图13B所示，可选地，本发明实施例提供的控制视频拍摄的装置13还包括：

[0283] 拾音麦克风阵列135、声源定位器136，用于：利用声源定位技术，获取讲话者的位置，其中，根据拾音麦克风阵列135拾取的声音，声源定位器136利用声源定位技术进行定位。控制器131根据声源定位得到的位置，控制摄像模块拍摄讲话者的视频。

[0284] 如图13B所示，进一步地，本发明实施例提供的控制视频拍摄的装置13还包括：图像定位器137，用于利用人脸检测、肤色检测或唇动检测等图像识别技术对讲话者进行定位；控制器131可用于根据图像识别技术得到的位置信息，控制摄像模块拍摄讲话者的视频。

[0285] 可选地，控制器131根据声源定位得到的位置和预置位信息，控制摄像模块拍摄讲话者的视频。

[0286] 可选地，图像定位器137具体用于判断所述第二讲话者位置是否在所述第一讲话者的输出画面中；若所述第二讲话者位置不在所述第一讲话者的输出画面中，则控制器131控制第二摄像模块133拍摄所述第二讲话者的视频；

[0287] 若所述第二讲话者位置在所述第一讲话者的输出画面中，则图像定位器137进一步判断所述第二讲话者位置是否在所述第一讲话者的输出画面的设定区域内；若所述第二讲话者位置在所述设定区域内，则控制器131控制第一摄像模块132拍摄所述第二讲话者的视频；若所述第二讲话者位置不在所述设定区域内，则控制器131控制第一摄像模块132跟踪拍摄所述第二讲话者，以使所述第二讲话者位置在所述设定区域内。

[0288] 本实施例中，有人开始讲话时，控制器131控制其中第一摄像模块132拍摄当前讲话者的视频，输出处理器134获取到当前讲话者的视频，并输出该视频。此时，第二摄像模块133处于准备跟踪拍摄所述当前讲话者的下一个讲话者的待命状态。当后续讲话者发生变更时，控制器131可以立即控制处于所述待命状态的第二摄像模块133拍摄所述当前讲话者的下一个讲话者的视频。由于从讲话者的位置发生变更开始，到获取变更后讲话者的合适视频的过程需要时间，本实施例在这期间输出到远端会场的画面不需要先切换到会场的全景，而是继续输出变更前讲话者的视频，这样，能够减少视频切换次数，从而使画面衔接紧密，输出的视频更加流畅。而且，由于控制器131控制两个摄像模块交替拍摄当前讲话者的视频，即使在会场中存在讲话者快速地交替讲话，两个摄像模块也能够交替拍摄讲话者的面部画面，更多地保留有价值的会议信息。

[0289] 可选地，在本发明的另一实施例中，输出处理器134可以全屏输出所述当前讲话者的视频。输出处理器134具体用于：在成功获取所述当前讲话者的视频之后，设置所述当前讲话者的视频全屏显示，完成设置后，全屏输出所述当前讲话者的视频；在成功获取所述当前讲话者的视频之前，全屏输出所述当前讲话者的前一个讲话者的视频。

[0290] 通过全屏输出所述当前讲话者的视频，远端会场的与会者可以更加清楚地观察到所述当前讲话者的面部特写，这些面部特写可能包含着重要的会议信息，这样，可以进一步保留有价值的会议信息。

[0291] 可选地，在本发明的又一实施例中，输出处理器134可以以画中画的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频。

[0292] 输出处理器134具体用于：在成功获取所述当前讲话者的视频之后，设置所述当前讲话者的视频和所述当前讲话者的前一个讲话者的视频以画中画的形式进行显示；其中，所述画中画包括第一画面和包含在所述第一画面中的、比所述第一画面小的第二画面，在所述第一画面中显示所述当前讲话者，在所述第二画面中显示所述当前讲话者的前一个讲话者；设置完成后，以画中画的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频。

[0293] 控制器131还用于：在当前讲话者从所述第二讲话者变更为第三讲话者时，控制第一摄像模块132拍摄第三讲话者的视频，其中，所述第三讲话者为与所述第二讲话者位置不同的下一个讲话者。

[0294] 输出处理器134具体用于：在成功获取所述第三讲话者的视频之前：在所述第一画面中输出所述第二讲话者，在所述第二画面中输出所述第一讲话者的凝固画面；或者，在所述第一画面中输出所述第二讲话者，在所述第二画面中输出已经开始拍摄但尚未成功获取过程中的所述第三讲话者；在成功获取所述第三讲话者的视频之后：在所述第一画面中输出所述第三讲话者，在所述第二画面中输出所述第二讲话者。

[0295] 以画中画的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频，使得远端会场的与会者可以清楚地观察到所述当前讲话者的面部特写，同时还可以看到本地会场中讲话者变更的情况以及一方对于另一方发言的反应，这样，就进一步地保留了有价值的会议信息。

[0296] 可选地，在本发明的再一实施例中，输出处理器134可以以双画面的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频。

[0297] 输出处理器134具体用于：在成功获取所述当前讲话者的视频之后，设置所述当前讲话者的视频和所述当前讲话者的前一个讲话者的视频以双画面的形式进行显示；其中，所述双画面包括互不包含的二部分画面，一部分画面显示所述当前讲话者，另一部分画面显示所述当前讲话者的前一个讲话者；设置完成后，以双画面的形式同时输出所述当前讲话者和所述当前讲话者的前一个讲话者的视频。

[0298] 控制器131还用于：在当前讲话者从所述第二讲话者变更为第三讲话者时，控制所述第一摄像模块132拍摄第三讲话者的视频，其中，所述第三讲话者为与所述第二讲话者位置不同的下一个讲话者。

[0299] 输出处理器134具体用于：在成功获取所述第三讲话者的视频之前：在所述一部分画面中输出所述第一讲话者的凝固画面，在所述另一部分画面中输出所述第二讲话者；或者，在所述一部分画面中输出已经开始拍摄但尚未成功获取过程中的所述第三讲话者，在所述另一部分画面中输出所述第二讲话者；在成功获取所述第三讲话者的视频之后：在所述一部分画面中输出所述第三讲话者，在所述另一部分画面中输出所述第二讲话者。

[0300] 通过双画面的形式输出当前讲话者和所述当前讲话者的前一个讲话者的视频，远端会场的与会者除了可以清楚地观察到所述当前讲话者面部特写外，还可以观察到本地会场中一方对于另一方发言的反应，这样，就进一步地保留有价值的会议信息。

[0301] 下面结合附图通过一个具体完整的实施例对本发明实施例提供的控制视频拍摄的装置13进行说明。如图13C所示，本发明实施例提供的控制视频拍摄的装置13包括：

[0302] 控制器131；第一摄像模块132，初始的追踪标志设为0；第二摄像模块133，初始的追踪标志设为1；输出处理器134；拾音麦克风阵列135；声源定位器136；图像定位器137；主控模块138；视频模块139；视频信号处理器140；音频模块141；音频信号处理器142；拾音麦克风143；扬声器144；显示器145。上述各个部分可以集成一个完整的装置，也可以是相互分离的部分，并在控制器131和主控模块138的控制下协调工作。

[0303] 在控制视频拍摄的装置13开启后，即在会议开始时，本地会场还没有人讲话，为了将本地会场的布置情况传送到远端会场，控制器131可以控制所述两个摄像模块拍摄会场的全景。在摄像模块拍摄到本地会场的视频之后，优选地，利用视频模块139中的视频信号处理器140对第二摄像模块133拍摄的视频进行编解码等处理，并在主控模块138的控制下，将该视频通过网络传送到远端会场。

[0304] 当本地会场中有一个人开始讲话时，即出现第一讲话者时，拾音麦克风阵列135拾取本地会场的声音，将所述本地会场的声音发送给声源定位器136，其中，所述本地会场的声音在发送给声源定位器136的过程中，可以经过由音频模块141的内部模块（例如具有预处理功能的模块）对其的进行去噪声等处理之后，再发送给声源定位器136。声源定位器136根据声源定位产生的位置信息，控制器131获取声源定位器136产生的位置信息，控制第一摄像模块132（即追踪标志为0的摄像模块）转动到合适的角度，粗略获取第一讲话者的视频。然后，图像定位器137根据第一摄像模块132获取的第一讲话者的视频，利用图像识别技术确定所述第一讲话者的准确位置（包括面部位置）。在控制器131的控制下，第一摄像模块132（即追踪标志为0的摄像模块）转动/推拉摄像头，拍摄所述第一讲话者的合适视频。第一摄像模块132在成功拍摄到所述第一讲话者的视频之后，其追踪标志由0置1，第二摄像模块
133的追踪标志由1置0。

[0305] 在第一摄像模块132在成功拍摄到所述第一讲话者的视频之后，如果讲话者发生变化，即由所述第一讲话者变更为所述第二讲话者，控制器131可以控制所述追踪标志为0的摄像模块（即第二摄像模块133）去拍摄所述第二讲话者的视频，控制拍摄的方法同上。当第二摄像模块133拍摄到所述第二讲话者的合适视频之后，其追踪标志由0置为1，第一摄像模块132的追踪标志则由1置为0。

[0306] 像上述那样地，每次发生讲话者变更时，控制器131均控制追踪标志为0的摄像模块（具体可能为第一摄像模块132或第二摄像模块133）去跟踪拍摄变更后的讲话者，而且，在该摄像模块成功地拍摄讲话者的合适视频之后，其追踪标志均由0置为1，另一个摄像模块的追踪标志则由1置为0。

[0307] 在摄像模块成功拍摄讲话者的视频之后，输出处理器134从摄像模块处获取所述讲话者的视频。在获取到所述讲话者的视频后，输出处理器134可以设置视频的输出方式，可以以全屏、画中画或双画面等方式输出获取到的所述讲话者的视频。

[0308] 输出处理器134在设置视频的输出方式完成后，将所述讲话者的视频发送给视频信号处理器140，由视频信号处理器140对所述讲话者的视频进行编码等处理。然后，在主控模块138的控制下，从视频信号处理器140开始将所述讲话者的视频通过网络传送到远端会场。

[0309] 进一步地，在摄像模块成功获取当前讲话者的视频之前，主控模块138可以控制输出处理器134输出所述当前讲话者的前一个讲话者的视频。

[0310] 另外，音频信号处理器142用于对拾音麦克风143拾取到的本地会场的讲话者的声音进行编码等处理，需要说明的是，拾音麦克风143拾取的声音的用途不同于拾音麦克风阵列135拾取的声音，前者用于同摄像模块拍摄的视频一起传送到远端会场，后者用于声源定位。扬声器144和显示器145都是控制视频拍摄的装置13的基本配置，分别用于在本地会场中输出音频和视频。

[0311] 本说明书中的各个实施例已有侧重地进行了描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

[0312] 需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

[0313] 本领域普通技术人员将会理解，本发明的各个方面、或各个方面的可能实现方式可以被具体实施为系统、方法或者计算机程序产品。因此，本发明的各方面、或各个方面的可能实现方式可以采用完全硬件实施例、完全软件实施例 (包括固件、驻留软件等等)，或者组合软件和硬件方面的实施例的形式，在这里都统称为“电路”、“模块”或者“系统”。此外，本发明的各方面、或各个方面的可能实现方式可以采用计算机程序产品的形式，计算机程序产品是指存储在计算机可读介质中的计算机可读程序代码。

[0314] 计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质包含但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或者装置，或者前述的任意适当组合，如随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或者快闪存储器)、光纤、便携式只读存储器(CD-ROM)。

[0315] 计算机中的处理器读取存储在计算机可读介质中的计算机可读程序代码，使得处理器能够执行在流程图中每个步骤、或各步骤的组合中规定的功能动作；生成实施在框图的每一块、或各块的组合中规定的功能动作的装置。

[0316] 计算机可读程序代码可以完全在用户的计算机上执行、部分在用户的计算机上执行、作为单独的软件包、部分在用户的计算机上并且部分在远程计算机上，或者完全在远程计算机或者服务器上执行。也应该注意，在某些替代实施方案中，在流程图中各步骤、或框图中各块所注明的功能可能不按图中注明的顺序发生。例如，依赖于所涉及的功能，接连示出的两个步骤、或两个块实际上可能被大致同时执行，或者这些块有时候可能被以相反顺序执行。

[0317] 以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

标题	发布/更新时间	阅读量
互动课堂的智能控制系统、远程控制终端及教室终端	2020-05-13	482
标签的交互方法、装置及计算机存储介质	2020-05-14	760
一种设置多机位视频直播模式的方法	2020-05-14	196
一种多路视频流的编码方法及装置	2020-05-11	791
一种医疗影像处理方法	2020-05-12	437
基于硬件的画中画显示方法及装置	2020-05-13	885
基于增强现实效果的事件增强	2020-05-11	282
一种基于FPGA实现的车载视频图像画中画显示方法	2020-05-08	49
一种画中画显示方法以及显示设备	2020-05-12	690
显示器校正装置及显示器	2020-05-13	984

一种控制视频拍摄的方法和装置

一种控制视频拍摄的方法和装置

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：