首页 / 专利分类库 / 电通信技术 / 数字信息的传输,例如电报通信 / 使接收机与发射机同步的装置 / 基于固定图像的语义同步方法、装置及存储介质

基于固定图像的语义同步方法、装置及存储介质

申请号 CN202311837362.1 申请日 2023-12-28 公开(公告)号 CN117914460A 公开(公告)日 2024-04-19
申请人 北京邮电大学; 北京智芯微电子科技有限公司; 青岛智芯半导体科技有限公司; 发明人 董辰; 刘晓奕; 梁灏泰; 鲍智成; 邓天烨; 陈立博;
摘要 本 发明 提供一种基于固定图像的语义同步方法、装置及存储介质,包括:通过第一终端使用第一语义 编码器 和第二语义编码器将预设共享图片编码并展开,得到第一向量序列和第二向量序列, 叠加 后得到同步头;将待发送数据编码并展开,得到第三向量序列,与同步头拼接,得到数据序列并发送至第二终端;第二终端通过第一语义 解码器 和第二语义解码器解码,得到当前解码图片并分类,在分类结果指示当前解码图片包括预设共享图片中部分图片的情况下,基于当前解码图片、当前解码图片对应的前置解码图片和后置解码图片与预设共享图片的相似程度,确定数据序列的同步 位置 ;能够解决在传输过程中可能出现的干扰和时钟漂移等,导致数据同步的 稳定性 和准确率较低。
权利要求

1.一种基于固定图像的语义同步方法,其特征在于,用于第一终端,所述方法包括:
通过第一语义编码器将预设共享图片编码,得到第一特征矩阵;通过第二语义编码器将所述预设共享图片编码,得到第二特征矩阵;所述第一语义编码器的模型结构与所述第二语义编码器的模型结构不同;
将所述第一特征矩阵和所述第二特征矩阵展开成一维向量,得到所述第一特征矩阵对应的第一向量序列和所述第二特征矩阵对应的第二向量序列;
将所述第一向量序列和所述第二向量序列进行叠加,得到同步头;
通过预设编码器将待发送数据编码,得到第三特征矩阵;
将所述第三特征矩阵展开为一维向量,得到第三向量序列;
将所述第三向量序列拼接在所述同步头之后,得到数据序列;
将所述数据序列发送至第二终端。
2.根据权利要求1所述的基于固定图像的语义同步方法,其特征在于,所述第一语义编码器编码结果的通道数与所述第二语义编码器编码结果的通道数不相同,相应地,所述第一向量序列中的向量数量与所述第二向量序列中的向量数量不同;
将所述第一向量序列和所述第二向量序列进行叠加,得到同步头之前,还包括:
对所述第一向量序列和所述第二向量序列中,向量数量较少的向量序列进行补零操作,以使所述第二向量序列中的向量数量与所述第一向量序列中的向量数量相同。
3.根据权利要求1所述的基于固定图像的语义同步方法,其特征在于,所述将所述第一特征矩阵和所述第二特征矩阵展开成一维向量,得到所述第一特征矩阵对应的第一向量序列和所述第二特征矩阵对应的第二向量序列,包括:
依次按照特征矩阵中的子矩阵顺序、每个子矩阵内部行号顺序和每个子矩阵内部列号顺序,将所述第一特征矩阵和所述第二特征矩阵展开,得到所述第一向量序列和所述第二向量序列。
4.根据权利要求1所述的基于固定图像的语义同步方法,其特征在于,所述待发送数据包括图像数据、语音数据、文本数据、视频数据、点数据或者拓展现实数据。
5.根据权利要求1所述的基于固定图像的语义同步方法,其特征在于,所述预设编码器包括语义编码器或基础编码器。
6.一种基于固定图像的语义同步方法,其特征在于,用于第二终端中,所述方法包括:
接收数据序列;所述数据序列包括同步头,所述同步头是第一终端通过第一语义编码器将预设共享图片编码得到第一特征矩阵,通过第二语义编码器将所述预设共享图片编码得到第二特征矩阵,将所述第一特征矩阵和所述第二特征矩阵展开成一维向量,得到所述第一特征矩阵对应的第一向量序列和所述第二特征矩阵对应的第二向量序列,将所述第一向量序列和所述第二向量序列进行叠加后得到的;
通过检查窗口从所述数据序列的起始位向右滑窗;
将所述检测窗口中的向量通过第一语义解码器和第二语义解码器解码,得到当前解码图片;所述第一语义解码器输入向量的通道数与所述第一语义编码器的输出向量的通道数相同,所述第二语义解码器输入向量的通道数与所述第二语义编码器的输出向量的通道数相同;
将所述当前解码图片进行分类,得到分类结果;所述分类结果用于指示所述当前解码图片中是否包括所述预设共享图片中的部分图片内容;
在所述分类结果指示所述当前解码图片包括所述预设共享图片中的部分图片内容的情况下,确定所述当前解码图片、所述当前解码图片对应的前置解码图片和所述当前解码图片对应的后置解码图片与所述预设共享图片的相似程度;所述前置解码图片是指所述检测窗口向左滑动预设位数后解码得到的图片;所述后置解码图片是指所述检测窗口向右滑动预设位数后解码得到的图片;
在所述当前解码图片、所述前置解码图片和所述后置解码图片中,确定出相似程度大于或等于预设相似阈值的目标图片;
将所述目标图片对应的检测窗口位置确定为所述数据序列的同步位置。
7.根据权利要求6所述的基于固定图像的语义同步方法,其特征在于,在所述当解码图片未包括所述预设共享图片中的部分图片内容,或者未确定出相似程度大于或等于预设相似阈值的目标图片的情况下,所述方法还包括:
按照所述检测窗口的窗口长度向右移动所述检测窗口;
执行所述将所述检测窗口中向量通过第一语义解码器和第二语义解码器解码,得到当前解码图片的步骤。
8.根据权利要求6所述的基于固定图像的语义同步方法,其特征在于,所述将所述当前解码图片进行分类,得到分类结果,包括:
通过预设神经网络分类模型将所述当前解码图片分类,得到所述分类结果;
或者,
通过预设边缘检测算法将所述当前解码图片分类,得到所述分类结果;
或者,
通过计算所述解码图片与所述预设共享图片之间的峰值信噪比,得到所述分类结果;
或者,
通过计算所述解码图片与所述预设共享图片之间的结构相似性指数,得到所述分类结果。
9.一种基于固定图像的语义同步装置,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求1至8中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。

说明书全文

基于固定图像的语义同步方法、装置及存储介质

技术领域

[0001] 本发明涉及通信技术领域,尤其涉及一种基于固定图像的语义同步方法、装置及存储介质。

背景技术

[0002] 在过去几十年里,通信领域的研究主要集中在如何将编码后的符号更高效的从发送端传送到接收端。随着智能应用的激增,不可避免的需要大量的数据传输,对现有通信系统低时延、高数据传输速率的需求提出了严峻的挑战,促使研究人员考虑下一代同步通信系统的范式。
[0003] 传统的同步通信是一种基于符号传输的方法,旨在确保发送端和接收端在时间和频率上保持同步。在传统同步通信中,发送端将数据编码为一系列符号,并通过时钟信号将这些符号传输到接收端;接收端使用相同的时钟信号来解调传输的符号并恢复原始数据。
[0004] 然而,在传统同步通信中,时钟同步是关键的一环,发送端和接收端都需要使用相同的时钟源,以确保符号的精确传输和解调,因此,在传输过程中可能出现的干扰和时钟漂移等,导致数据同步的稳定性和准确率较低。

发明内容

[0005] 鉴于此,本发明实施例提供了一种基于固定图像的语义同步方法、装置及存储介质,以消除或改善现有技术中存在的一个或更多个缺陷,解决在传输过程中可能出现的干扰和时钟漂移等,导致数据同步的稳定性和准确率较低。
[0006] 本发明的一个方面提供了一种基于固定图像的语义同步方法,用于第一终端,方法包括:
[0007] 通过第一语义编码器将预设共享图片编码,得到第一特征矩阵;通过第二语义编码器将预设共享图片编码,得到第二特征矩阵;第一语义编码器的模型结构与第二语义编码器的模型结构不同;
[0008] 将第一特征矩阵和第二特征矩阵展开成一维向量,得到第一特征矩阵对应的第一向量序列和第二特征矩阵对应的第二向量序列;
[0009] 将第一向量序列和第二向量序列进行叠加,得到同步头;
[0010] 通过预设编码器将待发送数据编码,得到第三特征矩阵;
[0011] 将第三特征矩阵展开为一维向量,得到第三向量序列;
[0012] 将第三向量序列拼接在同步头之后,得到数据序列;
[0013] 将数据序列发送至第二终端。
[0014] 可选地,第一语义编码器编码结果的通道数与第二语义编码器编码结果的通道数不相同,相应地,第一向量序列中的向量数量与第二向量序列中的向量数量不同;
[0015] 将第一向量序列和第二向量序列进行叠加,得到同步头之前,还包括:
[0016] 对第一向量序列和第二向量序列中,向量数量较少的向量序列进行补零操作,以使第二向量序列中的向量数量与第一向量序列中的向量数量相同。
[0017] 可选地,将第一特征矩阵和第二特征矩阵展开成一维向量,得到第一特征矩阵对应的第一向量序列和第二特征矩阵对应的第二向量序列,包括:
[0018] 依次按照特征矩阵中的子矩阵顺序、每个子矩阵内部行号顺序和每个子矩阵内部列号顺序,将第一特征矩阵和第二特征矩阵展开,得到第一向量序列和所述第二向量序列。
[0019] 可选地,待发送数据包括图像数据、语音数据、文本数据、视频数据、点数据或者拓展现实数据。
[0020] 可选地,预设编码器包括语义编码器或基础编码器。
[0021] 本发明的一个方面提供了一种基于固定图像的语义同步方法,方法包括:
[0022] 接收数据序列;数据序列包括同步头,同步头是第一终端通过第一语义编码器将预设共享图片编码得到第一特征矩阵,通过第二语义编码器将预设共享图片编码得到第二特征矩阵,将第一特征矩阵和第二特征矩阵展开成一维向量,得到第一特征矩阵对应的第一向量序列和第二特征矩阵对应的第二向量序列,将第一向量序列和第二向量序列进行叠加后得到的;
[0023] 通过检查窗口从数据序列的起始位向右滑窗;
[0024] 将检测窗口中的向量通过第一语义解码器和第二语义解码器解码,得到当前解码图片;第一语义解码器输入向量的通道数与第一语义编码器的输出向量的通道数相同,第二语义解码器输入向量的通道数与第二语义编码器的输出向量的通道数相同;
[0025] 将当前解码图片进行分类,得到分类结果;分类结果用于指示当前解码图片中是否包括预设共享图片中的部分图片内容;
[0026] 在分类结果指示当前解码图片包括预设共享图片中的部分图片内容的情况下,确定当前解码图片、当前解码图片对应的前置解码图片和当前解码图片对应的后置解码图片与预设共享图片的相似程度;前置解码图片是指检测窗口向左滑动预设位数后解码得到的图片;后置解码图片是指检测窗口向右滑动预设位数后解码得到的图片;
[0027] 在当前解码图片、前置解码图片和后置解码图片中,确定出相似程度大于或等于预设相似阈值的目标图片;
[0028] 将目标图片对应的检测窗口位置确定为数据序列的同步位置。
[0029] 可选地,在当解码图片未包括预设共享图片中的部分图片内容,或者未确定出相似程度大于或等于预设相似阈值的目标图片的情况下,方法还包括:
[0030] 按照检测窗口的窗口长度向右移动检测窗口;
[0031] 执行将检测窗口中向量通过第一语义解码器和第二语义解码器解码,得到当前解码图片的步骤。
[0032] 可选地,将解码图片进行分类,得到分类结果,包括:
[0033] 通过预设神经网络分类模型将当前解码图片进行分类,得到分类结果;
[0034] 或者,
[0035] 通过预设边缘检测算法将当前解码图片进行分类,得到分类结果;
[0036] 或者,
[0037] 通过计算当前解码图片与预设共享图片之间的峰值信噪比,得到分类结果;
[0038] 或者,
[0039] 通过计算当前解码图片与预设共享图片之间的结构相似性指数,得到分类结果。
[0040] 本发明的另一方面提供了一种基于固定图像的语义同步的装置,该装置包括:处理器和存储器,其特征在于,存储器中存储有计算机指令,处理器用于执行存储器中存储的计算机指令,当计算机指令被处理器执行时该装置实现上述基于固定图像的语义同步方法的步骤。
[0041] 本发明的另一方面提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述基于固定图像的语义同步方法的步骤。
[0042] 本发明的有益效果至少是:
[0043] 本发明的基于固定图像的语义同步方法、装置及存储介质,通过第一终端使用第一语义编码器将预设共享图片编码,得到第一特征矩阵;通过第二语义编码器将预设共享图片编码,得到第二特征矩阵;将第一特征矩阵和第二特征矩阵展开成一维向量,得到第一特征矩阵对应的第一向量序列和第二特征矩阵对应的第二向量序列;将第一向量序列和第二向量序列进行叠加,得到同步头;通过预设编码器将待发送数据编码,得到第三特征矩阵;将第三特征矩阵展开为一维向量,得到第三向量序列;将第三向量序列拼接在同步头之后,得到数据序列;将数据序列发送至第二终端;第二终端接收数据序列;通过检查窗口从数据序列的起始位向右滑窗;将检测窗口中的向量通过第一语义解码器和第二语义解码器解码,得到当前解码图片;将当前解码图片进行分类,得到分类结果;在分类结果指示当前解码图片包括预设共享图片中的部分图片内容的情况下,确定当前解码图片、当前解码图片对应的前置解码图片和当前解码图片对应的后置解码图片与预设共享图片的相似程度;在当前解码图片、前置解码图片和后置解码图片中,确定出相似程度大于或等于预设相似阈值的目标图片;将目标图片对应的检测窗口位置确定为数据序列的同步位置;能够解决在传输过程中可能出现的干扰和时钟漂移等,导致数据同步的稳定性和准确率较低。通过第一终端预设共享图片通过第一语义编码器和第二语义编码器编码后展开成第一向量序列和第二向量序列,将第一向量序列与第二向量序列叠加作为同步头,无需使用时间戳,这样,能够避免时钟漂移导致数据同步的不准确,提供数据同步的准确率;同时,第二终端使用与第一语义编码器对应的第一语义解码器和与第二语义编码器对应的第二语义解码器,分别对同步头解码,以降低同步的漏检和错检概率,能够提高数据同步的成功率。
[0044] 本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
[0045] 本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

[0046] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。
[0047] 图1为本发明一实施例所述基于固定图像的语义同步方法的流程图
[0048] 图2为本发明一实施例所述基于固定图像的语义同步装置的框图
[0049] 图3为本发明一实施例所述基于固定图像的语义同步装置的框图;
[0050] 图4为本发明一实施例所述基于固定图像的语义同步装置的框图。

具体实施方式

[0051] 为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
[0052] 在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
[0053] 应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
[0054] 在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
[0055] 在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
[0056] 下面对本申请提供的基于固定图像的语义同步方法进行详细介绍。
[0057] 如图1所示,本申请的实施例提供一种基于固定图像的语义同步方法,本实施例以该方法用于第一终端和第二终端为例进行说明,其中,第一终端和第二终端是指需要进行基于固定图像的语义同步的终端,包括但不限于手机、电脑或者服务器电子设备,第一终端的设备类型和第二终端的设备类型相同或不同,本实施例不对发送端和接收端的实现方式作限定。具体地,基于固定图像的语义同步方法至少包括以下步骤S101至S114:
[0058] 步骤S101,第一终端通过第一语义编码器将预设共享图片编码,得到第一特征矩阵;通过第二语义编码器将所述预设共享图片编码,得到第二特征矩阵。其中,第一语义编码器的模型结构与第二语义编码器的模型结构不同。
[0059] 预设共享图片是指预先设置的第一终端与第二终端之间的共享图片,包括但不限于分辨率为1920×1080、512×512或者800×600的图片,同时,预设共享图片可以是方形图片、矩形图片或者圆形图片等,本实施例不对预设共享图片的实现方式作限定。
[0060] 本实施例中,预设共享图片可以预先存储在发送端的本地存储介质中,或者,预先存储在与发送端建立有通信连接的远端服务器中,或者,预先存储在独立于发送端的可以移动存储介质中,例如U盘、硬盘等。本实施例不对预设共享图片的存储形式作限定。
[0061] 步骤S102,第一终端将第一特征矩阵和第二特征矩阵展开成一维向量,得到第一特征矩阵对应的第一向量序列和第二特征矩阵对应的第二向量序列。
[0062] 其中,将第一特征矩阵展开成一维向量和将第二特征矩阵展开成一维向量的展开策略相同,为依次按照特征矩阵中的子矩阵顺序、每个子矩阵内部行号顺序,和每个子矩阵内部列号顺序展开;或者,按照第一特征矩阵的通道方向将第一特征矩阵展开,按照第二特征矩阵的通道方向将第二特征矩阵展开。
[0063] 比如:以第一特征矩阵为特征矩阵A为例,通过下式表示:
[0064] A=[[[a_111,a_112,a_113],[a_121,a_122,a_123],[a_131,a_132,a_133]],[0065] [[a_211,a_212,a_213],[a_221,a_222,a_223],[a_231,a_232,a_233]],[0066] [[a_311,a_312,a_313],[a_321,a_322,a_323],[a_331,a_332,a_333]]]。
[0067] 将特征矩阵A展开成一维向量,得到向量序列a,向量序列a通过下式表示:
[0068] a=[a_111,a_211,a_311,a_112,a_212,a_312,a_113,a_213,a_313,a_121,a_221,
[0069] a_321,a_122,a_222,a_322,a_123,a_223,a_323,a_131,a_231,a_331,a_132,a_232,
[0070] a_332,a_133,a_233,a_333]。
[0071] 具体地,将第一特征矩阵和所述第二特征矩阵展开成一维向量,得到第一特征矩阵对应的第一向量序列和第二特征矩阵对应的第二向量序列,包括:依次按照特征矩阵中的子矩阵顺序、每个子矩阵内部行号顺序和每个子矩阵内部列号顺序,将第一特征矩阵和第二特征矩阵展开,得到第一向量序列和所述第二向量序列。
[0072] 步骤S103,第一终端将第一向量序列和第二向量序列进行叠加,得到同步头。
[0073] 其中,叠加指的是将第一向量序列和第二向量序列相加的操作,通过将第一向量序列和第二向量序列对应位置的向量相加来实现叠加。比如,第一向量序列为[1,2,3],第二向量序列为[4,5,6],则将它们进行叠加的结果是[1+4,2+5,3+6],即[5,7,9]。
[0074] 本实施例中,第一语义编码器编码结果的通道数与第二语义编码器编码结果的通道数不同。
[0075] 相应地,第一向量序列中的向量数量与第二向量序列中的向量数量不同;基于此,为了保证第一向量序列和第二向量序列能够完成叠加,需要对第一向量序列或者第二向量序列进行补零,以使第一向量序列中的向量数量与第二向量序列中的向量数量相同。
[0076] 具体地,将第一向量序列和第二向量序列进行叠加,得到同步头之前,还包括:对第一向量序列和第二向量序列中,向量数量较少的向量序列进行补零操作,以使第二向量序列中的向量数量与第一向量序列中的向量数量相同。
[0077] 步骤S104,第一终端通过预设编码器将待发送数据编码,得到第三特征矩阵。
[0078] 本实施例中,待发送数据包括图像数据、语音数据、文本数据、视频数据、点云数据或者扩展现实(Extended Reality,XR)数据。
[0079] 在实际实现时,待发送数据还可以是其它数据类型,本实施例在此不再一一列举。
[0080] 本实施例中,预设编码器包括语义编码器或基础编码器(Base Encoder,BE)。在预设编码器为语义编码器的情况下,预设编码器的模型结构与第一语义编码器和第二语义编码器均不相同。
[0081] 步骤S105,第一终端将第三特征矩阵展开为一维向量,得到第三向量序列。
[0082] 本实施例中,将第三特矩阵展开为一维向量的方式与将第一特征矩阵或者第二特征矩阵展开的方式可以相同或不同;具体地,将第三特矩阵展开为一维向量的方式还包括按照行号顺序展开方式或者按照列号顺序展开方式。
[0083] 在一个示列中,将第三特矩阵展开为一维向量的方式为按照行号顺序展开方式。
[0084] 比如:以第三特征矩阵为特征矩阵B为例,通过下式表示:
[0085] B=[[[b_111,b_112,b_113],[b_121,b_122,b_123],[b_131,b_132,b_133]],[0086] [[b_211,b_212,b_213],[b_221,b_222,b_223],[b_231,b_232,b_233]],[0087] [[b_311,b_312,b_313],[b_321,b_322,b_323],[b_331,b_332,b_333]]]。
[0088] 将特征矩阵B展开成一维向量,得到向量序列b,通过下式表示:
[0089] b=[b_111,b_112,b_113,b_211,b_212,b_213,b_311,b_312,b_313,b_121,b_122,b_123,b_221,b_222,b_223,b_321,b_322,b_323,b_131,b_132,b_133,b_231,b_232,[0090] b_233,b_331,b_332,b_333]。
[0091] 在另一个示列中,将第三特矩阵展开为一维向量的方式为按照例号顺序展开方式。
[0092] 比如:以第三特征矩阵为特征矩阵C为例,通过下式表示:
[0093] C=[[[c_111,c_112,c_113],[c_121,c_122,c_123],[c_131,c_132,c_133]],[0094] [[c_211,c_212,c_213],[c_221,c_222,c_223],[c_231,c_232,c_233]],[0095] [[c_311,c_312,c_313],[c_321,c_322,c_323],[c_331,c_332,c_333]]]。
[0096] 将特征矩阵C展开成一维向量,得到向量序列c,通过下式表示:
[0097] c=[c_111,c_121,c_131,c_211,c_221,c_231,c_311,c_321,c_331,c_112,c_122,c_132,c_212,c_222,c_232,c_312,c_322,c_332,c_113,c_123,c_133,c_213,c_223,[0098] c_233,c_313,c_323,c_333]。
[0099] 在实际实现时,将第三特矩阵展开为一维向量的方式还可以包括其它展开方式,例如Z字形展开方式,本实施例在此不再一一列举。
[0100] 实际实现时,步骤S101至步骤S103可以在步骤S105之后执行;或者,步骤S103在步骤S105之后执行。本实施例不对步骤S101至步骤S103与步骤S104至步骤S105的执行顺序,或者步骤S103与步骤S104至步骤S105的执行顺序作限定。
[0101] 步骤S106,第一终端将第三向量序列拼接在同步头之后,得到数据序列。
[0102] 本实施例中,待发送数据的数量为至少一个,相应地,第三向量序列的数量也为至少一个。
[0103] 在第三向量序列的数量为2个或2个以上的情况下,将第三向量序列拼接在同步头之后,得到数据序列,包括:将每个第三向量序列分别拼接到单独的同步头后,得到数据子序列;将每个数据子序列依次拼接的,得到数据序列。
[0104] 比如:比如同步头包括同步头D,第三向量序列包括第三向量序列E和第三向量序列F为例,将第三向量序列E拼接到同步头D之后,得到数据子序列D‑E,将第三向量序列F拼接到同步头D之后,得到数据子序列D‑F,将数据子序列D‑E和数据子序列D‑F拼接,得到数据序列D‑E‑D‑F。
[0105] 步骤S107,第一终端将数据序列发送至第二终端。
[0106] 其中,检测窗口的窗口长度为第一向量序列的长度。例如以第一特征矩阵G为1×3×3×3的矩阵,则将第一特征矩阵G展开为第一序列向量g后,第一序列向量g的长度为27,此时,检测窗口的窗口长度为27。
[0107] 步骤S108,第二终端接收数据序列。
[0108] 其中,数据序列包括同步头,同步头是第一终端通过第一语义编码器将预设共享图片编码得到第一特征矩阵,通过第二语义编码器将预设共享图片编码得到第二特征矩阵,将第一特征矩阵和第二特征矩阵展开成一维向量,得到第一特征矩阵对应的第一向量序列和第二特征矩阵对应的第二向量序列,将第一向量序列和第二向量序列进行叠加后得到的。
[0109] 需要补充说明的是,第一终端和第二终端只是为了进行功能上的区分,在实际实现时,同一个终端,既可以是第一终端,即生成数据序列并发送的终端,也可以是第二终端,即确定数据序列中的同步位置的终端。
[0110] 步骤S109,第二终端通过检查窗口从数据序列的起始位向右滑窗。
[0111] 其中,检测窗口的窗口长度与第一向量序列的向量数量或第二向量序列的向量数量相同。在第一向量序列的向量数量大于第二向量序列的向量数量的情况下,检测窗口的窗口长度与第一向量序列的向量数量相同;在第一向量序列的向量数量小于第二向量序列的向量数量的情况下,检测窗口的窗口长度与第二向量序列的向量数量相同。
[0112] 步骤S110,第二终端将检测窗口中的向量通过第一语义解码器和第二语义解码器解码,得到当前解码图片。
[0113] 其中,第一语义解码器输入向量的通道数与第一语义编码器的输出向量的通道数相同,第二语义解码器输入向量的通道数与第二语义编码器的输出向量的通道数相同。
[0114] 本实施例中,当前解码图片包括由第一语义解码器解码得到的第一解码图片和第二语义解码器解码得到的第二解码图片。
[0115] 步骤S111,第二终端将当前解码图片进行分类,得到分类结果。
[0116] 其中,分类结果用于指示当前解码图片中是否包括预设共享图片中的部分图片内容。
[0117] 具体地,分类结果包括噪声类和预设共享图片类。在当前解码图片中不包括预设共享图片中的部分图片内容的情况下,当前解码图片会被分类为噪声类;在当前解码图片包括预设共享图片中的部分图片内容的情况下,当前解码图片会被分类为与预设共享图片类。
[0118] 在一个示例中,可以通过将当前解码图片输入到预设神经网络分类模型中,由预设神经网络分类模型输出分类结果。其中,预设神经网络分类模型是使用训练数据对预设的神经网络模型训练得到的。
[0119] 在预设神经网络分类模型输出分类结果指示当前解码图片和预设共享图片为同类图片的情况下,确认当前解码图片包括预设共享图片中的部分图片内容。在分类结果指示当前解码图片和预设共享图片为异类图片的情况下,确认当前解码图片为噪声。
[0120] 可选地,训练数据包括样本解码图片和样本解码图片对应的样本分类结果。
[0121] 相应地,预设神经网络分类模型的训练过程包括:将样本解码图片输入预设的神经网络模型,得到训练结果;将训练结果和样本解码图片对应的样本分类结果输入损失函数,得到损失结果;基于损失结果对神经网络模型进行训练,以缩小训练结果和对应的样本分类结果之间的差异值,直至神经网络模型收敛,得到预设神经网络分类模型。
[0122] 其中,神经网络模型可以为视觉几何群网络(Visual Geometry Group Net,VGGNet)、残差网络(Residual Network,ResNet)、密集连接卷积神经网络(Densely Connected Convolutional Networks,DenseNet),本实施例不对神经网络模型的实现方式作限定。
[0123] 在另一个示例中,通过边缘检测算法检测当前解码图片和预设共享图片的图片边缘信息,通过图片边缘信息对比,得到解码图片和预设共享图片之间的分类结果。
[0124] 其中,边缘检测算法可以为Canny边缘检测算法(Canny Edge Detection),Sobel算子(Sobel Operator)、Scharr算子(Scharr Operator)等,本实施例不对边缘检测算法的实现方式作限定。
[0125] 在又一个示例中,通过计算当前解码图片与预设共享图片之间的峰值信噪比(Peak Signal‑to‑Noise Ratio,PSNR)或者结构相似性指数(Structural Similarity Index,SSIM),得到分类结果。
[0126] 在当前解码图片与预设共享图片之间的峰值信噪比大于或等于预设峰值信噪比的情况下,确认当前解码图片包括预设共享图片中的部分图片内容;在当前解码图片与预设共享图片之间的峰值信噪比小于预设峰值信噪比的情况下,确认当前解码图片为噪声;或者,在当前解码图片与预设共享图片之间的结构相似性指数大于或等于预设结构相似性指数的情况下,确认当前解码图片包括预设共享图片中的部分图片内容;在当前解码图片与预设共享图片之间的结构相似性指数小于预设结构相似性指数的情况下,确认解码图片为噪声。
[0127] 其中,预设峰值信噪比的取值可以是20分贝、40分贝或者50分贝等;结构相似性指数的取值在[0,1]的范围内,相应地,预设结构相似性指数的取值可是0.4、0.5或者0.7等,本实施例不对预设峰值信噪比的取值和预设结构相似性指数的取值作限定。
[0128] 具体地,将当前解码图片进行分类,得到分类结果,包括:通过预设神经网络分类模型将述解码图片进行分类,得到分类结果;或者,通过预设边缘检测算法将述解码图片进行分类,得到分类结果;或者,通过计算解码图片与预设共享图片之间的峰值信噪比,得到分类结果;或者,通过计算解码图片与预设共享图片之间的结构相似性指数,得到分类结果。
[0129] 步骤S112,第二终端在分类结果指示当前解码图片包括预设共享图片中的部分图片内容的情况下,确定当前解码图片、当前解码图片对应的前置解码图片和当前解码图片对应的后置解码图片与预设共享图片的相似程度。
[0130] 其中,前置解码图片是指检测窗口向左滑动预设位数后解码得到的图片;后置解码图片是指检测窗口向右滑动预设位数后解码得到的图片。
[0131] 本实施例中,预设位数是基于第一语义编码器输出向量的通道数和第二语义编码器输出向量的通道数得到的。具体地,预设位数为第一语义编码器输出向量的通道数和第二语义编码器输出向量的通道数的乘积。
[0132] 本实施例中,将预设共享图片编码的第一语义编码器和第二语义编码器是由多个二维卷积层组成的。在对预设共享图片执行重复的二维卷积操作时,每个卷积层都会生成一组新的语义特征映射。这些语义特征映射在通道方向上堆叠形成一个三维张量,三维张量中每个元素代表一个特征。每个卷积核在通道方向上包含一组可训练的权参数。卷积核通过对输入的特征映射进行卷积,提取出相应顺序的特征信息。因此,通道方向上的向量组可视为描述预设共享图片中某些特定特征的一组语义特征。
[0133] 基于此,当对编码后的特征矩阵(特征矩阵中的每一行可视为一个向量)从通道方向展开时,每C(通道数)个符号代表一组语义特征。在检测窗口移动的预设位数是C的整数倍的情况下,则解码结果会包含预设共享图片的部分内容;相应地,如果检测窗口移动的预设位数不是C的整数倍,则移位后每个特征对应的语义特征的顺序会受到干扰。由于语义解码器和语义编码器共享上下文知识,语义解码器将无法正确解码顺序受到干扰的语义特征。
[0134] 本实施例中,将编码结果的通道数分别为C1和C2的两组一维向量序列进行叠加作为同步头。在第二终端,使用向右滑窗的方法,将检测窗口内的数据分别使用两个异构的语义解码器进行解码;当解码结果同时包含预设共享图片的部分内容时,根据上面的原理,此时可能位于同步位置,或者和正确的同步位置之间相差的位置为C1×C2的整数倍,因此,本实施例中,将第一语义编码器编码结果的通道数(C1)和第二语义编码器编码结果的通道数(C2)的乘积(C1×C2)作为预设位数。
[0135] 本实施例中,在当前解码图片被分类为预设共享图片类,即解码图片中包括预设共享图片中的部分图片内容的情况下,将检测窗口向左移动预设位数后,将检测窗口中的数据输入第一语义解码器和第二语义解码器,得到前置图像;将检测窗口向右移动预设位数后,将检测窗口中的数据输入第一语义解码器和第二语义解码器,得到后置图像。
[0136] 分别确定两张当前解码图像、两张前置图像和两张后置图像与预设共享图片之间的相似程度。
[0137] 步骤S113,第二终端在当前解码图片、前置解码图片和后置解码图片中,确定出相似程度大于或等于预设相似阈值的目标图片。
[0138] 本实施例中,根据相似度计算方法的不同,预设相似阈值的取值也不相同。
[0139] 在一个示例中,第二端通过计算当前解码图片、前置解码图片和后置解码图片与预设共享图片之间的结构相似性指数(Structural Similarity Index,SSIM)或者峰值信噪比(Peak Signal‑to‑Noise Ratio,PSNR),确定当前图像与预设共享图片之间的相似度。
[0140] 在另一个示例中,第二终端通过预设相似度算法确定当前解码图片、前置解码图片和后置解码图片与预设共享图片之间的相似度。
[0141] 其中,预设相似度算法包括感知哈希算法(Perceptual Hashing)或者局部特征匹配算法(例如尺度不变特征变换和加速稳健特征等算法);或者,预设相似度算法也可以是深度学习方法,本实施例不对预设相似度算法的实现方式作限定。
[0142] 在通过峰值信噪比计算当前解码图片、前置解码图片和后置解码图片与预设共享图片之间的相似度的情况下,预设相似阈值为预设峰值信噪比,取值可以是20分贝、40分贝或者50分贝等;在通过结构相似性指数计算当前解码图片、前置解码图片和后置解码图片与预设共享图片之间的相似度的情况下,预设相似阈值为预设结构相似性指数,取值可是0.4、0.5或者0.7等。
[0143] 本实施例中,将当前解码图片、前置解码图片和后置解码图片中相似程度大于或等于预设相似阈值的图片,确定为目标图片;在当前解码图片、前置解码图片和后置解码图片中存在至少两张图片对应的相似程度大于或等于预设相似阈值的情况下,将至少两张图片中,相似程度最高的图片确定为目标图片。
[0144] 步骤S114,第二终端将目标图片对应的检测窗口位置确定为数据序列的同步位置。
[0145] 传统的同步通信通常依赖于严格的时钟同步。在大规模异构网络中,不同设备在硬件软件、传输介质和网络拓扑都可能存在差异,导致时钟漂移、传输延迟和带宽异构等问题,从而导致数据同步的稳定性和准确率较低。
[0146] 本实施例中,第一终端预设共享图片通过第一语义编码器和第二语义编码器编码后展开成第一向量序列和第二向量序列,将第一向量序列与第二向量序列叠加作为同步头,无需使用时间戳,这样,能够避免时钟漂移导致数据同步的不准确,提高数据同步的准确率;同时,第二终端使用与第一语义编码器对应的第一语义解码器和与第二语义编码器对应的第二语义解码器,分别对同步头解码,以降低同步的漏检和错检概率,能够提高数据同步的成功率。
[0147] 下面结合几个示例对本发明所述基于固定图像的语义同步方法进行详细说明:
[0148] 示例一,第一终端使用异构的第一语义编码器(输出向量的通道数为9)和第二语义编码器(输出向量的通道数为7)对分辨率为512×512的共享图像进行编码,生成的第一特征矩阵大小为1×9×32×32,第二特征矩阵大小为1×7×32×32,将第一特征矩阵和第二特征矩阵按照通道方向展成一维向量,得到向量长度为9216的第一向量序列和向量长度为7168的第二向量序列。
[0149] 在长度为7618的第二向量序列后补上2048个零,使其长度扩充为9216。之后,将第一向量序列和第二向量序列进行叠加作为同步头,后面接待传输数据。
[0150] 在第二终端,使用向右滑窗的方法,将检测窗口内的数据输入异构的第一语义解码器(输入向量的通道数为9)和第二语义解码器(输入向量的通道数为7)中进行解码,检测窗口的窗口长度为9216。将解码得到的当前解码图片进行分类,在当前解码图片的分类为噪声图的情况下,则继续滑窗,直到分类网络认为两张当前解码图片均包含预设共享图片中的部分内容,比如,此时的检测窗口的位置为43。
[0151] 计算检测窗口的位置在43位置时的当前解码图片、在‑20位置时的前置解码图片以及106位置时的后置解码图片与预设共享图片之间的结构相似性指数。此时,预设相似阈值为0.6。前置解码图片与预设共享图片之间的结构相似性指数大于0.6,此时的检测窗口的位置为同步位置。
[0152] 示例二,第一终端使用异构的第一语义编码器(输出向量的通道数为9)和第二语义编码器(输出向量的通道数为7)对分辨率为512×512的共享图像进行编码,生成的第一特征矩阵大小为1×9×32×32,第二特征矩阵大小为1×7×32×32,将第一特征矩阵和第二特征矩阵按照通道方向展成一维向量,得到向量长度为9216的第一向量序列和向量长度为7168的第二向量序列。
[0153] 在长度为7618的第二向量序列后补上2048个零,使其长度扩充为9216。之后,将第一向量序列和第二向量序列进行叠加作为同步头,后面接待传输数据。
[0154] 在第二终端,使用向右滑窗的方法,将检测窗口内的数据输入异构的第一语义解码器(输入向量的通道数为9)和第二语义解码器(输入向量的通道数为7)中进行解码,检测窗口的窗口长度为9216。将解码得到的当前解码图片进行分类,在当前解码图片的分类为噪声图的情况下,则继续滑窗,直到分类网络认为两张当前解码图片均包含预设共享图片中的部分内容,比如,此时的检测窗口的位置为20。
[0155] 计算检测窗口的位置在20位置时的当前解码图片、在‑43位置时的前置解码图片以及83位置时的后置解码图片与预设共享图片之间的结构相似性指数。此时,预设相似阈值为0.6。当前解码图片与预设共享图片之间的结构相似性指数大于0.6,此时的检测窗口的位置为同步位置。
[0156] 本实施例提供的基于固定图像的语义同步方法,通过第一终端使用第一语义编码器将预设共享图片编码,得到第一特征矩阵;通过第二语义编码器将预设共享图片编码,得到第二特征矩阵;将第一特征矩阵和第二特征矩阵展开成一维向量,得到第一特征矩阵对应的第一向量序列和第二特征矩阵对应的第二向量序列;将第一向量序列和第二向量序列进行叠加,得到同步头;通过预设编码器将待发送数据编码,得到第三特征矩阵;将第三特征矩阵展开为一维向量,得到第三向量序列;将第三向量序列拼接在同步头之后,得到数据序列;将数据序列发送至第二终端;第二终端接收数据序列;通过检查窗口从数据序列的起始位向右滑窗;将检测窗口中的向量通过第一语义解码器和第二语义解码器解码,得到当前解码图片;将当前解码图片进行分类,得到分类结果;在分类结果指示当前解码图片包括预设共享图片中的部分图片内容的情况下,确定当前解码图片、当前解码图片对应的前置解码图片和当前解码图片对应的后置解码图片与预设共享图片的相似程度;在当前解码图片、前置解码图片和后置解码图片中,确定出相似程度大于或等于预设相似阈值的目标图片;将目标图片对应的检测窗口位置确定为数据序列的同步位置;能够解决在传输过程中可能出现的干扰和时钟漂移等,导致数据同步的稳定性和准确率较低。通过第一终端预设共享图片通过第一语义编码器和第二语义编码器编码后展开成第一向量序列和第二向量序列,将第一向量序列与第二向量序列叠加作为同步头,无需使用时间戳,这样,能够避免时钟漂移导致数据同步的不准确,提高数据同步的准确率;同时,第二终端使用与第一语义编码器对应的第一语义解码器和与第二语义编码器对应的第二语义解码器,分别对同步头解码,以降低同步的漏检和错检概率,能够提高数据同步的成功率。
[0157] 图2是本申请一个实施例提供的基于固定图像的语义同步装置的框图。本实施例以该装置应用于发送端中,该装置至少包括以下几个模:第一编码模块210、第一展开模块220、序列叠加模块230、第二编码模块240、第二展开模块250、序列拼接模块260和序列发送模块270。
[0158] 第一编码模块210,用于通过第一语义编码器将预设共享图片编码,得到第一特征矩阵;通过第二语义编码器将所述预设共享图片编码,得到第二特征矩阵。
[0159] 第一展开模块220,用于将第一特征矩阵和第二特征矩阵展开成一维向量,得到第一特征矩阵对应的第一向量序列和第二特征矩阵对应的第二向量序列。
[0160] 序列叠加模块230,用于将第一向量序列和第二向量序列进行叠加,得到同步头。
[0161] 第二编码模块240,用于通过预设编码器将待发送数据编码,得到第三特征矩阵。
[0162] 第二展开模块250,用于将第三特征矩阵展开为一维向量,得到第三向量序列。
[0163] 序列拼接模块260,用于将第三向量序列拼接在所述同步头之后,得到数据序列。
[0164] 序列发送模块270,用于将所述数据序列发送至第二终端。
[0165] 相关细节参考上述方法和系统实施例。
[0166] 图3是本申请一个实施例提供的基于固定图像的语义同步装置的框图。本实施例以该装置应用于接收端中,该装置至少包括以下几个模块:序列接收模块310、窗口滑动模块320、图片解码模块330、图片分类模块340、图片对比模块350、图片确定模块360和位置确定模块370。
[0167] 序列接收模块310,用于接收数据序列。
[0168] 窗口滑动模块320,用于通过检查窗口从所述数据序列的起始位向右滑窗。
[0169] 图片解码模块330,用于将检测窗口中的向量通过第一语义解码器和第二语义解码器解码,得到当前解码图片。
[0170] 图片分类模块340,用于将当前解码图片进行分类,得到分类结果。
[0171] 图片对比模块350,用于在分类结果指示当前解码图片包括预设共享图片中的部分图片内容的情况下,确定当前解码图片、当前解码图片对应的前置解码图片和当前解码图片对应的后置解码图片与预设共享图片的相似程度。
[0172] 图片确定模块360,用于在当前解码图片、前置解码图片和后置解码图片中,确定出相似程度大于或等于预设相似阈值的目标图片。
[0173] 位置确定模块370,将目标图片对应的检测窗口位置确定为数据序列的同步位置。
[0174] 相关细节参考上述方法和系统实施例。
[0175] 需要说明的是:上述实施例中提供的基于固定图像的语义同步装置在进行基于固定图像的语义同步时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将基于固定图像的语义同步装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于固定图像的语义同步装置与基于固定图像的语义同步方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0176] 本实施例提供一种基于固定图像的语义同步装置,如图4所示,该装置至少包括处理器410和存储器420。
[0177] 处理器410可以包括一个或多个处理核心,比如:4核心处理器、8核心处理器等。处理器410可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器410也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器410可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器410还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
[0178] 存储器420可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器420还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器420中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器410所执行以实现本申请中方法实施例提供的基于固定图像的语义同步方法。
[0179] 在一些实施例中,该装置还可选包括有:外围设备接口和至少一个外围设备。处理器410、存储器420和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地,外围设备包括但不限于:射频电路、触摸显示屏、音频电路、和电源等。
[0180] 当然,基于固定图像的语义同步装置还可以包括更少或更多的组件,本实施例对此不作限定。
[0181] 可选地,本申请还提供有一种计算机可读存储介质,计算机可读存储介质中存储有程序,程序由处理器加载并执行以实现上述方法实施例的基于固定图像的语义同步方法。
[0182] 本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路专用集成电路(ASIC)、适当的固件插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
[0183] 需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
[0184] 本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
[0185] 以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
QQ群二维码
意见反馈