首页 / 专利库 / 空中管制 / 许可 / 用于没有用户跟踪的个人化的隐私保护cookie

用于没有用户跟踪的个人化的隐私保护cookie

阅读:1037发布:2020-05-23

专利汇可以提供用于没有用户跟踪的个人化的隐私保护cookie专利检索,专利查询,专利分析的服务。并且这里描述的隐私保护cookie生成器实现方式创建用来提供没有用户 跟踪 的用于在线服务的个人化的隐私保护数据结构(这里也被称为隐私保护cookie)。在一些实现方式中,隐私保护cookie生成器将用户简档编码(例如,基于用户的在线活动)成具有自然地出现的噪声并且高效地支持噪声添加的数据结构。在一个实现方式中,Bloom 过滤器 用来创建编码的简档。附加噪声被注入到经编码的简档中以用隐私保护数据结构的形式创建混乱的用户简档。隐私保护数据结构或者cookie可以被附着到在线服务 请求 并且通过网络被发送给在线服务提供商,在线服务提供商可以使用它来满足服务请求,从而在用户的隐私被维持之时提供有些个人化的结果。,下面是用于没有用户跟踪的个人化的隐私保护cookie专利的具体信息内容。

1.一种用于创建代表混乱的用户简档的隐私保护数据结构以提供没有用户跟踪的用于在线服务的个人化的计算机实施的方法,包括:
将用户简档编码成具有自然地出现的噪声并且高效地支持噪声添加的用户简档;以及将噪声注入到经编码的所述数据结构中,以创建允许在维持指定的用户隐私平时向用户提供个人化的在线服务的、代表所述混乱的用户简档的所述隐私保护数据结构,其中向经编码的所述数据结构中被注入的所述噪声被自动化以允许在所述指定的用户隐私水平与个人化水平之间的折衷,并且
其中被注入的所述噪声通过使用个人化预测模型以及独立地变化用来构建所述隐私保护数据结构的哈希函数的数目和噪声的数量而被自动化,所述个人化预测模型使用用于用户集合的在线历史计算个人化的损失。
2.根据权利要求1所述的计算机实施的方法,还包括:
通过网络与客户端请求一起发送所述隐私保护数据结构;以及
响应于所述请求、通过所述网络来接收服务结果。
3.根据权利要求2所述的计算机实施的方法,其中所述隐私保护数据结构通过所述网络与搜索查询一起被发送;并且其中接收的所述服务是搜索结果。
4.根据权利要求1所述的计算机实施的方法,其中所述用户简档使用Bloom过滤器被编码。
5.根据权利要求4所述的计算机实施的方法,其中所述噪声通过在经编码的所述数据结构中设置随机比特并且通过控制假肯定自然地出现在Bloom过滤器中的概率而被注入。
6.根据权利要求5所述的计算机实施的方法,其中被设置在经编码的所述数据结构中的增加的数目的随机比特增加所述用户隐私水平。
7.根据权利要求5所述的计算机实施的方法,其中设置的比特的数目代表噪声,并且其中噪声水平由被设置在所述Bloom过滤器中的比特的小部分控制。
8.根据权利要求1所述的计算机实施的方法,其中所述隐私保护数据结构在没有使用噪声词典的情况下被创建。
9.根据权利要求1所述的计算机实施的方法,其中所述用户简档基于用户的在线活动。
10.一种用于在提供个人化的在线服务时保护用户隐私的系统,包括:
计算设备;
被存储在存储器设备上的计算机程序,其包括由所述计算设备可执行的程序模,其中所述计算设备由所述计算机程序的所述程序模块指引以:
基于用户的在线活动来构建个人化简档;
通过向所述个人化简档应用Bloom过滤器来对所述个人化简档编码;
向编码的所述个人化简档中注入噪声以创建隐私保护cookie,其中噪声的所述注入允许在指定的隐私水平与个人化水平之间的折衷,并且其中所述噪声通过在编码的所述个人化简档中设置随机数目的比特而被控制;以及
向通过网络被发送的在线服务请求附着所述隐私保护cookie以允许服务提供商在维持用户隐私时响应于所述请求来提供个人化的结果。
11.根据权利要求10所述的系统,其中噪声的所述注入被自动化。
12.根据权利要求10所述的系统,其中用户隐私通过在经编码的所述个人化简档中设置更大数目的随机比特而被增加。
13.根据权利要求10所述的系统,其中通信开销通过在搜索应用中使用所述隐私保护cookie而被减少。
14.根据权利要求10所述的系统,其中所述个人化简档的混乱水平通过在通过应用所述Bloom过滤器来对所述个人化简档编码时向所述个人化简档的所述比特应用的哈希函数的数目而被配置。
15.根据权利要求10所述的系统,其中为了创建所述隐私保护cookie而向所述个人化简档中被注入的所述噪声被自动化以允许在个人化水平与隐私水平之间的折衷。
16.根据权利要求15所述的系统,其中所述自动化包括:
通过独立地变化用来构建代表混乱的用户简档的所述隐私保护cookie的哈希函数的数目和噪声的数量、使用用于用户集合的在线历史计算个人化的损失来构建个人化预测模型;
通过计算所述用户集合中的每个用户的简档随时间的相似度并且基于相似度值将所述用户的简档分组成类别来使用在线历史构建隐私预测模型;
从用户接收隐私目标和个人化目标;
计算用于所述用户的相似度值;
基于相似度值来比较用于所述用户的所述相似度值与用户的建档的所述类别;以及自动地确定用于对隐私保护cookie编码的噪声的数量和哈希函数的数目,所述隐私保护cookie代表满足从所述用户接收的所述隐私目标和所述个人化目标的混乱的用户简档。
17.根据权利要求16所述的系统,其中每个用户的简档的所述相似度值通过使用Jaccard相似度函数而被确定。
18.根据权利要求16所述的系统,其中所述个人化目标是与通过使用所述用户的未混乱的简档而获得的所述个人化比较、用混乱的简档获得的个人化损失的最大可接受百分比。
19.根据权利要求16所述的系统,其中所述隐私目标基于最小不可链接性。
20.一种用于提供没有用户跟踪的在线服务的个人化的计算机实施的方法,包括:
接收用户的在线服务请求以及通过将Bloom过滤器应用于原始用户简档而被创建的混乱的用户简档并且在所述混乱的用户简档中设置随机比特,其中所述用户简档的混乱水平通过使用隐私预测模型而被确定,所述隐私预测模型通过针对用户集合随时间计算每个用户的简档的相似度值并且基于相似度值将所述用户的简档分组成类别而被创建;
响应于所述用户的在线服务请求来取回服务;以及
使用所述混乱的用户简档来对取回的所述服务排行以向所述用户提供个人化的在线服务。

说明书全文

用于没有用户跟踪的个人化的隐私保护cookie

背景技术

[0001] 在线服务(比如web搜索和广告)正在变得越来越个人化。服务关于个人知道越多和越久,它就可以提供越佳的个人化。通常地,这些在线服务通过跟踪来自相同用户的多个在线活动并且通常地在没有良好地得到用户同意时使用各种技术将它们链接在一起来在服务器上构建用户简档(例如,包含被频繁地访问网站、用户兴趣、人口统计信息、位置等等)。
[0002] 用于链接用户的在线活动的最简单方式是使用他的设备的网际协议(IP)地址。然而,由于设备的IP地址可以随时间改变,所以在线服务使用聊举数例的cookie、设备指纹化和浏览器插件来跨用户的IP会话跟踪用户。为了限制这样的跟踪,用户可以通过使用技术(如例如代理和匿名网络或者洋葱路由)来隐藏IP地址。它们也可以停用web cookie,并且在隐私模式中浏览以防止通过cookie的跟踪。然而,这些方式拒绝个人化,因为服务不再有权访问对于构建用户简档而言必需的信息。发明内容
[0003] 提供这一发明内容以用简化的形式介绍以下在具体实施方式中被进一步描述的概念选集。这一发明内容没有旨在于标识要求保护的主题内容的关键特征或者实质特征,它也没有旨在于限制要求保护的主题内容的范围。
[0004] 一般而言,这里描述的隐私保护cookie生成器实现方式创建用来为在线服务提供个人化而无用户跟踪的隐私保护数据结构(这里也被称为隐私保护cookie)。在一些实现方式中,隐私保护cookie生成器将用户简档编码(例如,基于用户的在线活动)成具有自然地出现的噪声并且高效地支持噪声添加的数据结构。附加噪声被注入到编码的简档中以按照隐私保护数据结构的形式创建混乱的用户简档,该隐私保护数据结构允许在维持指定的用户隐私平之时向用户提供个人化的在线服务。
[0005] 在隐私保护cookie生成器的一些实现方式中,通过将Bloom过滤器应用于用户简档以构建个人化简档并且向个人化简档中注入噪声以创建隐私保护cookie来对用户简档编码。Bloom过滤器是用来存储元素集合并且支持成员资格查询的已知的空间高效概率数据结构。在查询元素是否存在于Bloom过滤器中时,假肯定是可能的,但是假否定不是。
[0006] 一旦创建了隐私保护数据结构或者cookie,它然后就可以在客户端被附着到在线服务请求并且通过网络发送给在线服务提供商(例如,在服务器或者计算上),并且服务提供商可以使用隐私保护cookie以满足服务请求,从而在维持用户的隐私之时提供有些个人化的结果。例如,隐私保护cookie可以被附着到通过网络被发送的搜索查询以允许搜索引擎在维持用户隐私之时响应于查询来提供个人化的搜索结果。相似地,隐私保护cookie可以用来使其它在线服务个人化,比如基于用户的位置或者基于用户的兴趣来为产品和服务提供建议。这可以通过匹配由服务提供商生成的结果与代表用户的混乱的简档的隐私保护cookie中的项目而被完成。
[0007] 因此,隐私保护cookie可以取代传统cookie(即,用户可以在他的浏览器中停用第三方cookie),而用户有可能控制在隐私保护cookie中包括什么简档信息和何时向哪个在线服务发送cookie。附图说明
[0008] 公开内容的具体特征、方面和优点将参照以下描述、所附权利要求和附图而变得被更佳地理解,在附图中:
[0009] 图1描绘了用于实践这里描述的隐私保护cookie生成器的一个示例性实现方式的系统。
[0010] 图2描绘了用于实践这里描述的隐私保护cookie生成器的一个实现方式的示例性过程的流程图
[0011] 图3描绘了用于实践这里描述的隐私保护cookie生成器的另一实现方式的另一示例性过程的流程图;
[0012] 图4描绘了用于实践隐私保护cookie生成器的另一实现方式的又一示例性过程的流程图,该隐私保护cookie生成器基于用户的个人化和隐私目标来自动地配置隐私保护数据结构。
[0013] 图5是可以用来实践隐私保护cookie生成器的各种实现方式的示例性计算环境的示意图。

具体实施方式

[0014] 在隐私保护cookie生成器实现方式的以下描述中,参照附图,这些附图形成其部分并且通过说明示出了可以用来实践这里描述的隐私保护cookie生成器实现方式的示例。将理解,可以使用其它实施例并且可以做出结构改变而没有脱离要求保护的主题内容的范围。
[0015] 1.0隐私保护Cookie生成器
[0016] 以下章节提供这里描述的隐私保护cookie生成器实现方式的引言和概述,以及用于实践这些实现方式的示例性过程和系统。也提供了各种实施例和示例性计算的细节。
[0017] 作为预备内容,以下图中的一些图在不同地被称为功能、模、特征、单元等的一个或者多个结构部件的上下文中描述概念。可以用任何方式实施图中所示的各种部件。在一种情况下,所示的将图中的各种部件分离成不同单元可以反映在实际实现方式中使用对应的不同部件。备选地或者附加地,图中所示的任何单个部件可以由多个实际部件实施。备选地或者附加地,在图中描绘的任何两个或者更多个分离部件可以反映由单个实际部件执行的不同功能。
[0018] 其它图以流程图形式描述概念。在这一形式中,某些操作被描述为构成按照某个顺序被执行的不同块。这样的实现方式为说明性的而非限制。这里描述的某些块可以被分组在一起并且在单个操作中被执行,某些块可以被分解成多个部件块,而某些块可以按照与这里图示的顺序不同的顺序(包括执行块的并行方式)而被执行。可以用任何方式来实施流程图中所示的块。
[0019] 1.1引言
[0020] 虽然在线服务的用户隐私和个人化有不一致,但是它们不是互斥的。例如,有可能在可能的程度上在客户端维持用户简档并且在此执行个人化。以这一方式,向主控服务的服务器或者计算几乎没有透露很少或者没有透露。然而,纯客户端侧方式具有使它在实际系统中不可行的缺点。首先,没有关于用户的任何信息,在服务器或者计算云上的服务提供商需要向客户端发送所有或者大量结果以用于本地个人化。通信开销对于许多平台(比如移动设备)可能望而却步。第二,它要求服务将它的专有个人化算法放在客户端上,这经常不可接受。为了解决这些挑战,现有系统使用两种技术。首先,个人化由服务器或者由个人化代理而不是在客户端上被完成。个人化代理一般而言不被客户端信任。第二,由于客户端不信任提供个人化的一方,所以它用它的请求发送关于用户简档的有限信息(例如,高级别兴趣),从而使得代理(或者服务器)可以过滤掉与用户无关的结果或者可以将结果部分地个人化。因此,这些系统的关键要求是在发送出用户简档之前恰当地混乱它们。
[0021] 存在用于简档混乱的两种已知技术:仅在粗略粒度(例如,频繁地拜访的网站的类别而不是实际URL)共享用户的简档中的项目和向简档添加虚假项目以隐藏实际项目的噪声添加。
[0022] 已经在web搜索的上下文中考察了这样的简档混乱技术的隐私-个人化折衷。来自流行搜索引擎的搜索日志已经用来量化折衷。已经发现噪声添加提供比广义化更佳的隐私-个人化折衷,但是许多现有系统通常运用个人化的简档以保护用户的隐私。有趣的是,即使广义化的简档提供匿名,这也没有自然地随时间转化成不可链接性、用于确定隐私的测量。两个或者更多个兴趣项目的不可链接性意味着在包括兴趣项目和可能其它项目的系统内,从恶意服务器的度来看,这些兴趣项目与它们涉及先验知识而有关相比在观测之后不多不少有关。如果服务器能够标识两个请求是否来自相同或者不同客户端(可链接性),则它可以随时间收集足够信息以标识用户。
[0023] 然而,有噪声简档与广义化比较而言的优良性能有两个成本。根据向简档添加多少噪声,有噪声简档可能很大并且因此可能施加大的通信开销。已经示出为了实现合理隐私和个人化,有必要合计上至每请求数十kB噪声。另外,需要通过使用通常由受信任的第三方提供的大型噪声词典来生成噪声。
[0024] 存在影响在线系统中的个人化和隐私的各种设计选择。理解这些可以帮助为许多应用更佳地设计隐私保护个人化。举例而言,出于三个主要原因,以下讨论限于web搜索。首先,搜索引擎在被最多访问的网站之中,并且用户关心这些服务如何实施个人化。第二,大多数搜索查询简短和模糊,并且个人化可以帮助朝着个别用户的兴趣去模糊查询。第三,来自流行搜索引擎的日志容易地可用,从而使实际分析有可能。
[0025] 出于以下讨论的目的,假设了通用客户端-服务器模型。每个客户端与简档关联,该简档捕获用户的一般偏好并且被表示为一包简档项目,比如兴趣目录或者他频繁地拜访的网站的URL。通常使用用户的搜索历史来构造简档,但是它们也可以利用人口统计信息、web浏览历史或者社交网络交互以用于甚至更丰富的用户模型。在处理来自客户端的查询时,服务器利用用户的简档以将用于他的搜索结果个人化。
[0026] Web搜索中的个人化是指对搜索结果进行排行,从而使得更高排行的结果比更低排行的结果更可能被用户点击。服务器可以使用现有技术(比如针对用户的兴趣定制搜索查询或者基于用户最频繁地拜访的网站对搜索结果重新排行)以便朝着结果列表的顶部推动很可能被点击的结果。
[0027] 一般而言,可以假设客户端没有针对他的简档信任在服务器或者计算云上被主控的服务提供商。向服务器暴露确切用户简档可能泄漏用户的身份,并且因此为了隐私,客户端在向服务器发送他的简档之前将它混乱。不可链接性被视为关键隐私测量。不可链接性保证服务器不能标识两个查询是否来自相同客户端或者不同客户端。客户端的简档的不可链接性可以在向服务器发送它之前通过用噪声将它混乱(即,通过在简档中添加虚假项目)而被实现。
[0028] 1.2隐私个人化设计
[0029] 设计隐私保护个人化的在线服务(如例如搜索引擎)涉及在以下段落中被讨论的许多重要设计选择。
[0030] 一个重要设计决策是如何将客户端的简档混乱,从而使得服务器仍然可以发现它对于个人化有用,但是不能链接来自相同用户的简档。如以上讨论的那样,用于隐私保护web搜索的现有解决方案可以被分类成两个类别:简档广义化和噪声添加。
[0031] ·简档广义化:在简档广义化中,简档项目被广义化到更粗略粒度(例如,URL被广义化到它的类别,GPS位置被广义化到它的对应的ZIP代码)。服务器不能在具有相同的广义化的简档的用户之间区分,即使他们的原有简档不同。也已经在其它应用(比如用掩盖的地区掩盖用户的位置以实现位置隐私)中使用了该想法。
[0032] ·噪声添加:在噪声添加中,向用户的简档添加被称为虚项目(dummy)的虚假简档项目和从用户的简档移除一些原有简档项目。每当向服务器发送简档时向简档独立地添加大量虚假项目,来自相同客户端的两个有噪声简档看来不同,从而使服务器难以链接它们。
[0033] 现有系统使用这些不同技术以用于评估个人化或者隐私。例如,一个聚焦于隐私的系统使用广义化的简档并且假设它们可以与服务器安全地被共享以保证某个形式的匿名。在另一方面,聚焦于个人化的系统示出无任何广义化的URL产生更佳个人化。
[0034] 已经发现了噪声添加提供比广义化更佳的隐私-个人化折衷。也已经示出了由广义化的简档提供的匿名没有自然地随时间转化成不可链接性。一般而言,有噪声简档可以提供与广义化的简档相似水平的不可链接性,但是具有更佳个人化(或者相似个人化而不可链接性更佳)。这是反直观的,因为噪声按照定义负面地影响个人化。然而,负面影响被简档项目的(比广义化的简档项目)更细微的颗粒度抵消,从而产生个人化中的净正改进。
[0035] 即使有噪声简档较广义化的简档而言具有它的优点,但是它们不是没有成本。存在两个关键缺点。首先,如果必须向简档添加许多虚假项目以保证合理不可链接性,则有噪声简档可能非常大。由于经常向服务器发送有噪声简档(可能随着每个请求),所以通信开销对于有能量约束的设备(比如智能电话)可能过多。第二,需要从系统中的所有用户的简档中的项目的无偏置采样挑选虚假项目。如果客户端从其选择虚假项目的采样有偏置(例如,所有项目与足球有关)并且如果该偏置为服务器所知,则它可以容易地过滤掉噪声以标识实际项目。因此,客户端需要找到将为他计算无偏置采样的受信任的第三方。这是强依赖。采样也需要在用户加入和离开系统时、在新简档项目出现时或者在项目的流行度改变时被更新。
[0036] 已经示出了需要伴随每个客户端请求的噪声简档的大小可能是数十kB级,比实际请求和响应大得多。即使压缩有噪声简档,开销仍然显著。有噪声简档的高成本可能使它们不切实际。另外,噪声词典的要求构成附加威胁,因为恶意服务器可以供应使噪声更可预测的有偏置词典。
[0037] 1.3隐私保护Cookie生成器概述
[0038] 以下段落提供由一些隐私保护cookie生成器实现方式运用的假设以及各种可能设计选择的概述。也提供了用于实现隐私保护cookie生成器的示例性系统和示例性过程。
[0039] 在隐私保护cookie生成器实现方式中,通过将用户简档编码成具有自然地出现的噪声并且高效地支持噪声添加的数据结构来创建隐私保护数据结构。(在一些实现方式中,用来创建隐私保护数据结构的数据结构是Bloom过滤器,尽管也可以使用具有自然地出现的噪声并且高效地支持噪声添加的其它数据结构。)然后向编码的数据结构中注入附加噪声以创建允许在维持指定或者希望的隐私水平之时向用户提供个人化的在线服务的隐私保护数据结构(例如,隐私保护cookie)。与服务请求一起通过网络发送隐私保护数据结构(例如,向服务器或者向计算云发送),该服务请求然后使用隐私保护数据结构以选择将向用户提供的服务结果。
[0040] 如以上讨论的那样,隐私保护cookie生成器的一些实现方式基于Bloom过滤器来生成隐私保护cookie、有噪声用户简档,这些Bloom过滤器显著地更小(可与如今的web cookie的大小比较)并且无需噪声词典以用于它们的生成。在一些实施例中,隐私保护cookie由客户端设备生成和维持,并且每当用户做出服务请求时被发送给在线服务。在线服务可以使用cookie以递送个人化的结果。
[0041] 除了向Bloom过滤器中显式地注入有噪声比特之外,隐私保护cookie生成器的实现方式利用在它中自然地出现的假肯定作为噪声以提供隐私。隐私保护cookie生成器也提供如下过程,给定用户的隐私和个人化目标,该过程可以自动地配置隐私保护cookie的参数。已经示出了隐私保护cookie提供更方便的隐私、个人化和网络效率折衷。
[0042] 1.3.1假设
[0043] 隐私保护cookie生成器以跨IP会话的不可链接性为目标,其中IP会话是具有相同源IP地址的所有查询的序列。隐私保护cookie生成器没有假设用于隐藏设备的IP地址的技术(代理和匿名网络或者洋葱路由)可用,因为它们需要对网络基础结构的改变并且因此并不总是实用。然而,这些技术与隐私保护cookie正交并且可以进一步增强用户的隐私。在一个场景中,搜索引擎看见搜索查询所来自的IP地址。因此,隐私保护cookie生成器的目标是阻止恶意服务器尝试将来自不同IP会话的查询相关以找出它们是否与相同用户关联。
[0044] 跨IP会话的不可链接性是有用的隐私目标,因为IP会话通常在实践中是短的(数周级别)。例如,智能电话的IP地址相对地经常改变,基本上每当没有网络活动时,无线电被关断。在家用网络中,依赖于提供商和网络合约类型,IP地址更不频繁地改变。在公司网络中,IP地址可以保持相同更久,但是在相同IP地址之下聚集来自多个设备的网络流量,因此使用户标识困难。(IP地址保持相同,但是源端口随着每个新的进行中的连接而改变。这与智能电话情况相似,其中设备每当无线电唤醒时得到新IP地址。)一般而言,IP会话越短,服务器就越难以链接不同会话。
[0045] 隐私保护cookie生成器实现方式假设以如下方式配置用户的web浏览器,该方式防止在线服务通过cookie、浏览器指纹化、浏览器插件或者相似技术攻击它们。用户的浏览器(或者下层系统)保持对用户的在线活动(例如,搜索查询、拜访的站点)的跟踪并且维持简档,该简档反映用户的兴趣、偏好和爱好。简档没有直接地与任何在线服务被共享;代之以它被编码为隐私保护cookie并且与每个搜索查询一起被发送给服务器。如将示出的那样,隐私保护cookie效率高并且保护隐私而又允许服务器、服务提供商或者计算云将结果个人化。
[0046] 服务器、服务提供商或者计算云可能基于搜索查询的内容或者与查询关联的其它元信息(例如,搜索查询的时间、频率、位置或者语言)来发起相关性攻击。对隐私保护cookie生成器的一些评估间接地包含这样的相关性在用户人口的大小中的影响。在实际部署中,搜索引擎潜在地具有数十亿用户,但是试图将属于单个用户的不同IP会话链接在一起的恶意搜索引擎可以使用这一额外信息以将搜索会话分组成更小群集。一个简单示例是使用IP地理位置以将来自小镇的所有IP会话放入一个群集。群集越小,就越易于将用户链接在一起。
[0047] 最后,假设服务器、云或者服务提供商仅有权访问通过它自己的服务而被收集的信息(即,向搜索引擎提交的搜索请求)。也假设服务器没有与其它源(比如其它服务(例如,电子邮件、社交网络)或者第三方攻击者)串谋。
[0048] 1.3.2隐私保护cookie设计
[0049] 隐私保护cookie生成器实现方式可以在最小化被在线服务成功地跟踪的险之时实现个人化,从而创建用于以高效和保护隐私的方式对用户的简档编码的隐私保护cookie。
[0050] 一般而言,如先前讨论的那样,这里描述的隐私保护cookie生成器实现方式创建用来为在线服务提供个人化而无用户跟踪的隐私保护数据结构。在一些实现方式中,隐私保护cookie生成器将用户简档编码(例如,基于用户的在线活动,如例如用户最经常拜访的网站的统一资源定位符(URL)的搜索历史)成具有自然地出现的噪声并且高效地支持噪声添加的数据结构。然后向编码的数据结构中注入噪声以创建允许在维持指定的用户隐私水平之时向用户提供个人化的在线服务的隐私保护数据结构。
[0051] 在隐私保护cookie生成器的一些实现方式中,通过向用户简档应用Bloom过滤器以构建个人化简档并且然后向个人化简档中注入噪声以创建隐私保护cookie来对用户简档编码。Bloom过滤器是用来存储元素集合并且支持成员资格查询的熟知的空间高效概率数据结构。更具体地,Bloom过滤器用来存储来自集合E的元素并且用k个哈希函数被实施为大小为m的比特串。在查询元素是否存在于Bloom过滤器中时,假肯定是有可能的,但是假否定不是。可以通过变化m和k(例如,k=m/n·ln2来将p最小化,其中n=|E|)来控制假肯定的概率p。
[0052] 一旦创建了隐私保护cookie,它然后就可以被附着到在线服务请求并且被发送给在线服务,并且服务可以使用隐私保护cookie以满足服务请求,从而在维持用户的隐私之时提供有些个人化的结果。例如,隐私保护cookie可以被附着到通过网络而被发送的搜索查询以允许搜索引擎在维持用户隐私之时响应于查询来提供个人化的搜索结果。
[0053] 除了隐私保护cookie生成器之外,两种其它可能的本领域现有噪声添加技术早这里被称为RAND和HYBRID。这两种技术通过向实际用户简档中引入虚假简档项目(即URL)来工作。噪声水平由参数f控制,该参数代表为每个实际简档项目而被添加的虚假简档项目的数目。例如,如果原有简档具有k个项目,则具有f=10的有噪声简档将具有11*k个项目。这些RAND和HYBRID噪声添加技术假设词典D,该词典D包含URL和与每个URL关联的前3个开放词典项目(ODP)类别。(ODP根据具有数千主题的分级分类法对web的部分分类,其中特异性朝着对应的树的叶节点增加。使用分类法的最一般的两个级别对网页分类,这两个级别考虑220个主题。)RAND代表简单地从D随机地抽取虚假URL的噪声添加技术。HYBRID是更高级的技术,该技术从通过从D消除没有与用户的兴趣匹配的任何ODP类别(也被表达为ODP类别)的所有URL而计算出的被称为uD的用户专属词典随机地抽取虚假URL。HYBRID较RAND而言的优点是如果恶意服务器能够推断用户的兴趣(例如,从搜索关键词),则它不能简单地丢弃没有与用户的兴趣匹配的(虚假)URL。
[0054] 一种用于使用隐私保护cookie生成器来创建隐私保护cookie的简单直接方式是向Bloom过滤器中插入来自由RAND或者HYBRID生成的有噪声简档的URL,客户端然后将该Bloom滤波与他的服务请求或者查询一起发送给服务器上的服务提供商。为了个人化,服务器简单地向Bloom过滤器查询在用于提交的搜索查询的搜索结果中包含的所有URL,并且相应地对结果重新排行。待重新排行的搜索结果的数目普遍在范围10-100中,这使Bloom过滤器查询的数目可接受。由于Bloom过滤器大小可能显著地小于URL的实际列表,所以这可以减少通信开销。然而,这一方式仍然没有移除对于技术(如RAND和HYBRID)所需要的噪声词典的需要。
[0055] 为了避免对于噪声词典的需要并且甚至进一步减少通信开销,隐私保护cookie生成器的实现方式在Bloom过滤器的比特级引入噪声。更具体地,隐私保护cookie生成器的实现方式始于客户端的确切简档、将存在于确切简档中的URL或者其它数据编码成Bloom过滤器并且然后在过滤器中设置虚假比特的随机集合(即,设置成1)。由确切简档的Bloom过滤器和虚假比特集合构成的这一数据结构被称为隐私保护cookie。虚假比特的存在增加过滤器的假肯定率并且充当噪声。虚假比特的数目充当用于控制噪声量值的调节旋钮。
[0056] 以上使用Bloom过滤器生成隐私保护cookie是相对地简单的。存在使Bloom过滤器有利于简档混乱的至少五个特征。
[0057] 1.效率:按照大小,Bloom过滤器比噪声添加技术(比如RAND和BRID)使用的一包URL更紧凑得多。这减少向服务器发送有噪声简档的通信开销。
[0058] 2.按设计有噪声:通常被视为缺点的、Bloom过滤器的假肯定对于隐私保护cookie生成器是优点。事实上,Bloom过滤器中的假肯定充当可以经由各种设计参数(比如哈希函数的数目)而被控制的自然噪声。
[0059] 3.非确定性噪声:由Bloom过滤器引入的噪声水平随着过滤器的内容改变而自动地改变。这使得对手更难以预测利用的噪声水平。噪声确定性对于标准噪声添加技术是显著问题。
[0060] 4.无词典:通过设置随机虚假比特来添加噪声,隐私保护cookie生成器可以在没有任何噪声词典的情况下工作。噪声词典的要求引入附加开销和隐私威胁。
[0061] 5.昂贵词典攻击:不同于将有噪声简档表示为简档项目列表的大多数简档混乱技术,Bloom过滤器将它们表示为比特数组。为了构建完整用户简档,潜在对手将需要向Bloom过滤器查询存在于一些参考词典中的所有可能元素。
[0062] 如以上讨论的那样,除了在Bloom过滤器中自然地出现的假肯定,隐私保护cookie生成器通过在过滤器中设置随机比特来注入噪声。噪声水平由参数l(不同于在RAND和HYBRID中使用的噪声水平f)控制,该参数代表在Bloom过滤器中设置的与原有简档项目或者与噪声对应的比特的小部分。注意,l用来仅控制隐私保护cookie生成器需要在隐私保护cookie生成器插入原有简档项目之后设置的虚假比特的数目。如果由原有简档项目设置的比特数目已经大于目标值l,则隐私保护cookie生成器没有添加任何有噪声比特。将噪声配置为比特总数的小部分(而不是恒定比特数目)的原因是保持由服务器观测的比特数目恒定。考虑各自包含n=10个元素的两个简档A和B的情况。在存储在Bloom过滤器中(其中k=1)时,假设A设置7个唯一比特而B设置10个唯一比特。直观地看见在试图对Bloom过滤器的内容进行向反工程设计时第二简档将被映射到比第一简档更多的简档项目,因此指示B需要比A更少的有噪声比特以实现相同保护水平。这是在Bloom过滤器中设置的比特的小部分为什么无论它们是实际或者虚假比特都本身是对混乱程度的指示的原因。
[0063] 哈希函数的数目k和噪声水平l是用于控制在由隐私保护cookie生成器创建的隐私保护cookie中的混乱的主要参数。在增加k时,平均不可链接性减少而个人化损失缩减。事实上,增加k意味着减少假肯定的概率以及减少由l控制的有噪声比特的数目(由于随着k更大,在存储在Bloom过滤器中时为每个简档项目设置更多比特)。反言之,增加m(略微地)增加不可链接性(并且对个人化几乎没有影响)。这是因为虽然更大m减少假肯定的概率,但是更大Bloom过滤器意味着设置更多有噪声比特,因为l控制设置的比特的小部分并且它依赖于m。由l控制的噪声影响为主并且因此在m增加时使不可链接性更高。变化相对地小。出于这一原因,一些隐私保护cookie生成器实现方式仅使用k和l以控制隐私保护cookie的噪声水平。
[0064] 1.4示例性系统
[0065] 图1描绘了如被应用于web搜索的隐私保护cookie生成器框架的一个示例性实现方式100。在客户端计算机102,建档器104基于用户的搜索历史108来构建个人化简档106。在这一实现方式中,由用户110最经常拜访的网站的URL构成的简档106被馈送到混乱器112中,该混乱器112以隐私保护cookie 114的形式生成混乱的用户简档。
[0066] 在这一实现方式中,Bloom过滤器116由混乱器112应用于用户简档106以便生成隐私保护cookie 114。混乱器112通过两个参数使用Bloom过滤器来配置简档的混乱水平:哈希函数的数目(k)和噪声水平(l)。原理上,Bloom过滤器的假肯定概率p依赖于k和m(k越大,p越小;m越大,p越小),然而,在实践中,m对实现的混乱具有很小影响。因此,隐私保护cookie生成器的这一实现方式出于混乱目的而仅变化k(在隐私保护cookie创建器的一个工作实现方式中,m通常地被设置成1000-2000比特)。参数k和l由噪声生成器120计算。这使用简单预测过程(后文关于图4来描述),该预测过程在给定用户的个人化目标122和隐私目标124以及向服务器128先前发送的简档126的历史时预测最优配置。
[0067] 生成的隐私保护cookie114然后与用户的搜索请求132一起被发送给服务器128上的搜索引擎130。在搜索引擎130,个人化器134基于在隐私保护cookie中存储的有噪声用户简档来对搜索结果重新排行。个人化器向隐私保护cookie查询每个搜索结果。如果搜索结果表现为被存储在cookie中,则它按照由服务器决定的某个因子将它排行更高。排列并且向客户端发送排行的搜索结果的最终集合。可选地,客户端侧个人化器136可以基于客户端102已知的无噪声用户简档106来进一步精化结果及其排行以获得最终个人化的结果140。
如同在服务器侧上的个人化器,客户端可以决定对由服务器原来排行的结果重新排行多少。如果示出更少结果可以有益于客户端,则它甚至可以决定丢弃一些结果。
[0068] 1.5示例性过程
[0069] 以下段落讨论用于实现隐私保护cookie生成器的一些实现方式的示例性过程。
[0070] 图2描绘了用于在隐私保护cookie生成器的一个实现方式中创建隐私保护数据结构的示例性过程200,该隐私保护cookie生成器允许为用户将在线服务个人化而无用户跟踪。为了实现这一点,如在块202中所示的,将用户的简档编码成具有自然地出现的噪声并且高效地支持噪声添加的数据结构。如在块204中所示的,向编码的数据结构中注入噪声以创建隐私保护数据结构,该隐私保护数据结构允许在维持指定的用户隐私水平之时向用户提供个人化的在线服务。可以通过在编码的数据结构中设置随机数目的比特来注入噪声。
[0071] 一旦创建了隐私保护数据结构,就可以如在块206中所示的,通过网络与服务请求来发送它(例如,向服务提供商、服务器、计算云或者搜索引擎)。服务请求可以是搜索查询、对于产品信息的请求、对于新闻的请求、对于关于在用户的位置附近的餐厅的信息的请求等等。如在块208中所示的,响应于请求通过网络来接收请求的个人化的结果。例如,结果可以是个人化的搜索结果集合、用户可能感兴趣的产品的个人化的列表、用户可能感兴趣的个人化的新闻故事或者基于用户的位置的餐厅的个人化的列表。这些个人化的结果由服务提供商基于用户的混乱的简档以与服务提供商将如何基于未混乱的简档为用户确定个人化的结果相似的方式确定。然而,由于简档混乱而保护用户的隐私。
[0072] 图3描绘了用于使用Bloom过滤器来创建在这里被称为隐私保护cookie的私密保护数据结构的另一示例性过程300。在这一实现方式中,如在块302中所示的,使用Bloom过滤器对用户简档编码。如在块304中所示的,向代表编码的用户简档的编码的数据结构中注入噪声以创建隐私保护cookie(该隐私保护cookie允许在维持指定的用户隐私水平之时向用户提供个人化的在线服务)。通过在编码的数据结构中设置随机比特来注入噪声。在设置增加的数目的比特时,用户的隐私水平增加。事实上,噪声水平由在Bloom过滤器中设置的比特的小部分控制。这一隐私保护cookie代表混乱的用户简档。应当指出,隐私保护cookie大小很小并且被创建而未使用噪声词典。这允许更高效地使用网络带宽和计算机资源。
[0073] 如在块306中所示的,然后通过网络与服务请求一起发送隐私保护数据cookie(例如,向服务提供商、服务器、计算云)。例如,如同关于图2而讨论的实现方式,服务请求可以是搜索请求、对于产品信息的请求、对于新闻的请求、对于关于在用户的位置附近的餐厅的信息的请求等等。如在块308中所示的,然后可以通过网络接收请求的个人化的结果。这些个人化的结果由服务提供商基于用户的混乱的简档以与服务提供商将基于未混乱的简档为用户确定个人化的结果相似的方式确定。然而,由于简档混乱而保护用户的隐私。另外,用户简档的混乱水平可以由在通过应用Bloom过滤器来对简档编码时向它应用的哈希函数的数目和添加的噪声数量定制。也可以如以下关于图4而讨论的那样基于用户的个人化和隐私目标来自动地定制混乱水平。
[0074] 图4示出了又一示例性过程,该过程描绘如何将向编码的用户简档中注入噪声以创建隐私保护cookie自动化从而允许在个人化水平与隐私水平之间的折衷。如在块402中所示的,通过独立地变化用来构建代表混乱的用户简档的隐私保护cookie的哈希函数的数目和噪声数量而为在线用户的集合使用在线历史计算个人化损失来构建个人化预测模型。如在块404中所示的,也通过随时间计算用户集合中的每个用户的简档的相似度并且基于相似度值将用户的简档分组成类别、使用在线服务的用户的历史来构建隐私预测模型。从用户接收隐私目标和个人化目标(块406)并且为用户的简档计算相似度值(如在块408中所示的)。如在块410中所示的,基于相似度值来比较用于用户的简档的相似度值与用户的简档的类别,并且如在块412中所示的,自动地确定用于对隐私保护cookie编码的噪声数量和哈希函数的数目,该隐私保护cookie代表满足从用户接收的隐私目标和个人化目标的混乱的用户简档。这些参数然后可以用来构建隐私保护cookie(块414)。在接下来的段落中示出了这一实现方式的计算的细节。
[0075] 如以上关于图4而讨论的那样,通过变化噪声水平,用户可以在获得在线服务时控制隐私-个人化折衷。有隐私顾虑的用户可以选择在最高噪声水平操作,而对隐私和个人化一视同仁的用户可以决定在适度噪声水平操作。图4中所示的过程400在给定用户的隐私和个人化目标时在隐私保护cookie中配置噪声参数。该过程取得作为用户愿意容许的最大百分比个人化(与用确切简档获得的个人化比较)而指定的个人化目标和作为用户想要实现的最小不可链接性而指定的隐私目标作为输入。此外,该过程使用由客户端向服务器先前发送的简档的历史以随时间计算简档相似度。该过程返回用于配置隐私保护cookie的对。隐私保护cookie过程运用两个预测模型,一个用于个人化并且一个用于隐私。使用其搜索历史可用的用户的集合来训练模型。
[0076] 隐私保护cookie生成器在独立地变化参数k和l(在一个工作实现方式中m=2000)时通过为训练用户计算个人化损失来构建个人化模型。在给定目标个人化损失时,模型通过在所有测量的数据点之间执行线性插值来预测各种组合。
[0077] 为了构建隐私模型,隐私保护cookie生成器利用用户的简档随时间的相似度使他更可跟踪这样的观测。因此,相似度越大,为了实现某个水平的不可链接性而需要的噪声就越多。隐私模型的目标然后是代表在相似度、不可链接性和之间的关系。在一个工作实现方式中,隐私保护cookie生成器计算在训练用户的两个连续时间段长(例如,两周长)的简档之间的Jaccard相似度,并且然后基于相似度值来将它们划分成多个桶(例如,s=10个桶)。对于每个桶,隐私保护cookie生成器然后通过以与对于个人化模型相似的方式完成线性插值来创建隐私模型。对于希望的水平的不可链接性,模型预测对。因此,在给定隐私目标和用户的简档跨时间的相似度时,该过程找到用户属于哪个相似度桶,并且然后使用适合的私密模型以用于该桶预测
[0078] 隐私模型提供噪声上的下界(即,在噪声更多时实现更高不可链接性)。个人化模型提供上界(即,在噪声更多时体验更大个人化损失)。如果下界高于上界,则没有满足目标的求解。否则,通过在可能值之中随机地选择k并且使用最小噪声水平以用于这样的k来确定求解。
[0079] 图5提供了另一示例性过程500,该过程描绘服务器或者计算云上的服务提供商如何处理接收的隐私保护数据结构或者cookie。如在块502中所示的,用户的在线服务请求和混乱的用户简档(例如,通过向原有用户简档应用Bloom过滤器并且在混乱的用户简档中设置随机比特而被创建的隐私保护cookie)。如在块504中所示的,响应于用户的在线服务请求来取回服务。例如,对于搜索请求,服务提供商取回搜索结果的集合并且对它们排行。如在块506中所示的,服务提供商然后使用混乱的用户简档对取回的结果重新排行以向用户提供个人化的在线服务。例如,服务提供商向隐私保护cookie查询响应于用户的在线服务请求而返回的每个搜索结果,并且如果在隐私保护cookie中包含搜索结果,则将它排行更高。在一些实现方式中,为了检查是否在隐私保护cookie中包含某个结果,服务提供商向结果应用k个哈希函数、得到k个数组位置并且检查在那些位置的比特是否被设置成1。如果它们都被设置了,则意味着在隐私保护cookie中包含结果。这一查询方法基于一种用于查询Bloom过滤器的标准方式。
[0080] 2.0细节和示例性计算
[0081] 以下段落提供用于隐私保护cookie生成器的各种部件和实现方式的细节和示例计算。
[0082] 2.1搜索日志配置
[0083] 如以上讨论的那样,可以在确定隐私-个人化折衷并且创建混乱的用户简档时使用搜索日志。在隐私保护cookie生成器的一个实现方式中,搜索日志中的每个条目包含用来基于用户的在线活动来创建用户简档的五个字段:唯一用户ID(这些ID通常使用IP地址、cookie和搜索工具栏而被建立)、由用户提交的搜索查询、时间戳、向用户示出的前10个搜索结果和由用户点击的结果(包括每个点击的时间戳)。每个搜索结果由URL和用于在URL的网页的前3个(第一或者第二级)ODP类别构成。
[0084] 2.2创建用户简档
[0085] 为了创建隐私保护数据结构或者cookie,为用户的在线活动创建用户简档。现有技术的web搜索个人化使用两种用于从搜索日志构建用户简档的主要技术:细微粒度的基于URL和粗略粒度的基于兴趣的建档。隐私保护cookie创建器的实现方式可以使用这些或者其它技术中的任一种技术。
[0086] 顾名思义,基于URL的简档包括用户最经常拜访的URL,而基于兴趣的简档包括从用户的以往行为挖掘的用户的兴趣的模型。为了构建基于URL的简档,对于用户的搜索日志中的每个搜索会话(其中搜索结果中的至少一个搜索结果被点击),提取满足的点击(跟随有不活动时段的点击)。然后提取对应的点击的URL并且组装用户简档作为按照在搜索日志中的重现而被排序的URL域的列表。
[0087] 为了构建基于兴趣的简档,首先在用户的搜索日志中用类别标注每个查询。查询的类别可以被确定为查询的前10个搜索结果的最常见ODP类别。可以向用于某个查询的点击的结果的ODP类别指派更高权值(例如,按照默认双权值)。然后用户的兴趣简档可以被构造作为ODP类别跨在用于用户的可用搜索历史中的所有查询的分布。
[0088] 2.3使用用户简档以对结果排行
[0089] 一旦构建了简档,它们就可以用于对结果排行。具体而言,在用于搜索的一个示例性实现方式中,对于给定的搜索查询,向为查询而被返回的前M个搜索结果(例如,M=50)中的每个搜索结果指派分数。如果结果的域(或者ODP类别中的任何ODP类别)存在于用户的URL(或者兴趣)简档中,则搜索结果接收分数α*M,其中α是控制个人化的激进度的、范围从0到1的参数。Α越大,重新排行就越激进(在一个实现方式中使用α=0.25)。如果域(或者ODP类别)不存在,则分数是0。基于分数来对结果排行。由于在基于混乱的用户简档对搜索结果排行时以隐私保护数据结构/coolie的形式混乱用户的简档,所以重新排行将能够在保护用户的隐私之时在某个程度上提供个人化的结果。
[0090] 2.4测量个人化水平
[0091] 为了评估个人化,可以利用在搜索日志中记录的用户点击。这一方法的关键认识是如果个人化过程能够将“相关”结果(即点击的结果)排行最高,则用户将对搜索更满意。因此,可以使用点击决定作为用以量化个人化提高的相关度度量。
[0092] 个人化的质量可以由被定义如下的平均排行测量:
[0093]
[0094] 其中 是为给定的查询i而点击的结果的集合,并且rankr是由个人化过程指派的结果的排行r。平均排行越小,个人化质量就越高。
[0095] 2.5作为隐私测量的不可链接性
[0096] 如先前讨论的那样,不可链接性可以用作隐私测量。不可链接性的正式定义将元素集合的不可链接性程度测量为熵。元素集合的分割(意味着划分集合作为非重叠和非空子集的并集)代表一种用于将集合中的所有元素相互“链接”(例如,在给定4个元素的集合时,15个分割存在)的可能方式。在本文中,“链接”意味着标识在属于相同用户的不同上下文(例如,不同时间段)中收集的用户简档。集合中的元素的不可链接性被测量为熵:
[0097]
[0098] 其中X表示可能分割的集合并且p(x)是概率质量函数,0≤p(x)≤1,该概率质量函数表示x是正确分割的概率。
[0099] 无任何附加信息,先验地,所有分割是同等地可能的,因此概率分布是均匀的,并且元素的熵在它的最大值(Hpriori(X)=-log2(1/m))。然而,对访问关于分割的一些信息的不利因素可能后验地排除一些候选分割,从而因此降低熵。恶意服务器可以观测用户简档的内容并且向某些分割指派更高概率。因此将元素集合的与不利因素相对的不可链接性程度定义为在后验熵与先验熵之间的比值:
[0100]
[0101] 遗憾的是,这一定义没有缩放成大集合,因为枚举所有可能的分割是计算上困难的问题。因此,可以做出一些简化假设。首先,可以假设随时间在系统中存在恒定数目的用户,并且在时间段i中看见其简档的用户(其中时间段在隐私保护cookie生成器的一个实现方式中是数周级的固定时间长度)也将在时间段i+1中具有简档。第二,可以假设关于与系统交互的一些用户的历史信息可用(这允许训练潜在不利因素可以构建的可链接性模型)。第三,取代计算所有可能分割以计算系统不可链接性,如以下具体描述的那样,可以通过与系统中的其他用户独立地比较用户在时间段i中的简档与在时间段i+1中的所有其它简档来计算“每用户不可链接性”。
[0102] 确定不可链接性程度的过程由两个步骤构成。在第一步骤中,从n个用户在时段T=T1+T2(T=1个月)内的搜索日志构建可链接性模型。为n个用户中的每个用户创建两个简档,一个来自第一时间段T1并且一个来自下一时间段T2。接着,为了测量简档相似度,计算在n2个可能的简档对之间的Jaccard相似度,其中第一简档来自T1个简档的集合并且第二简档来自T2个简档的集合。Jaccard相似度系数(或者Jaccard指标)测量在有限采样集合之间的相似度并且被定义为交集的大小除以采样集合的并集的大小。在一种情况下,采样集合是用户简档。每个用户简档事实上是URL或者兴趣的集合。
[0103] 使用在用户的日志中可用的基础事实(即,哪个T1和T2简档的信息属于相同用户)来训练可链接性模型。这被定义为如下函数,该函数将一对简档的Jaccard相似度映射成这两个简档属于相同用户的可能性。
[0104] 在第二步骤中,通过计算先验和后验熵来计算用户的简档的不可链接性。在给定m个用户的集合时,其中每个用户具有在两个连续(可能重叠)时间段P1和P2内计算出的两个简档,应用可链接性模型以计算来自P1的特定简档的可能性被链接到P2中的简档(即,属于相同用户)的概率。注意,P1和P2是与以上T1和T2不同但是相同长度的时间段。在没有关于任何用户的任何信息的情况下,特定简档 被链接到另一简档 的概率是1/m,因此后验熵是log2(m)。如果关于用户的更多信息变得可用(通过计算在简档之间的相似度并且使用以上描述的可链接性模型),则 被链接到特定 的概率改变,并且它可以用来计算小于先验熵的后验熵。后验与先验熵的比值是用户i的不可链接性。
[0105] 3.2.2可链接用户和最大概率
[0106] 不可链接性度量给定基于熵的平均估计,但是它没有捕获后验概率的全分布。基于熵的不可链接性试图量化为了完全地打破简档的匿名(即,用相同所有者标识另一简档)而需要的信息量,但是在实践中,如果简档的子集可以与比在均匀分布的情况下显著地更大的良好概率被链接则成功攻击出现。其它度量已经报导了与基于熵的度量相似的问题并且已经提出了用附加度量(比如质量和最大概率)补充它们。
[0107] 为了解决这一点,可以使用两个附加测量:可链接用户百分比和最大概率。可链接用户百分比测量可以使用可链接性模型来正确地链接的用户的百分比。在m个用户的P1和P2个简档之间计算可链接性概率以获得m*m概率矩阵。使用这一矩阵,来自P2的每个简档被链接到来自P1的简档,这是从具有最高概率的简档开始的并且在来自P1和P2的简档得到链接时消除它们。可链接用户百分比被定义为如下用户的百分比,这些用户的两个连续时段的简档可以被正确地链接。最大概率是在移除最高无关概率(通常是前1%(这等效于计算百分之99))之后的m*m概率矩阵中的最大可链接性概率。
[0108] 3.0示例操作环境:
[0109] 这里描述的隐私保护cookie生成器实现方式在许多类型的通用或者专用计算系统环境或者配置内可操作。图5图示了如下通用计算机系统的简化示例,可以在该通用计算机系统上实施如这里描述的隐私保护cookie生成器的各种实现方式和单元。注意,由在图5中所示简化的计算设备500中的虚线或者点划线代表的任何框代表简化的计算设备的备选实现方式。如以下描述的那样,这些备选实现方式中的任何或者所有备选实现方式可以与贯穿本文描述的其它备选实现方式组合地被使用。
[0110] 通常在具有至少一些最小计算能的设备(比如个人计算机(PC)、服务器计算机、手持计算设备、膝上型或者移动计算机、通信设备(比如蜂窝电话)和个人数字助理(PDA)、多处理器系统、基于多处理器的系统、机顶盒、可编程消费者电子装置、网络PC、小型计算机、大型机计算机和音频或者视频媒体播放器)中找到简化的计算设备500。
[0111] 为了允许设备实现这里描述的隐私保护cookie生成器实现方式,设备应当具有充分的计算能力和系统存储器以实现基本计算操作。具体而言,图5中所示的简化的计算设备500的计算能力一般由一个或者多个处理单元510图示,并且也可以包括一个或者二者与系统存储器520通信的一个或者多个图形处理单元(GPU)515。注意,简化的计算设备500的处理单元510可以是专化的微处理器(比如数字信号处理器(DSP)、甚长指令字(VLIW)处理器、现场可编程门阵列(FPGA)或者其它微控制器),或者可以是具有一个或者多个处理核并且也可以包括多核处理器中的一个或者多个基于GPU的核或者其它专用核的常规中央处理单元(CPU)。
[0112] 此外,简化的计算设备500也可以包括其它部件,如例如通信接口530。简化的计算设备500也可以包括一个或者多个常规计算机输入设备540(例如,触屏、触敏表面、指点设备、键盘、音频输入设备、基于语音或者话音的输入和控制设备、视频输入设备、触觉输入设备、用于接收有线或者无线数据传输的设备等)或者这样的设备的任何组合。
[0113] 相似地,与简化的计算设备500和与隐私保护cookie生成器的任何其它部件或者特征的各种交互(包括向一个或者多个用户或者其它设备或者系统的输入、输出、控制、反馈和响应)由多种自然用户接口(NUI)场景启用。由隐私保护cookie生成器启用的NUI技术和场景包括但不限于允许一个或者多个用户以“自然的”方式与隐私保护cookie生成器交互、没有由输入设备(比如鼠标、键盘、遥控等)施加的人为约束的接口技术。
[0114] 这样的NUI实现方式通过使用各种技术而被启用,包括但不限于使用从经由麦克风或者其它输入设备540或者系统传感器505捕获的用户话音或者发声推导的NUI信息。这样的NUI实现方式也通过使用各种技术而被启用,包括但不限于从系统传感器505或者其它输入设备540或者从用户的脸部表情和从用户的手、手指手腕、胳膊、腿、身体、头、眼等的位置、运动或者定向推导的信息,其中可以使用各种类型的2D或者深度成像设备(比如立体或者进行中相机系统等)或者这样的设备的任何组合来捕获这样的信息。这样的NUI实现方式的更多示例包括但不限于从触摸和触笔识别、手势识别(屏上和与屏幕或者显示表面相邻二者)、基于空气或者解除的手势、用户触摸(在各种表面、物体或者其他用户上)、基于悬停的输入或者动作等推导的NUI信息。这样的NUI实现方式也可以包括但不限于使用各种预测机器智能过程,这些过程单独或者与其它NUI信息组合评估当前或者以往用户行为、输入、动作等以预测信息,比如用户意图、愿望和/或目标。无论基于NUI的信息的类型或者来源如何,这样的信息然后可以用来发起、终止或者以别的方式控制或者交互隐私保护cookie生成器的一个或者多个输入、输出、动作或者功能特征。
[0115] 然而,应当理解,前述示例NUI场景可以通过组合对人为约束或者附加信号的使用与NUI输入的任何组合来进一步增强。这样的人为约束或者附加信号可以由输入设备540(比如鼠标、键盘和遥控)或者由多种远程或者用户佩戴的设备(比如加速度计、用于接收代表由用户的肌肉生成的电信号的肌电信号的肌动电流图(EMG)传感器、心率监视器、用于测量用户排汗的流电皮肤传导传感器、用于测量或者以别的方式感测用户脑部活动或者电场的可穿戴或者远程生物传感器、用于测量用户身体温度改变或者差动的可穿戴或者远程生物传感器等)施加或者生成。从这些类型的人为约束或者附加信号推导的任何这样的信息可以与任何一个或者多个NUI输入组合以发起、终止或者以别的方式控制或者交互隐私保护cookie生成器的一个或者多个输入、输出、动作或者功能特征。
[0116] 简化的计算设备500也可以包括其它可选部件,比如一个或者多个常规计算机输出设备550(例如,显示设备555、音频输出设备、视频输出设备、用于传输有线或者无线数据传输的设备等)。注意,用于通用计算机的典型通信接口530、输入设备540、输出设备550和存储设备560是本领域技术人员熟知的并且这里将不具体加以描述。
[0117] 图5中所示的简化的计算设备500也可以包括多种计算机可读介质。计算机可读介质可以是可以由计算设备500经由存储设备560访问的任何可用介质并且包括用于存储信息(比如计算机可读或者计算机可执行指令、数据结构、程序模块或者其它数据)的、可拆卸570和/或非可拆卸580的易失性和非易失性介质。
[0118] 计算机可读介质包括计算机存储介质和通信介质。计算机存储介质是指有形计算机可读或者机器可读介质或者存储设备,比如数字万用盘(DVD)、蓝光盘(BD)、紧致盘(CD)、软盘、带驱动、硬驱动、光驱动、固态存储器设备、随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、CD-ROM或者其它光盘存储装置、智能卡、闪存(例如卡、棒和钥匙驱动)、磁盒、磁带、磁盘存储装置、磁条或者其它磁存储设备。另外,在计算机可读存储介质的范围内不包括传播的信号。
[0119] 留置信息(比如计算机可读或者计算机可执行指令、数据结构、程序模块等)也可以通过使用多种前述通信介质(有别于计算机存储介质)中的任何通信介质以对一个或者多个调制的数据信号或者载波编码或者其它传送机制或者通信协议而被实现,并且可以包括任何有线或者无线信息递送机制。注意,术语“调制的数据信号”或者“载波”一般地是指如下信号,该信号让它的特性中的一个或者多个特性以对信号中的信息编码这样的方式来设置或者改变。例如,通信介质可以包括有线介质(比如运输一个或者多个调制的数据信号的有线网络)或者直接接线连接和无线介质(比如声学、射频(RF)、红外线、激光以及用于传输和/或接收一个或者多个调制的数据信号或者载波的其它无线介质)。
[0120] 另外,可以用计算机可执行指令或者其它数据结构的形式从计算机可读或者机器可读介质或者存储设备和通信介质的任何希望的组合存储、接收、传输或者读取体现这里描述的隐私保护cookie生成器实现方式中的一些或者所有实现方式的软件、程序和/或计算机程序产品。附加地,可以将要求保护的主题内容实施为一种使用标准编程和/或工程技术以生产软件、固件525、硬件或者其任何组合以控制计算机实施这里公开的主题内容的方法、装置或者制造品。如这里所用的术语“制造品”旨在于涵盖从任何计算机可读设备或者介质可访问的计算机程序。
[0121] 还可以在由计算设备执行的计算机可执行指令(比如程序模块)的一般上下文中描述这里描述的隐私保护cookie生成器实现方式。一般而言,程序模块包括执行特定任务或者实施特定抽象数据类型的例程、程序、对象、部件、数据结构等。也可以在其中任务由一个或者多个远程处理设备执行的分布式计算环境中或者在通过一个或者多个通信网络链接的一个或者多个设备的云内实现隐私保护cookie生成器实现方式。在分布式计算环境中,程序模块可以位于包括介质存储设备的本地和远程计算机存储介质二者中。附加地,可以将前述指令部分或者全部实施为可以包括或者可以不包括处理器的硬件逻辑电路
[0122] 备选地或者附加地,这里描述的功能可以至少部分由一个或者多个硬件逻辑部件执行。例如,而没有限制,可以使用的硬件逻辑部件的示例类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等等。
[0123] 已经出于示例和描述的目的而呈现了隐私保护cookie生成器的前文描述。没有旨在于穷举或者使要求保护的主题内容限于公开的精确形式。许多修改和变化按照以上教导是可能的。另外,应当注意,可以在为了形成隐私保护cookie生成器的附加混合实现方式而希望的任何组合中使用前述备选实现方式中的任何或者所有备选实现方式。旨在于本发明的范围不受这一具体描述所限制而是由所附权利要求限制。虽然已经用结构特征和/或方法动作特有的言语描述了主题内容,但是将理解,在所附权利要求中限定的主题内容未必地限于以上描述的具体特征或者动作。实际上,以上描述的具体特征和动作被公开作为实施权利要求的示例形式,并且其它等效特征和动作旨在于在权利要求的范围内。
[0124] 4.0其它实现方式
[0125] 以上已经描述的内容包括示例实现方式。当然没有可能为了描述要求保护的主题内容而描述了每个可设想的部件或者方法组合,但是本领域普通技术人员可以认识到,许多进一步组合和排列是有可能的。因而,要求保护的主题内容旨在于涵盖落在以上描述的隐私保护cookie生成器的具体描述的精神实质和范围内的所有这样的变更、修改和变化。
[0126] 关于由以上描述的部件、设备、电路、系统等执行的各种功能,用来描述这样的部件的术语(包括对“装置(means)”的引用)旨在于除非另有指示则对应于任何如下部件,该部件执行描述的部件的指定的功能(例如,功能等效),即使结构不等效于公开的如下结构,该结构执行要求保护的主题内容的这里所示示例方面中的功能。就这一点而言,也将认识到,前述实现方式包括系统以及具有计算机可执行指令的计算机可读存储介质,这些计算机可执行指令用于执行要求保护的主题内容的各种方法的动作和/或事件。
[0127] 有实现前述实现方式的多种方式(比如专用编程接口(API)、工具包、驱动器代码、操作系统、控件、单独或者可下载软件对象等),这些方式使应用和服务使用这里描述的实现方式。要求保护的主题内容从API(或者其它软件对象)的观点以及从根据这里阐述的实现方式操作的软件或者硬件对象的观点设想这一使用。因此,这里描述的各种实现方式可以具有完全在硬件中或者部分在硬件中而部分在软件中或者全部在软件中的方面。
[0128] 已经关于在若干部件之间的交互而描述了前述系统。将认识到,这样的系统和部件可以包括那些部件或者指定的子部件、指定的部件或者子部件中的一些指定的部件或者子部件和/或附加部件以及根据前文的各种排列和组合。也可以将子部件实施为通信地耦合到其它部件而不是在母部件(例如,分级部件)内包括的部件。
[0129] 附加地,注意,一个或者多个部件可以被组合成提供合集功能的单个部件或者被划分成若干分离子部件,并且可以提供任何一个或者多个中间层(比如管理层)以通信地耦合到这样的子部件以便提供集成的功能。这里描述的任何部件也可以与这里没有具体地描述但是本领域技术人员一般地知道的一个或者多个其它部件交互。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈