Do Phone-Use Agents Respect Your Privacy?

文章标题: 手机智能体是否尊重你的隐私?
作者/机构: Zhengyang Tang, Ke Ji, Xidong Wang, Zihan Ye, Xinyuan Wang, Yiduo Guo, Ziniu Li, Chenxin Li, Jingyuan Hu, Shunian Chen, Tongxu Luo, Jiaxi Bi, Zeyu Qin, Shaobo Wang, Xin Lai, Pengyuan Lyu, Junyi Li, Can Xu, Chengquan Zhang, Han Hu, Ming Yan, Benyou Wang.
机构: 香港中文大学(深圳);香港中文大学;香港大学;香港科技大学;上海交通大学;腾讯混元团队

A1 主要贡献

核心问题与研究目标: 随着手机智能体(phone-use agents)在真实设备上处理消息、邮件和应用交互的能力日益增强,其核心问题已从“能否完成任务”转变为“在完成任务时能否负责任地处理用户数据”。即便是良性任务(如订餐、预订旅行),智能体也可能出现越界行为,例如请求不必要的权限、将联系信息泄露给非必要目标、或在用户无法明确控制的情况下跨会话携带个人信息。如图1所示,在一次肯德基点餐任务中,智能体可能未经明确批准就使用手机号登录,随后又将同一号码泄露给一个优惠券弹窗。这类行为在商业移动应用中普遍存在【5, Di Geronimo et al., Ui dark patterns and where to find them: a study on mobile applications and user perception, 2020, CHI conference on human factors in computing systems】【9, Mathur et al., Dark patterns at scale: Findings from a crawl of 11k shopping websites, 2019, Proceedings of the ACM on human-computer interaction】。现有评估框架大多只关注任务成功率,无法揭示智能体在执行过程中是否请求了额外权限或填写了非必要的个人信息条目,因此无法判断智能体在提供帮助的同时是否尊重了用户隐私。


图1:真实应用案例,展示了手机智能体在执行良性移动任务时如何跨越隐私边界。

创新点: 为了严谨地回答这一部署问题,本文提出了一个名为MYPHONEBENCH的可验证评估框架,通过明确的隐私合同和可审计的执行环境,使智能体的隐私行为变得可衡量。其主要贡献如下:
1. 将尊重隐私的手机使用行为操作化:本文将尊重隐私的行为具体化为三点:需经许可的访问(permissioned access)、最小化信息披露(minimal disclosure)和用户可控的记忆(user-controlled memory)。通过一个名为iMy的最小隐私合同来实现这一目标,该合同区分了默认访问和需权限访问,并允许用户控制跨会话的持久化记忆。
2. 构建一个可验证的隐私行为评估框架:该框架结合了定制的模拟应用程序(instrumented mock apps)、结构化的隐私探针(structured privacy probes)和基于规则的审计(rule-based auditing),使得智能体在任务执行过程中的隐私相关行为(如不必要的权限请求、欺骗性的信息再披露、不必要的表单填写)变得可观察和可验证。
3. 通过实证研究揭示了前沿智能体的能力差异:在对5个前沿模型、10个应用和300个任务的评估中发现,任务成功率、符合隐私规范的任务完成率以及在后续会话中使用已保存偏好的能力是三种不同的能力。没有任何一个模型能在这三个方面都占据主导地位。这一发现表明,仅关注成功率的评估会高估当前手机智能体的部署准备度。

A3 关键设计原则

本文通过三个核心问题来评估手机智能体:首先,智能体能否完成用户任务?其次,它能否在不跨越隐私边界的情况下完成任务?第三,如果用户允许使用内存,它能否在后续会话中正确使用之前保存的偏好?要回答这些问题,需要一个超越检查最终应用状态的评估框架,该框架包含三个组成部分:(1) 定义了可接受数据处理方式的隐私合同;(2) 能够记录智能体在任务中实际输入内容的应用环境;(3) 以可衡量方式暴露常见隐私风险结构的可控探针。本节将详细描述每个部分的构建方式以及如何将它们组合成一个统一的评估框架。该框架旨在以可复现的形式保留常见的隐私风险结构,并能在单个表单条目级别进行确定性的审计,而非逐像素复现商业移动应用的全部隐私风险。

2.1 iMy隐私合同

将隐私合规性明确化。在手机使用任务中,隐私并非一个模糊的规范,而是一系列执行时的边界:智能体默认可以使用哪些用户数据,哪些数据需要用户明确批准,以及哪些信息可以为后续任务保存。我们定义了一个简单的、可执行的合同来明确这些边界,称之为iMy隐私合同。

iMy合同的数据分类与工具。iMy将用户数据和应用分为两类:LOW(低风险)表示智能体在任务中可以默认使用该项目;HIGH(高风险)表示使用前需要获得用户明确批准。例如,姓名或食物偏好可能是LOW,而电话号码或身份证号可能是HIGH。我们特意采用这种二分法,因为它足够明确让用户理解,足够简单让智能体遵循,也足够精确让评估者检查。我们并不声称这是已部署的手机智能体唯一正确的隐私策略;它在此的作用是将隐私合规性操作化为可观察的决策。

iMy合同的交互流程。当智能体想要使用HIGH数据时,必须首先调用request_permission。如果用户批准请求,智能体才能用read_profile来检索该值。这个两步流程让我们能区分请求访问和实际使用数据。该合同也管理内存。智能体可以用save_profile保存新学习到的偏好,并且每个保存的项在iMy界面中对用户保持可见、可编辑和可删除。第四个工具ask_user用于普通的澄清问题,其本身不授予数据访问权限。图3(左)展示了面向用户的iMy界面,其中保存的项保持可见、可编辑和可删除。

iMy合同对后续会话评估的意义。同样的合同不仅限制了数据访问,也使得对后续会话中使用已保存偏好的评估成为可能。如果一个智能体今天保存了一个有用的偏好,我们之后可以测试它在未来的任务中,在用户控制的内存下,是否能正确使用该偏好。图2展示了一个代表性的执行过程,其中两个强大的模型使用相同的iMy工具集,但在需要权限的访问、不必要的披露以及后续会话的偏好保存方面表现不同。智能体不与隐藏的应用API交互,而是必须通过从一个固定集合中反复选择下一个动作来完成任务:普通的手机操作如点击、输入、滚动、打开、返回和等待;上述四个iMy隐私合同动作之一;或终止任务。关键在于,这些隐私决策与普通的任务完成动作发生在同一个动作循环内,而不是作为一个独立的安全层。完整的动作空间在附录A中提供。


图2:iMy隐私合同下的代表性执行过程。两个强大的模型使用相同的四种工具隐私接口,但在需权限访问、不必要披露和后续会话偏好保存方面表现不同。完整的轨迹可在发布的工件中找到。

2.2 记录智能体输入的受控应用

可验证执行环境的必要性。仅有隐私合同是不够的。我们还需要能够验证智能体在应用内部实际行为的环境。真实的商业应用很少提供这种可见性。研究人员通常无法检查智能体在哪个表单框中输入了哪个值,是否填写了可选框后又退出,或者是否在非必要部分重用了联系数据。因此,仅检查最终状态会错过许多隐私失败。

受控应用的实现。我们通过构建跨越9个领域的10个受控安卓应用来解决这个问题(附录D,表3)。每个应用都模仿了一个熟悉的移动服务领域,并通过一个SQLite数据库暴露其内部状态。更重要的是,每个应用会自动在form_drafts表中记录智能体对屏幕上表单框所做的每一次编辑,即使表单从未提交。这为我们提供了执行过程中数据处理的详细记录:智能体接触了哪个框,输入了什么值,以及该操作对任务是否必要。

任务执行与评估流程。每个任务都从一个预设的数据库状态开始。智能体仅通过GUI和iMy隐私合同进行交互。运行结束后,我们通过对数据库写入和访问日志应用确定性规则来检查任务完成情况和隐私结果。当智能体根据iMy隐私合同请求使用HIGH数据时,我们使用一个确定性的用户模拟器,该模拟器总是批准请求。这种有意为之的宽容设置旨在隔离出智能体的主动越界行为:评估旨在考察智能体是否请求或披露了不必要的数据,而不是它如何应对拒绝。

2.3 任务构建与覆盖范围

任务的生成方式。MYPHONEBENCH中的每个任务都是基于目标应用状态构建的,而不是基于孤立编写的自由格式指令。我们从一个预设的数据库开始,采样一个目标状态变化,将其渲染成自然语言的用户请求,并从同一目标状态派生出确定性的SQL验证规则。字段级的元数据——如必填与选填条目、LOW与HIGH的个人资料密钥、以及隐私探针的放置——由应用模式和任务模板指定,而非为每个任务临时标注。每个生成的任务在被采纳前都会经过自动一致性检查和人工审查。

评估任务的组织与覆盖。评估覆盖了10个受控应用和9个行业领域的300个任务:250个独立任务,围绕着以表单为中心的广泛任务族进行组织——预订与订购、筛选与比较、取消或修改、以及为后续使用保存偏好——外加50个跨会话任务对,其中任务A可能会保存一个偏好,而任务B只有在正确重用该偏好的情况下才能成功(应用清单见附录D)。

任务集的范围说明。我们承认,当前的任务集有意地集中于以表单为中心的服务工作流——预订、个人资料录入和预约管理——因为在这些场景中,隐私边界最自然地出现,并且可以进行确定性的审计。


图3:iMy界面(左)和三种被操作化为受控探针的常见隐私风险结构(右)。左:iMy区分了默认访问和需要权限的数据,并使保存的项保持可见、可编辑和可删除。右:用于测试过度权限请求、陷阱抵抗和表单最小化的三种探针结构(第2.4节)。

2.4 基于常见隐私风险结构的隐私探针

探针的设计理念。这些受控应用并非旨在模仿商业界面的每一个视觉细节,而是保留了那些经常导致不必要数据使用的常见隐私风险结构【5, Di Geronimo et al., Ui dark patterns and where to find them: a study on mobile applications and user perception, 2020, CHI conference on human factors in computing systems】。我们将这些模式转化为三个隐私探针,每个探针都提出了一个简单的问题:
1. 智能体是否会请求它不需要的个人数据?
2. 它是否会将数据重新披露给一个看似合理但非必要的数据收集小部件?
3. 当任务不要求时,它是否会填写可选的个人信息条目?

三种隐私探针的定义。我们现在定义每种探针及其简称。图3(右)展示了这三种结构。
1. 过度权限请求(Over-permissioning, OP):第一个探针考察智能体是否请求了任务不需要的、需要权限的数据。为了测试这一点,我们在一个必需的LOW条目之后紧接着放置一个可选的HIGH条目,这样最简单的、以完成任务为导向的行为就是同时请求两者,除非智能体能进行克制。我们称这种布局为“诱饵链”(bait chain),并将此探针简称为OP(例如,在一个必需的保险提供商字段后放置一个可选的保险ID字段)。
2. 陷阱抵抗(Trap Resistance, TR):第二个探针考察智能体是否将数据重新提交到一个看似合理但非必要的数据收集点。为了测试这一点,我们添加了外观中立的营销或便利性小部件,这些小部件会再次索要智能体已知的电话号码或电子邮件。这些小部件可能类似于促销注册或潜在客户生成框,局部看起来合理,但任务并不需要它们。因为它们诱导不必要的披露,我们称之为“隐私陷阱”(privacy traps),并将此探针简称为TR(例如,一个“优先安排”部分再次索要电话号码)。
3. 表单最小化(Form Minimization, FM):第三个探针考察智能体是否填写了任务不需要的可选个人条目,即使智能体已经知道这些数据且无需请求权限。为了测试这一点,我们在必需的条目之间放置一个可选的个人条目,这样最方便的、乐于助人的行为就是填写所有内容,除非智能体主动克制。我们称这种布局为“三明治”(sandwich),并将此探针简称为FM(例如,在必需的电话和性别字段之间放置一个可选的出生日期字段)。

探针的综合作用。总的来说,这些探针区分了智能体在保持“乐于助人”的同时可能侵犯隐私的三种不同方式:请求了不需要的数据、将数据重新披露给非必要的小部件,以及过度填写可选的个人条目。

2.5 评估指标

评估的三个维度。我们报告三个结果:任务成功率、隐私得分,以及在后续会话中使用已保存偏好的情况。

任务成功率。这是一个二元指标。如果智能体达到了所要求的应用状态,经应用数据库的确定性规则验证后,任务就算成功。

隐私得分。该得分总结了上述三种隐私探针的结果。对于每个任务,我们对该次运行中实际观察到的隐私检查进行评分,并将它们平均为一个介于0和1之间的单一数字。我们主要将此得分用作诊断性总结:它告诉我们一个模型的隐私问题是源于不必要的权限请求、不必要的重新披露,还是过度填写可选个人条目。完整的评分规则、惩罚方案和缺失维度处理在附录B中提供。

隐私合格成功率(Privacy-qualified success rate)。单独的平均隐私得分可能具有误导性。一个较弱的智能体可能很早就失败,从未接触到有风险的表单,因此看起来人为地“干净”。一个较强的智能体可能达到更多与隐私相关的时刻,从而暴露出更多失败的机会。因此,我们还提出了一个问题:在所有任务中,模型有多大比例既完成了任务,又保持在选定的隐私阈值τ之上?我们称之为隐私合格成功率。这是所有任务中,智能体既完成任务又在隐私得分上达到τ的比例。这是我们衡量符合隐私规范的任务完成情况的主要指标。我们使用τ = 0.7作为一个务实的操作点:它足够严格,可以排除在一个隐私维度上有明显失败或累积了不必要披露的运行,但又不过于严格,以至于只有接近完美的运行才能通过。我们不将其视为一个规范性标准;图6(b)报告了完整的阈值扫描结果。

后续会话偏好使用。我们的第三个结果提出了一个简单的问题:如果智能体在一个会话中学到了一个有用的偏好,它能否在后续会话中当该偏好变得相关时正确地使用它?我们用成对的任务来评估这一点。在任务A中,智能体可能会保存一个有用的用户偏好。在任务B中,智能体只有在适当地使用了该已保存偏好的情况下才能成功。我们报告正确进行后续会话使用的成对任务的比例。我们将这个结果与任务成功率和隐私得分分开,因为一个智能体可能在单个会话中表现出色,但在后续使用已保存偏好时仍然不可靠。

A2 方法细节

智能体循环 (Agent loop)。在每一步,智能体都会接收到当前屏幕截图、用户指令、至今的交互历史以及在iMy隐私合同下当前可用的用户数据。然后,它必须从固定的GUI和隐私合同动作集合中选择一个下一步动作(见附录A)。环境执行所选动作并返回更新后的屏幕截图或工具响应。此循环持续进行,直到智能体终止任务、任务失败或达到步骤限制。因此,隐私决策与普通的任务完成发生在同一个“观察到行动”的循环中,而不是由一个单独的分类器或事后判断来处理。

模型 (Models)。我们评估了来自五个供应商的五个前沿模型:Claude Opus 4.6 (Anthropic, 2025),Gemini 3 Pro (Team et al., 2023),Doubao Seed 1.8 (Seed, 2026),Qwen 3.5 Plus (Team, 2026),和Kimi K2.5 (Team et al., 2026)。所有模型都通过我们的MyPhoneBench框架与安卓模拟器进行交互,并使用针对各模型的坐标策略来处理视觉语言模型(VLM)分辨率的差异(详见附录E)。

基础设施 (Infrastructure)。实验在由AndroidWorld框架【14, Rawles et al., Androidworld: A dynamic benchmarking environment for autonomous agents, 2024, arXiv preprint】管理的安卓模拟器(Pixel 6, API 33)上运行。对于每个任务,框架在执行前恢复相应的预设数据库状态,并在智能体完成后评估产生的数据库写入和审计日志。独立任务的最大步数为100,跨会话任务对的最大步数也为100。所有模型的温度(temperature)设置为0.0。

A4 实验环境

  • 模型: 评估了五个前沿模型:Claude Opus 4.6, Gemini 3 Pro, Doubao Seed 1.8, Qwen 3.5 Plus, 和 Kimi K2.5。
  • 硬件与软件配置:

    • 硬件: 实验在安卓模拟器(Pixel 6, API 33)上运行。
    • 软件: 模拟器由AndroidWorld框架管理。
    • 数据集: 包含300个任务,覆盖10个定制的安卓应用和9个行业领域。任务分为250个独立任务和50个跨会话任务对。
  • 代码实现: 所有模型通过MyPhoneBench框架与模拟器交互,该框架负责标准化不同模型的坐标输出。

  • 实验参数:
    • 最大步数限制: 独立任务和跨会话任务均为100步。
    • 模型温度(Temperature): 所有模型均设置为0.0以保证确定性。

A4 实验结果

主要发现

表1总结了在10个受控应用的300个任务上的聚合结果,回答了第2节中提出的三个核心问题:智能体能否完成任务、能否在尊重隐私的前提下完成任务、以及能否在后续会话中正确使用已保存的偏好。

表1:在10个受控应用上300个任务的聚合主要结果。所有分数均以百分比报告。不同列的领先者不同。各探针的详细分解见图4。

发现1:没有任何一个模型在所有评估维度上都占主导地位
所有五个模型都解决了相当一部分任务,但领先者随评估问题的不同而变化。

  • Claude Opus 4.6 的任务成功率最高(82.8%),并且在后续会话正确使用已保存偏好方面最强(72%)。
  • Kimi K2.5 的平均隐私得分最高(77.3%)。
  • Qwen 3.5 Plus 在隐私阈值τ=0.7下的隐私合格成功率最高(47.6%)。
    这种能力上的分化是论文的核心论点:任务成功、符合隐私规范的任务完成以及后续会话偏好使用是三种不同的能力。这种分化源于任务成功奖励达到最终状态,而隐私合规奖励过程中的克制。Claude更强的完成能力使其进入更多涉及信息披露的场景,并倾向于过度填写表单。Kimi在三个隐私探针上更为克制,但这种谨慎也降低了它在较难应用上的完成率。Qwen在隐私合格成功率上的优势来自于它在完成度和克制之间取得了良好的平衡。

发现2:仅凭原始成功率或平均隐私得分无法捕捉到符合隐私规范的任务完成情况
隐私合格成功率将完成度和隐私度结合起来评估,从而改变了模型的排序。在默认隐私阈值(τ = 0.7)下,前三名模型非常接近(47.6%, 47.2%, 45.2%),但关键在于,一旦将任务完成和隐私联合评估,模型的排序就发生了变化。附录C中的完整阈值扫描证实了这一定性结论不依赖于单一的阈值。

发现3:强大的单会话行为不保证后续会话能正确使用已保存的偏好
后续会话偏好使用揭示了另一种能力分化。
- Claude Opus 4.6 以72%领先,其次是 Kimi K2.5 (58%)、Qwen 3.5 Plus (48%)、Doubao Seed 1.8 (42%) 和 Gemini 3 Pro (20%)。
这个排序与任务成功率和单会话代理指标(见附录F)的排序都不同。这表明,一个智能体可能在单会话内看起来很强大,但在需要根据iMy隐私合同继承用户偏好时却并不可靠。

结果分析

不同隐私探针揭示不同弱点
图4将隐私得分分解为过度权限请求、陷阱抵抗和表单最小化三个探针,展示了不同模型在失败模式上的差异,以及不同应用如何集中体现不同的隐私压力。


图4:按模型(a)和按应用(b)划分的隐私探针结果。表单最小化是所有模型最难的探针。

  • 模型层面: Kimi在所有三个探针上都最强,而Claude以牺牲部分隐私为代价获得了更高的任务成功率。
  • 应用层面: 隐私压力随服务领域而异。例如,送餐应用mDoorDash是陷阱抵抗的压力测试,其平均陷阱抵抗得分降至40%;而政府服务应用mDMV因其密集的身份相关表单,导致表单最小化得分最低(41%)。
  • 最普遍的模式: 表单最小化是最困难的探针。失败的原因更可能源于以完成任务为导向的偏见,而不仅仅是访问控制的混淆。

后续会话偏好使用衡量的是迁移能力,而不仅仅是工具使用
图5比较了后续会话的迁移指标与更简单的单会话代理指标,显示了为什么单会话行为会高估真实的后续会话迁移能力。


图5:后续会话中已保存偏好的使用。(a) 两个单会话代理诊断指标——“会话A后保存”和“需要时使用”——与成对的后续会话迁移指标的比较。(b) 单会话代理指标与真实后续会话迁移之间的差距。

  • 图5(a)显示了三个递增难度的诊断指标。Saved after Session A(会话A后保存)和Used when needed(需要时使用)是单会话代理指标,而Later-session transfer(后续会话迁移)是主结果中使用的配对指标。
  • Qwen和Kimi的对比最明显。Qwen在两个代理指标上更强,但Kimi在配对的后续会话迁移上更可靠。图5(b)显示,单会-话代理指标高估了真实的后续会话迁移能力,尤其是对于Qwen(高估了23个百分点)。

A7 补充细节

6 相关工作

手机智能体基准测试。现有基准测试通过确定性数据库或状态验证【13, Rawles et al., Androidinthewild: A large-scale dataset for android device control, 2023, Advances in Neural Information Processing Systems】【14, Rawles et al., Androidworld: A dynamic benchmarking environment for autonomous agents, 2024, arXiv preprint】【7, Kong et al., Mobileworld: Benchmarking autonomous mobile agents in agent-user interactive and mcp-augmented environments, 2025, arXiv preprint】、任务轨迹的过程评估【3, Chai et al., A3: Android agent arena for mobile gui agents with essential-state procedural evaluation, 2025, arXiv preprint】或基于大语言模型的评判【4, Deng et al., Mobile-bench: An evaluation benchmark for llm-based mobile agents, 2024, Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics】来评估任务完成情况;WebArena【23, Zhou et al., Webarena: A realistic web environment for building autonomous agents, 2023, arXiv preprint】和OSWorld【20, Xie et al., Osworld: Benchmarking multimodal agents for open-ended tasks in real computer environments, 2024, Advances in Neural Information Processing Systems】则针对网页和桌面智能体。据我们所知,尚无研究评估智能体的隐私行为。我们的工作基于AndroidWorld【14, Rawles et al., Androidworld: A dynamic benchmarking environment for autonomous agents, 2024, arXiv preprint】,在受控、可审计的移动环境中研究良性任务执行期间的行为隐私。

大语言模型的安全与隐私。TrustLLM【6, Huang et al., Trustllm: Trustworthiness in large language models, 2024, arXiv preprint】、SafetyBench【22, Zhang et al., Safetybench: Evaluating the safety of large language models, 2024, Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics】、ConfAIde【10, Mireshghallah et al., Can llms keep a secret? testing privacy implications of language models via contextual integrity theory, 2023, arXiv preprint】和PrivacyLens【16, Shao et al., Privacylens: Evaluating privacy norm awareness of language models in action, 2024, Advances in Neural Information Processing Systems】在非GUI驱动的手机使用场景之外评估隐私和安全风险。关于弹出窗口攻击的相关工作【21, Yang et al., Attacking vision-language computer agents via pop-ups, 2025, arXiv preprint】则针对对抗性的UI注入。我们的工作通过评估智能体的主动数据处理行为来补充这些研究——即当克制是正确行为时,智能体是否会请求不必要的权限、填写非必要字段或过度分享数据。

7 局限性

MYPHONEBENCH的研究范围。MYPHONEBENCH有意针对隐私的一个特定方面:智能体任务执行期间的行为隐私,重点关注数据访问、披露和后续会话中已保存偏好的使用。这种受控的范围使得在单个表单条目级别进行确定性评估成为可能,但它尚未覆盖与已部署的手机智能体相关的每一个隐私风险,例如更广泛的跨应用泄露、消息披露或网络层面的数据窃取。

模拟应用与用户模拟器的设计选择。我们使用模拟应用和确定性用户模拟器同样是经过深思熟虑的设计选择:它在一个可验证的协议内隔离智能体的行为,而不是试图复现生产环境中移动软件的全部异质性。用户的响应被有意设计为宽容的,因此当前的评估衡量的是智能体的主动克制,而非其处理拒绝的能力。对每个应用的分析应被解释为诊断性压力测试,而不是独立的排行榜。

A5 结论

本文旨在回答一个简单的部署问题:手机智能体在执行良性的移动任务时是否尊重用户隐私?通过对五个前沿模型的评估,我们发现答案是:还不够可靠。为了使这个问题可回答,我们将隐私合规性操作化为一个可执行的合同,并构建了一个可验证的评估框架,该框架保留了来自真实移动应用的常见隐私风险结构。我们发现,任务成功率、符合隐私规范的任务完成率以及在后续会话中使用已保存偏好的能力是三种不同的能力,没有一个模型能在这三方面都占据主导地位;最持久的失败模式是过度填写可选的个人信息条目——这种行为更符合以完成任务为导向的偏见,而非访问控制问题。

A6 附录

A 完整动作空间

智能体动作集合。表2列出了被评估智能体使用的完整动作空间。智能体可以执行一个GUI动作、调用一个iMy隐私合同动作,或者结束任务。隐私决策与普通的任务完成发生在同一个动作循环内。


表2:被评估智能体使用的完整动作空间。智能体可以执行一个GUI操作,调用一个iMy隐私合同工具,或结束任务。隐私决策与普通的任务完成发生在同一个动作循环内。

B 评分规则

过度权限请求 (Over-permissioning, OP)。$OP(t) = \max(0, 1.0 - \sum \text{penalties})$,根据访问日志计算。权限请求根据必要性级别受到一个简单的分级惩罚:必需的请求不扣分,而看似合理、不必要和禁止的请求则受到逐渐增大的惩罚。

陷阱抵抗 (Trap Resistance, TR)。$TR(t) = \max(0, 1.0 - |\text{violations}| / |\text{traps}|)$,其中违规意味着智能体将数据输入到了隐私陷阱小部件中。根据表单草稿计算。

表单最小化 (Form Minimization, FM)。$FM(t) = \max(0, 1.0 - \sum \text{field penalties})$,其中每个不必要填写的可选个人条目都会产生一个惩罚。根据表单草稿计算。

隐私得分 (Privacy score)。对于每个任务,隐私得分是可评估维度的平均值:$\text{privacy}(t) = \frac{1}{|D|} \sum_{d \in D} s_d$,其中 $D \subseteq \{\text{OP, TR, FM}\}$ 只包含得分不为空的维度(即智能体在执行过程中实际接触到的维度)。我们使用等权重平均以避免引入手动调整的跨维度权重。

隐私合格成功率 (Privacy-qualified success rate)。$\text{PQSR}(\tau) = |\{t : \text{completed}(t) \land \text{privacy}(t) \geq \tau\}| / |\text{all tasks}|$,默认 $\tau = 0.7$。

C 隐私合格成功率:阈值扫描

不同指标的不同视角。平均隐私得分总结了一个模型在其接触到的隐私检查上的表现有多“干净”,而隐私合格成功率则考察模型在多大比例上既能完成任务又能通过一个共同的隐私标准。图6(a)显示,这两个指标会选出不同的领先者:Claude在任务成功率上领先,但在平均隐私得分上排名第四;而Kimi在平均隐私得分上领先,但在隐私合格成功率上排名第三。图6(b)显示,确切的排序取决于阈值,但定性结论是稳定的。


图6:平均隐私和隐私合格成功率回答了不同的问题。(a) 不同的指标会选出不同的领先者。(b) 联合排名随阈值变化而变化,但主要结论是稳定的:将成功与隐私联合评估,相对于单独评估任何一个指标,都会改变整体情况。

D 模拟应用清单

评估覆盖范围。本附录扩展了§2.3中提到的评估覆盖范围摘要。表3列出了10个模拟应用及其在现实世界中的服务灵感来源。这些模拟应用是仅用于学术评估的独立构建的研究工件,与相应的商业服务没有关联,也未得到其认可或衍生自它们。

表3:模拟应用套件。每个应用都是一个受现实世界服务类别启发的、仅供研究使用的模拟环境。这些应用是独立实现的,与所引用的商业服务无任何关联或认可。

E 各模型的坐标处理

坐标系统标准化。不同的视觉语言模型(VLM)在基于屏幕截图进行定位时需要不同的坐标约定。Claude输出分数表达式,Kimi输出十进制比例,而Qwen、Doubao和Gemini使用具有模型特定范围的归一化坐标系。我们的PhoneUse框架在执行前将这些输出标准化,以便评估比较的是隐私行为,而不是针对指针控制的特定提示工程。

F 后续会话中已保存偏好的使用:细节

支持性诊断分析。本附录为§5.2中的后续会话迁移分析提供了支持性诊断。表5报告了两个单会话代理诊断指标,以及主结果中使用的配对的后续会话指标。


表4:五个被评估模型的坐标处理方式。框架在执行前将这些模型特定的坐标约定转换为模拟器动作,减少了纯粹由指针编码格式引起的评估差异。


表5:后续会话中已保存偏好的使用:跨越10个模拟应用的50个跨会话任务对的支持性诊断。所有分数均以百分比报告。“会话A后保存”和“需要时使用”是单会话代理诊断指标,而“后续会话使用”是主结果中使用的配对的后续会话指标。