API 参考(Web)
当你需要自定义 Midscene 的浏览器自动化 Agent,或查阅 Web 专属构造参数时,请参考本篇。关于通用参数(报告、Hook、缓存等),请阅读API 参考(通用)。
Action Space(动作空间)
PuppeteerAgent、PlaywrightAgent 和 Chrome Bridge 共用一套 Action Space,Midscene Agent 在规划任务时可以使用这些操作:
Tap—— 左键点击元素。RightClick—— 右键点击元素。DoubleClick—— 双击元素。Hover—— 悬停目标元素。Input—— 输入文本,支持replace/append/clear模式。KeyboardPress—— 按下指定键(可在按键前先聚焦目标)。Scroll—— 以元素为起点或从屏幕中央滚动,支持滚动到顶/底/左/右。DragAndDrop—— 从一个元素拖拽到另一个元素。LongPress—— 长按目标元素,可选自定义时长。Swipe—— 触摸式滑动(开启enableTouchEventsInActionSpace时可用)。ClearInput—— 清空输入框内容。Navigate—— 在当前标签页打开指定 URL。Reload—— 刷新当前页面。GoBack—— 浏览器后退。
PuppeteerAgent
当你需要在 Puppeteer 控制的浏览器里复用 Midscene 的 AI 操作能力时使用。
导入
构造器
浏览器特有选项
除了通用 Agent 参数,Puppeteer 还提供:
forceSameTabNavigation: boolean—— 限制始终在当前标签页内导航,默认true。waitForNavigationTimeout: number—— 当操作触发页面跳转时的最长等待时间,默认5000(设为0表示不等待)。waitForNetworkIdleTimeout: number—— 每次操作后等待网络空闲的时间,默认2000(设为0关闭)。enableTouchEventsInActionSpace: boolean—— 在动作空间里增加触摸手势(如滑动),用于需要触摸事件的页面,默认false。forceChromeSelectRendering: boolean—— 强制select元素使用 Chrome 的 base-select 样式,避免系统原生样式导致截图/元素提取不可见;需要 Puppeteer >24.6.0。customActions: DeviceAction[]—— 借助defineAction注册自定义动作,让规划器可以调用领域特定步骤。

