跳到主要内容

自动化办公

背景

目前我们在探索自动化办公,也就是自动流程处理之类的事情,比如单据录入系统。

路线

  • 纯视觉
  • dom元素识别

纯视觉

  • 每次操作,都截图,交给大模型,然后大模型决定应该点击什么按钮/操作,从而完成交给大模型的任务。
  • 但是这样存在一定的不可控性,因为让大模型直接操作电脑了,大模型可能回跑偏,或者直接做有害的操作。所以从安全性的角度来说,这是不可控的。
  • 同时,我们也可以尝试给大模型操作埋设一定的陷阱,在它自动化执行的过程中,如果触发了我们埋入的陷阱,则可让当前流程终止。