精选理由
omar sar教你怎么用语音+屏幕操作提示Agent,比纯文字提示聪明多了,能省下大量调试时间。
研究员omar sar分享了多模态提示工作流,通过录制语音、屏幕注释、鼠标点击等输入,预处理后传递给Agent,显著提升任务完成效率。该方法已为他节省数小时工作时间,减少与Agent的挫败交互。他将这些录制的任务作为可复用数据集,不断改进并打包成工作流/模式/技能。该技巧应用于Web开发、设计、原型制作、研究等多个场景。
AI 翻译 · 中文
研究员omar sar分享了多模态提示工作流,通过录制语音、屏幕注释、鼠标点击等输入,预处理后传递给Agent,显著提升任务完成效率。该方法已为他节省数小时工作时间,减少与Agent的挫败交互。他将这些录制的任务作为可复用数据集,不断改进并打包成工作流/模式/技能。该技巧应用于Web开发、设计、原型制作、研究等多个场景。
Multimodal prompting is clearly the future. I love experimenting with new ways to interact with agents. As a researcher and engineer, I've found that the richer the inputs to the agent and the richer the outputs I co…