Представьте: вы просите ИИ найти лучшие ноутбуки для работы, и через несколько секунд ваш браузер сам открывает сайты, кликает по ссылкам и заполняет формы. Это не сценарий из научной фантастики — это Gemini 2.5 Computer Use от Google. Теперь искусственный интеллект не просто отвечает, он действует как реальный пользователь компьютера.
Google представил Gemini 2.5 Computer Use — инструмент, позволяющий модели взаимодействовать с интерфейсом браузера. ИИ может кликать, вводить текст, скроллить и даже выполнять действия в мобильных приложениях.
Пока система доступна в режиме предварительного тестирования через Gemini API и Vertex AI, но Google подчёркивает: модель оптимизирована именно для браузеров, а не для управления всей операционной системой. По сути, это первый шаг к созданию цифрового помощника, который «понимает экран» так же, как человек.
По данным SiliconAngle, Gemini уже способна выполнять до тринадцати базовых действий — от кликов до перетаскивания элементов.
Чтобы понять, как это возможно, нужно заглянуть под капот. Computer Use действует пошагово: получает снимок экрана, анализирует его, выбирает следующее действие и выполняет его, снова обновляя изображение. Этот процесс повторяется до тех пор, пока цель не достигнута.
Так ИИ превращается в «оператора», который способен решать длинные цепочки задач без участия человека. Google отмечает, что новая версия показывает минимальную задержку отклика — около 225 мс и опережает конкурентов по точности.
“Использование компьютера Gemini 2.5 превосходит ведущие аналоги по многим показателям веб-контроля и мобильного управления, и все это с меньшей задержкой” — заявили в Google DeepMind.
Но насколько хорошо система справляется в реальности? В тестах Gemini 2.5 выполняла офисные и браузерные задачи быстрее человека в сценариях, где интерфейс оставался стандартным. В простых действиях — вход на сайты, поиск, заполнение форм — ИИ был точнее и стабильнее.
Однако в обзоре Sider AI подчёркивается, что в непредвиденных ситуациях всё ещё нужен человек:
“Когда появляются всплывающие окна или нестандартные элементы, агент ‘спотыкается’ и требует ручной помощи”.
Тем не менее, в повторяющихся процессах без доступа к API модель работает почти безошибочно и может взаимодействовать с сайтами напрямую.
Скорость впечатляет, но не без последствий. Чем умнее становится ИИ, тем важнее контроль и безопасность.
Google предупреждает: Computer Use — экспериментальная технология, её нельзя применять в сценариях с конфиденциальными данными без надзора. Разработчики могут задавать исключения — например, запрет на покупки или изменение паролей.
Пользователи на Reddit подтверждают: ИИ действительно запрашивает подтверждение перед «рискованными» шагами, такими как оплата или авторизация. Это делает систему чуть медленнее, но значительно безопаснее.
И всё это происходит на фоне новой технологической гонки. OpenAI обучает ChatGPT выполнять действия в приложениях, а Google идёт дальше — учит ИИ «понимать экран».
“Исследователи DeepMind утверждают, что он в первую очередь оптимизирован для веб-браузеров и уже превзошел аналоги в тестах Android” — пишет SiliconAngle.
Некоторые разработчики на Hacker News скептичны:
“Это отличная игрушка, но слишком медленная для практического управления браузером”.
Тем не менее, очевидно одно — Google стремится создать ИИ, который не только понимает команды, но и действительно действует на экране.
Всё указывает на то, что это только начало. Сегодня Computer Use ограничен браузером, но вскоре может интегрироваться с Chrome OS, Android и офисными инструментами. Это откроет путь к полноценной автоматизации повседневных задач.
Согласно исследованию Human-Centric Evaluation for Foundation Models (2025), Gemini 2.5 показал высокий уровень взаимодействия с пользователями, хотя по интуитивности пока уступает лучшим решениям.
Gemini 2.5 — не просто шаг вперёд, а новая форма партнёрства между человеком и машиной. Возможно, скоро вы не будете искать, писать и клиckать — ИИ сделает это вместо вас.