Gemini 2.5 от Google управляет браузером как человек — и делает это лучше

Обновлено 18.11.2025 в 10:00

12 октября 2025

#Все

#технологии

Представьте: вы просите ИИ найти лучшие ноутбуки для работы, и через несколько секунд ваш браузер сам открывает сайты, кликает по ссылкам и заполняет формы. Это не сценарий из научной фантастики — это Gemini 2.5 Computer Use от Google. Теперь искусственный интеллект не просто отвечает, он действует как реальный пользователь компьютера.

ИИ впервые берёт управление в руки

Google представил Gemini 2.5 Computer Use — инструмент, позволяющий модели взаимодействовать с интерфейсом браузера. ИИ может кликать, вводить текст, скроллить и даже выполнять действия в мобильных приложениях.

Пока система доступна в режиме предварительного тестирования через Gemini API и Vertex AI, но Google подчёркивает: модель оптимизирована именно для браузеров, а не для управления всей операционной системой. По сути, это первый шаг к созданию цифрового помощника, который «понимает экран» так же, как человек.

По данным SiliconAngle, Gemini уже способна выполнять до тринадцати базовых действий — от кликов до перетаскивания элементов.

Как это работает внутри

Чтобы понять, как это возможно, нужно заглянуть под капот. Computer Use действует пошагово: получает снимок экрана, анализирует его, выбирает следующее действие и выполняет его, снова обновляя изображение. Этот процесс повторяется до тех пор, пока цель не достигнута.

Так ИИ превращается в «оператора», который способен решать длинные цепочки задач без участия человека. Google отмечает, что новая версия показывает минимальную задержку отклика — около 225 мс и опережает конкурентов по точности.

“Использование компьютера Gemini 2.5 превосходит ведущие аналоги по многим показателям веб-контроля и мобильного управления, и все это с меньшей задержкой” — заявили в Google DeepMind.

Сравнение с человеком: кто быстрее и точнее

Но насколько хорошо система справляется в реальности? В тестах Gemini 2.5 выполняла офисные и браузерные задачи быстрее человека в сценариях, где интерфейс оставался стандартным. В простых действиях — вход на сайты, поиск, заполнение форм — ИИ был точнее и стабильнее.

Однако в обзоре Sider AI подчёркивается, что в непредвиденных ситуациях всё ещё нужен человек:

“Когда появляются всплывающие окна или нестандартные элементы, агент ‘спотыкается’ и требует ручной помощи”.

Тем не менее, в повторяющихся процессах без доступа к API модель работает почти безошибочно и может взаимодействовать с сайтами напрямую.

Где проходит граница контроля

Скорость впечатляет, но не без последствий. Чем умнее становится ИИ, тем важнее контроль и безопасность.

Google предупреждает: Computer Use — экспериментальная технология, её нельзя применять в сценариях с конфиденциальными данными без надзора. Разработчики могут задавать исключения — например, запрет на покупки или изменение паролей.

Пользователи на Reddit подтверждают: ИИ действительно запрашивает подтверждение перед «рискованными» шагами, такими как оплата или авторизация. Это делает систему чуть медленнее, но значительно безопаснее.

Конкуренция с OpenAI: гонка интерфейсов

И всё это происходит на фоне новой технологической гонки. OpenAI обучает ChatGPT выполнять действия в приложениях, а Google идёт дальше — учит ИИ «понимать экран».

“Исследователи DeepMind утверждают, что он в первую очередь оптимизирован для веб-браузеров и уже превзошел аналоги в тестах Android” — пишет SiliconAngle.

Некоторые разработчики на Hacker News скептичны:

“Это отличная игрушка, но слишком медленная для практического управления браузером”.

Тем не менее, очевидно одно — Google стремится создать ИИ, который не только понимает команды, но и действительно действует на экране.

Когда ИИ станет вашим напарником

Всё указывает на то, что это только начало. Сегодня Computer Use ограничен браузером, но вскоре может интегрироваться с Chrome OS, Android и офисными инструментами. Это откроет путь к полноценной автоматизации повседневных задач.

Согласно исследованию Human-Centric Evaluation for Foundation Models (2025), Gemini 2.5 показал высокий уровень взаимодействия с пользователями, хотя по интуитивности пока уступает лучшим решениям.

Gemini 2.5 — не просто шаг вперёд, а новая форма партнёрства между человеком и машиной. Возможно, скоро вы не будете искать, писать и клиckать — ИИ сделает это вместо вас.