14 мая прошла Google IO – классическая конференция техногиганта, где демонстрируют новые устройства и обновления операционных систем. В этом году не показали ничего из перечисленного и пошли совсем другой дорогой. Какой – рассказал технообозреватель Андрей Рассказов.
Целых два часа нам со сцены рассказывали про искусственный интеллект в самых разных версиях и возможностях применения. Пойдем по порядку, и я постараюсь сжать два часа презентации до абсолютного минимума необходимой информации.
Сундар Пичай рассказал о новой модели нейросети – Gemini 1.5. Она стала быстрее и умнее. Но главное – ее контекстное окно выросло до одного миллиона токенов. Это огромное количество информации, которое вы можете загрузить в нейросеть. На основе загруженной информации она сделает все, что вы захотите, – хоть докторскую напишет. Для сравнения, у последней модели Yandex GPT 3 Pro максимальный контекст – 8 000 токенов. У Giga Chat от "Сбера" – 32 000 штук.
А в конце презентации вообще объявили о расширении до двух миллинов токенов у Gemini, но пока только для разработчиков в виде тестирования: для обычных пользователей когда-то до конца года будет доступно. Кстати, на русском языке моделька работает.
Собственно, вся презентация или большая ее часть была посвящена тому, почему это громкая и большая новость. Будем разбираться и мы.
Gmail
Моделька анализирует ваши письма и может сделать суммаризацию. Если вам приходят какие-то отбивки из школы (вставить любое учреждение), вы можете спросить, как у ребенка там дела, и моделька в небольшом окне сбоку выдаст вам все главные показатели и любую информацию. Так что вам не нужно больше читать всю почту, ее за вас посмотрит ИИ, а вам выдаст только главное.
По такому же принципу можно что-то найти в почте, если вы знаете, о чем там шла речь, но не помните ничего конкретного. Короче, работать с почтой станет куда интересней.
Notebook LM
Это пространство от Google для обучения, и оно тоже работает с ИИ. Это одна из демо, которая не укладывается в голове. Итак, представьте себе.
Вы загружаете в виртуальный учебник всю нужную информацию. Учебник по химии, периодическую таблицу и другие нужные вам документы, по которым нужно научить чему-то ребенка или вас самих.
ИИ анализирует все это и создает диалог между двумя учителями. Далее вы задаете тему, которую хотите обсудить, или можете попросить составить учебный план. А после этого начинается магия.
Два учителя в формате диалога рассказывают вам о предмете. При этом знания их не заканчиваются на вводной информации: они все знают о мире. В презентации был вариант с законом Ньютона на примере из баскетбола. Более того, в любой момент в диалог можно вклиниться и что-то спросить у учителей, уточнить, упростить или усложнить. Придумать тестовое задание и показать им на проверку. При этом модели все равно, в каком виде вы отдали ей информацию, благодаря большому контекстному окну. Текст учебника, запись лекции, презентация, PDF-файл, видео: обработается все что угодно.
То есть задача технологии – не давать вам готовые ответы или писать за вас рефераты, а помогать вам и подталкивать к правильным решениям каких-то задач.
Project Astra
Самое главное демо всей презентации и самое прорывное, что вы можете увидеть по теме ИИ. Суть в том, что нам показывают съемку, сделанную одним дублем, где человек со смартфоном в руках подключен к новой и самой мощной модели Gemini, но в формате личного ассистента с глазами.
То есть в демо ИИ "смотрит" на мир через камеру смартфона, а человек при этом разговаривает с моделью. Что такой ассистент умеет и зачем нужен?
В демо показали, как он определяет, что перед вами, как называются сложные предметы окружающего мира и зачем они нужны. Может понять, где вы, и рассказать о локации. Поймет, что написано на экране компьютера, и если это код, то расскажет, что он делает. Плюс запомнит, что перед ним было и в какой момент времени, и если ваша камера смартфона увидела очки на столе, а вы – нет, то Astra скажет, где был потерянный предмет.
В общем это ИИ с глазами, который все знает об окружающем мире и может что угодно сгенерировать и подсказать вам. То, что нам показали, – лишь тестовая сборка, обещают этот проект в недалеком будущем для всех.
Генерируем все
На презентации показали несколько отдельных моделей, которые генерируют суперреалистичные изображения, музыку и даже видео. Мы видели все это по отдельности от разных компаний, а тут все в одном месте. Правда, если генерировать изображения можно будет сразу или довольно скоро, то музыка и видео пока доступны избранным пользователям.
AI Overview
Это не просто поиск (а это именно он!), а именно генеративная выдача ответов на ваши запросы любой сложности. Например, вы хотите найти подборку рецептов с едой на неделю, чтобы они были какими-то, какие вам нравятся. Вбиваете все, что хотите, в поиск и просите собрать план. И далее у вас появляется специально под вас собранная страничка. Она разделена по дням недели, и каждый день у вас будет по три блюда по вашим желаниям. Каждое можно заменить, уточнить, найти аналог уже готовой еды и так далее.
То есть это не просто результат поиска, а отдельная страничка. Такая же может быть с локациями, которые нужно подобрать под вас, вроде зала для йоги. Ну или с местами под празднование дня рождения или годовщины.
Поиск также можно делать с помощью видео. Можно снять небольшой кусочек видео с вопросом, и Google найдет сгенерированный ответ. Опять же, никаких ссылок на источники и самостоятельной работы.
Например, у вас сломался проигрыватель, о котором вы ничего не знаете. Google распознает по видео модель и все детали, поймет, что не работает, найдет похожие проблемы в Сети, соберет решения, в приоритете будет поставить сайты производителей со всякими гайдами по проблемам. А на выходе вы получите готовый ответ: что штука называется так-то, починить нужно то-то. Можешь сам – вот тебе инструкция, а лучше позвонить в поддержку этого производителя – вот тебе контакты.
Короче, пока что выглядит как очень крутой пример. Правда, уже сегодня появились сообщения, что в рекламном ролике Google один такой совет на примере пленочной камеры и решения по починке оказался неверным. Так что доверять ИИ на сто процентов по-прежнему не стоит. Во всяком случае, с вещами, которые вам дороги.
AI Teammate
Или ИИ сотрудник – это разработка на 2025 год. Вы добавляете в групповой чат ИИ-сотрудника, у которого будет роль в компании, цели и задачи, и он будет следить за тем, что происходит в чатах, почте, календаре, презентациях и так далее. Разумеется, мы тут держим в голове, что вся работа должна происходить в сервисах Google.
А далее вы будете спрашивать этого сотрудника, как и любого коллегу: "А что у нас с дедлайном по этому проекту, а нам подтвердили запуск, а какой статус в согласовании этого документа и кто должен его посмотреть?"– и тому подобное. Сотрудник же этот все найдет, суммаризирует, расскажет и даже предупредит о рисках, если в команде на каких-то задачах разделились мнения.
Приложение Gemini
Оно только для Android и работает как помощник, тут все без сюрпризов. Но оно полностью мультимодальное. По сути, это новая версия Google Assistant, только в другой оболочке. Говорить с ассистентом можно чатом, голосом или с помощью фото через камеру. В формате диалога вы будете что-то креативить или работать над решением проблем. Но самое классное тут другое.
В отличие от Chat GPT и других помощников, той же Алисы или Giga Chat, Gemini работает на системном уровне и постоянно в контексте того, что происходит у вас на экране. Прямо находясь в чате, можно вызвать специальное окно, которое будет поверх любого приложения (то есть вы всегда будете там же, где вызвали ассистента, ничего не закроется), и в нем уже можно взаимодействовать с ИИ.
Он поможет исправить текст, придумает смешной или умный или формальный ответ, нарисует картинку по текстовому запросу, которую можно тут же отправить в чатик. Поймет, что вы смотрите видео в YouTube, и сможет его суммаризировать или ответит на ваш конкретный вопрос, ответ на который может находиться где-то в видео (а может и нет). Короче, штука сохранит вам кучу времени и вообще выглядит как очень полезная фишка с умной интеграцией в систему.
Итог
Считаю, что Google делают самые ужасные презентации из всех технических корпораций, но главное, что вы вынесли из всего этого, можно разбить на несколько пунктов:
- Google – одна из немногих компаний на рынке, которая начала массово внедрять ИИ в свои продукты. Благодаря этому жизнь пользователей станет сильно проще и комфортнее
- контекстное окно стремится к бесконечности, а значит, скоро у ИИ будет память, и она будет знать, кто вы, что вы любите, что читаете, смотрите и слушаете. А значит, сможет говорить с вами как с лучшим другом, который все о вас знает. Это будущее, но оно уже началось
- ИИ-помощники будут с нами уже в 2025 году. Они будут видеть мир вокруг нас, нашу работу и рабочие чаты и, возможно, станут лучшим применением ИИ на рабочих местах
- Android – первая операционка, которая внедряет ИИ на корневом уровне. Еще один бонус в карму Google, но ответ от Apple и Microsoft не заставит себя ждать: у обеих компаний свои конференции этим летом