Google fortalece su buscador y lo humaniza con habilidades de diálogo natural, visión y búsquedas en video

Después del debut de GPT-4o de OpenAI, Google dio inicio a su conferencia de desarrolladores, donde anunció más funciones para su chatbot de inteligencia artificial, Gemini, y su integración con Google.

Google está haciendo un gran esfuerzo para competir con Open AI y mantener su liderazgo en el campo de las búsquedas. El CEO de la compañía, Sundar Pichai, lideró la presentación de los últimos avances en inteligencia artificial durante la conferencia anual de Google I/O en Mountain View, California. Estos avances se aplicarán a todos los productos de Google, incluyendo Gmail, Fotos, Drive, Meet y todas las herramientas de Workspace. Sin embargo, Pichai destacó que la transformación más emocionante se encuentra en la búsqueda de Google, donde se ha realizado una modificación radical en su funcionamiento gracias a Gemini.

Gemini, el potente motor de inteligencia artificial generativa de Google, ha sido integrado en las búsquedas, un aspecto fundamental para la empresa desde sus inicios hace un cuarto de siglo. Ahora, cada búsqueda en Google cuenta con un resultado generado a pedido llamado AI Overviews, disponible para usuarios en EE.UU. a partir de hoy y llegando a más de mil millones de personas en los próximos meses. Google introduce además el concepto de «investigación de pasos múltiples», permitiendo realizar consultas encadenadas sobre un tema con diferentes niveles de complejidad. En situaciones en las que no estemos seguros de lo que buscamos exactamente, Google generará una página de resultados con múltiples alternativas para ayudarnos en nuestra investigación, incluso considerando aspectos que podríamos haber pasado por alto.

Este nuevo enfoque va más allá del buscador convencional, que simplemente arroja resultados relacionados, y se centra en entender verdaderamente las intenciones del usuario. Las funcionalidades clave de Gemini incluyen:

  1. Conversación Contextual: Ofrece resultados que van más allá de la solicitud inicial del usuario, brindando planes, consejos y sugerencias basados en el contexto y las preferencias.
  2. Multimodalidad: Gemini combina capacidades de conversación y visión, permitiendo a los usuarios interactuar utilizando tanto el audio como la cámara del dispositivo para obtener respuestas más precisas y naturales.
  3. Personalización: Proporciona respuestas personalizadas y adaptables al estilo de comunicación del usuario, con la opción de elegir entre diferentes voces y patrones de habla.
  4. Potencia y Capacidad: Con nuevos dispositivos y procesadores diseñados para Gemini, la plataforma puede manejar grandes volúmenes de datos, hasta un millón de tokens, lo que permite cargar y analizar archivos extensos como PDFs, líneas de código y videos.
  5. Mejoras en Inteligencia Artificial: Además de Gemini, Google ha mejorado sus programas de inteligencia artificial para fotos, videos y música, ofreciendo capacidades avanzadas como la búsqueda temática de imágenes y la creación de álbumes automáticamente.

Gemini en Google Workspace

Gemini en Google Workspace

Google Workspace, la suite corporativa de Google, ofrece una funcionalidad destacada que permite realizar resúmenes de contenido en los últimos mensajes de un remitente específico o de una conversación. Esto facilita mantenernos actualizados y al tanto de la información relevante dentro del entorno laboral.

Gemini en Android

La tecnología Gemini de Google presenta una función innovadora: la capacidad de monitorear el audio durante una conversación telefónica para alertarnos sobre posibles intentos de estafa. Este análisis del audio se realiza en el dispositivo, garantizando la privacidad al no requerir conexión a internet. En el escenario presentado, se ilustra cómo se detecta una situación de riesgo, como una llamada alertando sobre actividades sospechosas en la cuenta bancaria y sugiriendo transferir el dinero a una cuenta ‘más segura’.

A diferencia de la detección de spam en SMS y números de teléfono, que Android ya puede realizar, el análisis de discurso en Gemini implica un nivel de complejidad mayor al buscar palabras clave como números de seguridad social en EE.UU. o datos bancarios. Sin embargo, esta funcionalidad se limita a llamadas telefónicas y posiblemente a números desconocidos, ya que las llamadas encriptadas, como las de WhatsApp, no pueden ser analizadas por el sistema operativo.

Aunque los detalles exactos sobre el alcance y funcionamiento de esta función aún no han sido revelados por la compañía, se espera que esté disponible inicialmente en dispositivos Pixel, ofreciendo así una capa adicional de seguridad en las comunicaciones telefónicas.

Ask Photos

Google integrará Gemini en Google Photos, lo que permitirá realizar consultas complejas dentro de la aplicación de fotos. Por ejemplo, podremos pedirle a la aplicación que nos proporcione información específica que aparezca en alguna foto, como la fecha en que nuestra hija aprendió a nadar o el número de nuestra patente, según lo mencionado por Sundar Pichai. Esta función estará disponible en nuestro invierno, inicialmente en inglés. Hasta ahora, la aplicación permitía buscar algunos tipos de fotografías, como atardeceres, partidos de fútbol, mascotas, entre otros. Con la integración de Gemini, se amplía la capacidad de búsqueda a contenido más complejo que no fue definido previamente.

La función Enlazar para buscar (Circle to search), presente en los modelos más recientes de Pixel y en los Samsung Galaxy de gama alta de los últimos cuatro años, se expandirá a otros dispositivos en los próximos meses, alcanzando hasta 200 millones de dispositivos para fin de año. Hasta ahora, esta función permitía reconocer el contenido de una imagen para realizar búsquedas relacionadas; sin embargo, su última actualización le permite ahora reconocer y analizar contenido en pantalla, como problemas matemáticos, elementos de física, diagramas, entre otros, ofreciendo así guías para resolver diferentes tipos de problemas.

Transmisión en vivo de Google I/O ´24, en YouTube