Batalla de la IA: Grok sorprende a Mrwhosetheboss con su rendimiento y ChatGPT gana

Gemini, ChatGPT, Grok y Perplexity (Fuente de la imagen: Gemini)

En un vídeo publicado por Mrwhosetheboss en YouTube, puso a prueba cuatro modelos de IA de diferentes marcas y los puntuó en función de su rendimiento en cada tarea. Mrwhosetheboss pasó de consultas sencillas a preguntas complicadas e investigaciones, llevando a cada modelo hasta su límite.

Chibuike Okpara (traducido por Ninh Duy), Publicado 07/04/2025 🇺🇸 🇩🇪 ...

En el vídeo, Mrwhosetheboss probó Grok (Grok 3), Gemini (2.5 Pro), ChatGPT (GPT-4o) y Perplexity (Sonar Pro). A lo largo del vídeo dejó claro que estaba impresionado por el rendimiento que ofrecía Grok. Grok empezó muy bien, aflojó un poco y luego remontó hasta hacerse con la segunda posición por detrás de ChatGPT. Para ser justos, ChatGPT y Géminis consiguieron aumentar su puntuación gracias a una característica de la que carecen los demás: la generación de vídeo.

Para dar comienzo a la prueba, Mrwhosetheboss puso a prueba la capacidad de los modelos para resolver problemas del mundo real, para lo que dio a cada modelo de IA esta indicación Conduzco un Honda Civic 2017, ¿cuántas de las maletas Aerolite 29" Hard Shell (79x58x31cm) podría meter en el maletero? La respuesta de Grok fue la más sencilla, ya que contestó correctamente "2", ChatGPT y Géminis afirmaron que en teoría cabrían 3, pero en la práctica 2. Perplejidad se salió del camino e hizo simples cálculos matemáticos olvidando que el objeto en cuestión no era amorfo, y le salió "3 ó 4"

Para la siguiente pregunta, no se lo puso fácil a los chatbots: pidió consejo para hacer una tarta. Junto a su consulta, subió una imagen en la que aparecían 5 artículos, uno de los cuales no se utiliza para hacer pasteles - un tarro de setas Porcini secas - todos los modelos menos uno cayeron en la trampa. ChatGPT lo identificó como un tarro de especias mixtas molidas, Géminis dijo que era un tarro de cebollas fritas crujientes, Perplejidad lo bautizó como café instantáneo, mientras que Grok lo identificó correctamente como un tarro de setas secas de Waitrose. He aquí la imagen que subió:

Una imagen alterada de los 5 ingredientes que Mrwhosetheboss subió a los chatbots de IA destacando el tarro de setas (Fuente de la imagen: Mrwhosetheboss; recortada)

A continuación, los puso a prueba en matemáticas, recomendación de productos, contabilidad, traducción de idiomas, razonamiento lógico, etc. Una cosa fue universal para ellos - la alucinación - cada uno de los modelos exhibió algún nivel de alucinación en algún momento(s) del vídeo; hablando de cosas que simplemente no existían con confianza. He aquí la clasificación final de cada IA:

ChatGPT (29 puntos)
Grok (24 puntos)
Géminis (22 puntos)
Perplejidad (19 puntos)

La inteligencia artificial ha contribuido a hacer menos pesadas la mayoría de las tareas, especialmente desde la llegada de los LLM. El libro Inteligencia Artificial (actualmente 19,88 $ en Amazon) es uno de los libros que pretenden ayudar a la gente a sacar partido de la IA.