Google TPU: el chip diseñado para la era de la inferencia de IA

Por UncoverAlpha

Como considero que el tema de las TPU de Google es extremadamente importante, estoy publicando un análisis profundo y completo, que no solo ofrece una descripción general técnica, sino también una cobertura estratégica y financiera de las TPU de Google.

Temas tratados:

¿Cuál es la historia del TPU y por qué empezó todo?
¿Cuál es la diferencia entre una TPU y una GPU?
Números de rendimiento ¿TPU vs GPU?
¿Dónde están los problemas para una adopción más amplia de las TPU?
La TPU de Google es la mayor ventaja competitiva de su negocio en la nube para los próximos 10 años
¿Cuántas TPU produce Google actualmente y qué tamaño pueden alcanzar?
Gemini 3 y sus consecuencias para toda la industria de los chips

Vamos a sumergirnos en ello.

¿Cuál es la historia del TPU y por qué empezó todo?

La historia de la Unidad de Procesamiento Tensorial (TPU) de Google no comienza con un gran avance en la fabricación de chips, sino con una revelación sobre matemáticas y logística. Alrededor de 2013, los directivos de Google —en concreto, Jeff Dean, Jonathan Ross (director ejecutivo de Groq) y el equipo de Google Brain— realizaron una proyección que los alarmó. Calcularon que si cada usuario de Android utilizara la nueva función de búsqueda por voz de Google durante tan solo tres minutos al día, la compañía necesitaría duplicar la capacidad global de su centro de datos solo para gestionar la carga de procesamiento.

En aquel entonces, Google dependía de CPU y GPU estándar para estas tareas. Si bien potentes, estos chips de propósito general eran ineficientes para las tareas complejas que requiere el aprendizaje profundo: multiplicaciones masivas de matrices. Ampliar la escala con el hardware existente habría sido una pesadilla financiera y logística.

Esto dio origen a un nuevo proyecto. Google decidió hacer algo inusual para una empresa de software: construir su propio silicio personalizado. El objetivo era crear un ASIC (Circuito Integrado de Aplicación Específica) diseñado para una sola función: ejecutar redes neuronales TensorFlow.

Hitos históricos clave:

2013-2014: El proyecto avanzó muy rápido gracias a que Google contrató a un equipo muy capacitado y, para ser sinceros, tuvo algo de suerte en sus primeros pasos. El equipo pasó del concepto de diseño a la implementación de silicio en centros de datos en tan solo 15 meses, un ciclo muy corto para la ingeniería de hardware.
2015: Antes de que el mundo supiera de su existencia, las TPU ya estaban presentes en los productos más populares de Google. Aceleraban silenciosamente la navegación de Google Maps, Google Fotos y Google Translate.
2016 : Google presentó oficialmente el TPU en Google I/O 2016.

Esta urgencia por resolver el problema de la "duplicación de centros de datos" es la razón de ser de la TPU. No se diseñó para vender a jugadores ni para renderizar vídeo; se diseñó para salvar a Google de su propio éxito en IA. Con esto en mente, Google lleva más de una década pensando en los "costosos" problemas de inferencia de IA. Esta es también una de las principales razones por las que la TPU es tan buena hoy en día en comparación con otros proyectos ASIC.

¿Cuál es la diferencia entre una TPU y una GPU?

Para comprender la diferencia, conviene analizar para qué se diseñó originalmente cada chip. Una GPU es un procesador paralelo de propósito general, mientras que una TPU es una arquitectura de dominio específico.

Las GPU se diseñaron para gráficos. Destacan en el procesamiento paralelo (hacer muchas cosas a la vez), lo cual es excelente para la IA. Sin embargo, al estar diseñadas para gestionar todo, desde texturas de videojuegos hasta simulaciones científicas, conllevan un "bagaje arquitectónico". Consumen una cantidad considerable de energía y área del chip en tareas complejas como el almacenamiento en caché, la predicción de ramificaciones y la gestión de subprocesos independientes.

Una TPU, por otro lado, elimina todo ese bagaje. No utiliza hardware para rasterización ni mapeo de texturas. En su lugar, utiliza una arquitectura única llamada Matriz Sistólica.

La matriz sistólica es el factor diferenciador clave. En una CPU o GPU estándar, el chip transfiere datos entre la memoria y las unidades de cómputo para cada cálculo. Esta reorganización constante crea un cuello de botella (el cuello de botella de Von Neumann).

En la matriz sistólica de una TPU, los datos fluyen a través del chip como la sangre a través de un corazón (de ahí el nombre “sistólico”).

Carga datos (pesos) una vez.
Pasa las entradas a través de una red masiva de multiplicadores.
Los datos se pasan directamente a la siguiente unidad de la matriz sin volver a escribirlos en la memoria.

En esencia, esto significa que una TPU, gracias a su matriz sistólica, reduce drásticamente el número de lecturas y escrituras de memoria que requiere HBM. Como resultado, la TPU puede dedicar sus ciclos a procesar datos en lugar de esperarlos.

El nuevo diseño de TPU de Google, también llamado Ironwood, también abordó algunas de las áreas clave en las que faltaba una TPU:

Mejoraron SparseCore para gestionar de manera eficiente grandes incrustaciones (bueno para sistemas de recomendación y LLM)
Aumentó la capacidad y el ancho de banda de HBM (hasta 192 GB por chip). Para una mejor comprensión, el Blackwell B200 de Nvidia tiene 192 GB por chip, mientras que el Blackwell Ultra, también conocido como B300, tiene 288 GB por chip.
Se mejoró la Interconexión entre Chips (ICI) para conectar miles de chips en clústeres masivos, también llamados Pods de TPU (necesarios para el entrenamiento de IA, así como para algunas cargas de trabajo de inferencia computacional de pruebas de tiempo). En cuanto a ICI, es importante destacar su alto rendimiento, con un ancho de banda máximo de 1,2 TB/s, frente a los 1,8 TB/s de Blackwell NVLink 5. Sin embargo, ICI de Google, junto con su compilador especializado y su pila de software, sigue ofreciendo un rendimiento superior en algunas tareas específicas de IA.

Lo fundamental que hay que entender es que, como la TPU no necesita decodificar instrucciones complejas ni acceder constantemente a la memoria, puede ofrecer operaciones por julio significativamente más altas.

Para el escalamiento horizontal, Google utiliza el conmutador de circuito óptico (OCS) y su red toroidal 3D, que compite con InfiniBand y Spectrum-X Ethernet de Nvidia. La principal diferencia radica en que el OCS es extremadamente rentable y eficiente energéticamente, ya que elimina los interruptores eléctricos y las conversiones OEO; sin embargo, debido a esto, no es tan flexible como los otros dos. Por lo tanto, la pila de Google es extremadamente especializada para la tarea en cuestión y no ofrece la flexibilidad que ofrecen las GPU.

Números de rendimiento ¿TPU vs GPU?

Ya que definimos las diferencias, veamos cifras reales que muestran el rendimiento de la TPU en comparación con la GPU. Dado que Google no revela estas cifras, es muy difícil obtener detalles sobre el rendimiento. Estudié numerosos artículos y fuentes de datos alternativas, incluyendo entrevistas con expertos del sector, y aquí presento algunas de las conclusiones clave.

Lo primero que importa es que hay muy poca información sobre la nueva TPUv7 de Google (Ironwood), ya que Google la presentó en abril de 2025 y apenas ahora está disponible para clientes externos ( internamente, se dice que Google ya utiliza Ironwood desde abril, posiblemente incluso para Gemini 3.0 ). ¿Por qué es importante esto si, por ejemplo, comparamos la TPUv7 con una versión anterior, pero aún ampliamente utilizada, de la TPUv5p, según datos de Semianalysis?

TPUv7 produce 4.614 TFLOPS (BF16) frente a los 459 TFLOPS de TPUv5p
TPUv7 tiene 192 GB de capacidad de memoria frente a los 96 GB de TPUv5p
El ancho de banda de la memoria TPUv7 es de 7370 GB/s frente a los 2765 de v5p

Podemos observar que los saltos de rendimiento entre la versión 5 y la 7 son muy significativos. Para ponerlo en contexto, la mayoría de los comentarios que analizaremos se centran más en TPUv6 o TPUv5 que en la versión 7.

Basado en el análisis de un montón de entrevistas con ex empleados, clientes y competidores de Google (gente de AMD, NVDA y otros), el resumen de los resultados es el siguiente.

La mayoría coincide en que las TPU son más rentables que las GPU de Nvidia, y en que su rendimiento por vatio es mejor. Sin embargo, esta opinión no se aplica a todos los casos de uso.

Un ex empleado de Google Cloud:

Si se aplica correctamente, pueden ofrecer un rendimiento mucho mejor por dólar en comparación con las GPU. Además, requieren mucha menos energía y generan menos calor. Además, son más eficientes energéticamente y tienen un menor impacto ambiental, lo que las convierte en un producto deseable.
Los casos de uso están ligeramente limitados a una GPU, no son tan genéricos, pero para una aplicación específica, pueden ofrecer hasta 1,4 veces mejor rendimiento por dólar, lo que representa un ahorro bastante significativo para un cliente que podría estar intentando usar GPU en lugar de TPU. " - fuente: AlphaSense

De manera similar, un comentario muy revelador de un exjefe de unidad de Google sobre cómo las TPU reducen significativamente el costo por consulta de búsqueda de IA en comparación con las GPU:

"El TPU v6 es entre un 60 y un 65 % más eficiente que las GPU; las generaciones anteriores, entre un 40 y un 45 %"

Esta entrevista fue en noviembre de 2024, por lo que el experto probablemente esté comparando la TPU v6 con la Nvidia Hopper. Hoy, ya tenemos la comparación entre Blackwell y la V7.

Muchos expertos también mencionan el beneficio de velocidad que ofrecen las TPU; un ex director de Google afirmó que las TPU son cinco veces más rápidas que las GPU para entrenar modelos dinámicos (como cargas de trabajo de búsqueda).

También hubo una entrevista muy reveladora con un cliente que utilizó tanto GPU de Nvidia como TPU de Google, donde describe la economía con gran detalle:

Si usara ocho H100 en lugar de un pod v5e, gastaría mucho menos en uno. En cuanto a precio y rendimiento, el TPU ofrece más beneficios. Si ya tengo un código, gracias a la ayuda de Google o a nuestro propio trabajo, y sé que funcionará en un TPU, entonces me conviene seguir usando el TPU.
A largo plazo, si creo que necesito escribir una nueva base de código, necesito trabajar mucho más, lo cual depende de cuánto tiempo vaya a entrenar. Diría que aún queda algo, por ejemplo, de la carga de trabajo que ya hemos realizado con las TPU, que se aplicará en el futuro, ya que, a medida que Google añade nuevas generaciones de TPU, las antiguas son mucho más económicas.

Por ejemplo, cuando lanzaron la v4, recuerdo que el precio de la v2 bajó tanto que su uso era prácticamente gratuito en comparación con cualquier GPU NVIDIA.
Google tiene una buena promesa, por lo que sigue dando soporte a TPUs más antiguas y lo está haciendo mucho más económico. Si realmente no necesita que su modelo se entrene de inmediato, si está dispuesto a decir "Puedo esperar una semana", aunque el entrenamiento solo dure tres días, puede reducir el costo en una quinta parte. - Fuente: AlphaSense

Otra entrevista valiosa fue con un empleado actual de AMD, quien reconoció los beneficios de los ASIC:

"Esperaría que un acelerador de IA pudiera lograr algo similar a lo que vemos en la industria. Utilizo mi experiencia con FPGAs. Podría observar una reducción del 30 % en el tamaño y quizás del 50 % en el consumo de energía en comparación con una GPU".

También obtuvimos algunos números de un ex empleado de Google que trabajó en el segmento de chips:

Al analizar las cifras publicadas, veo que las TPU son entre un 25 % y un 30 % mejores, e incluso casi el doble, según el uso, en comparación con Nvidia. En esencia, existe una diferencia entre un diseño muy personalizado, creado para realizar una tarea a la perfección, y un diseño más general.

Lo que también se sabe es que la verdadera ventaja de las TPU no reside en el hardware, sino en el software y en la forma en que Google ha optimizado su ecosistema para las TPU.

Mucha gente menciona el problema que enfrenta todo competidor de Nvidia, como la TPU: el rápido desarrollo de Nvidia y su constante "recuperación". Este mes, un exempleado de Google Cloud abordó esta preocupación directamente, ya que cree que la velocidad a la que las TPU están mejorando es mayor que la de Nvidia:

"El rendimiento por dólar que una TPU puede generar de una nueva generación en comparación con la generación anterior es un salto mucho mayor que el de Nvidia".

Además, los datos recientes de la presentación de Google en el evento Hot Chips 2025 lo respaldan, ya que Google afirmó que el TPUv7 es 100% mejor en rendimiento por vatio que su TPUv6e (Trillium).

Incluso para los defensores más acérrimos de Nvidia, las TPU no son fáciles de ignorar, ya que incluso Jensen tiene una opinión muy alta de las TPU de Google. En un podcast con Brad Gerstner, mencionó que, en lo que respecta a los ASIC, Google con las TPU es un " caso especial" . Hace unos meses, también obtuvimos un artículo del WSJ que decía que, después de que la publicación de noticias The Information publicara un informe que afirmaba que OpenAI había comenzado a alquilar TPU de Google para ChatGPT, Jensen llamó a Altman para preguntarle si era cierto y le indicó que estaba dispuesto a reanudar las conversaciones (negociaciones de inversión). También cabe destacar que la cuenta oficial X de Nvidia publicó una captura de pantalla de un artículo en el que OpenAI negó los planes de usar los chips internos de Google. Como mínimo, Nvidia está siguiendo muy de cerca las TPU .

Vale, pero después de mirar algunos de estos números, uno podría pensar: ¿por qué no hay más clientes que utilicen TPU?

¿Dónde están los problemas para una adopción más amplia de las TPU?

El principal problema para la adopción de TPUs es el ecosistema. CUDA de Nvidia está arraigado en la mente de la mayoría de los ingenieros de IA, ya que han estado aprendiendo CUDA en la universidad. Google ha desarrollado su ecosistema internamente, pero no externamente, ya que hasta ahora ha utilizado TPUs solo para sus cargas de trabajo internas. Las TPUs utilizan una combinación de JAX y TensorFlow, mientras que la industria se inclina por CUDA y PyTorch (aunque las TPUs ahora también son compatibles con PyTorch). Si bien Google se esfuerza por hacer que su ecosistema sea más compatible y compatible con otras plataformas, también se trata de la creación de bibliotecas y ecosistemas, cuyo desarrollo lleva años.

También es importante destacar que, hasta hace poco, la industria de GenAI se ha centrado principalmente en las cargas de trabajo de entrenamiento. En estas cargas, CUDA es muy importante, pero en lo que respecta a la inferencia, incluso la inferencia de razonamiento, CUDA no lo es tanto. Por lo tanto, las posibilidades de ampliar la cobertura de las TPU en inferencia son mucho mayores que en entrenamiento (aunque las TPU también tienen un excelente rendimiento en entrenamiento; Gemini 3 es el mejor ejemplo).

El hecho de que la mayoría de los clientes sean multinube también supone un reto para la adopción de TPU, ya que las cargas de trabajo de IA están estrechamente vinculadas a los datos y su ubicación (la transferencia de datos en la nube es costosa). Se puede acceder a Nvidia a través de los tres hiperescaladores, mientras que, por ahora, las TPU solo están disponibles en GCP. Un cliente que utiliza TPU y GPU Nvidia lo explica con claridad:

"En este momento, la mayor ventaja de NVIDIA, y esto ha sido así para las últimas tres empresas en las que trabajé, es que AWS, Google Cloud y Microsoft Azure son las tres principales empresas de la nube.
Cada empresa, cada corporación, cada cliente que tenemos tendrá datos en una de estas tres nubes. Todas estas tres nubes cuentan con GPU NVIDIA. A veces, los datos son tan grandes y están en una nube diferente que resulta mucho más económico ejecutar nuestra carga de trabajo en la nube donde el cliente tenga los datos.
No sé si conoces el costo de salida que supone mover datos fuera de una nube. En ese caso, si tienes una carga de trabajo NVIDIA o CUDA, podemos ir a Microsoft Azure, obtener una máquina virtual con GPU NVIDIA (la misma GPU, de hecho), sin necesidad de modificar el código, y ejecutarla allí.
Con las TPU, una vez que todos dependan de ellas y Google diga: "¿Saben qué? Ahora tienen que pagar diez veces más", estaríamos en problemas, porque tendríamos que reescribir todo. Por eso. Esa es la única razón por la que la gente teme invertir demasiado en TPU. Lo mismo ocurre con Trainium e Inferentia de Amazon. - fuente: AlphaSense

Estos problemas son bien conocidos en Google, por lo que no sorprende que, internamente, el debate sobre si mantener las TPU dentro de Google o empezar a venderlas externamente sea un tema recurrente. Al mantenerlas internamente, se fortalece la ventaja competitiva de GCP, pero al mismo tiempo, muchos exempleados de Google creen que, en algún momento, Google también empezará a ofrecer TPU externamente, quizás a través de algunas neonubes, no necesariamente con sus dos principales competidores, Microsoft y Amazon. Abrir el ecosistema, brindar soporte, etc., y ampliar su uso son los primeros pasos para que esto sea posible.

Un ex empleado de Google también mencionó que el año pasado Google formó un equipo más orientado a las ventas para impulsar y vender TPU, por lo que no es que hayan estado presionando mucho para vender TPU durante años; es una dinámica bastante nueva en la organización.

La TPU de Google es la mayor ventaja competitiva de su negocio en la nube para los próximos 10 años

Para mí, lo más valioso de las TPU es su impacto en GCP. A medida que presenciamos la transformación de los negocios en la nube desde la era pre-IA a la era de la IA, la principal conclusión es que la industria ha pasado de ser un oligopolio de AWS, Azure y GCP a un panorama más comoditizado, con Oracle, Coreweave y muchas otras neoclouds compitiendo por las cargas de trabajo de IA. El problema con las cargas de trabajo de IA es la competencia y el margen bruto del 75% de Nvidia, que también resulta en márgenes bajos para las cargas de trabajo de IA. La industria de la nube está pasando de ser una industria con un margen bruto del 50-70% a una industria con un margen bruto del 20-35%. Para los inversores en la nube, esto debería ser preocupante, ya que el perfil futuro de algunas de estas empresas se asemeja más al de una empresa de servicios públicos que al de un negocio atractivo con altos márgenes. Pero existe una solución para evitar ese futuro y volver a un margen normal: los ASIC.

Los proveedores de nube que pueden controlar el hardware y no dependen de Nvidia y su margen bruto del 75% podrán volver al mundo de los márgenes brutos del 50%. Y no es de extrañar que los tres AWS, Azure y GCP estén desarrollando sus propios ASIC . El más maduro, con diferencia, es TPU de Google, seguido de Trainum de Amazon y, por último, MAIA de Microsoft (aunque Microsoft posee la propiedad intelectual completa de los ASIC personalizados de OpenAI, lo que podría beneficiarles en el futuro).

Aunque incluso con los ASIC no se es 100% independiente, ya que todavía hay que trabajar con alguien como Broadcom o Marvell, cuyos márgenes son inferiores a los de Nvidia, pero aún así no son despreciables, Google está de nuevo en una muy buena posición. A lo largo de los años de desarrollo de TPU, Google ha logrado controlar gran parte del proceso de diseño de chips internamente. Según un empleado actual de AMD, Broadcom ya no lo sabe todo sobre el chip. En este punto, Google es el diseñador front-end (el RTL real del diseño) mientras que Broadcom es solo el socio de diseño físico back-end. Google, además de eso, también, por supuesto, posee toda la pila de optimización de software para el chip, lo que lo hace tan eficiente como es. Según el empleado de AMD, basándose en esta división del trabajo, cree que Broadcom tiene suerte si obtiene un margen bruto de 50 puntos por su parte.

Sin tener que pagar a Nvidia por el acelerador, un proveedor de nube puede fijar el precio de su computación de forma similar a otros y mantener un mejor perfil de margen, o bien reducir los costes y ganar cuota de mercado. Por supuesto, todo esto depende de contar con un ASIC muy capaz que pueda competir con Nvidia. Desafortunadamente, parece que Google es el único que lo ha conseguido, ya que el modelo con mejor rendimiento es Gemini 3 entrenado con TPU. Según algunos exempleados de Google, internamente, Google también utiliza TPU para la inferencia en toda su pila de IA, incluyendo Gemini y modelos como Veo. Google compra GPU de Nvidia para GCP, ya que los clientes las desean porque están familiarizados con ellas y con el ecosistema, pero internamente, Google apuesta por las TPU.

A medida que aumenta la complejidad de cada generación de ASIC, similar a la complejidad y el ritmo de Nvidia, predigo que no todos los programas ASIC prosperarán. Creo que, fuera de las TPU, la única opción real de hiperescalado en este momento es AWS Trainium, pero incluso este se enfrenta a incertidumbres mucho mayores que las de las TPU. Con esto en mente, Google y su negocio en la nube pueden salir de esta era de la IA como un importante beneficiario y con mayor cuota de mercado.

Recientemente, incluso recibimos comentarios del equipo de SemiAnalysis elogiando la TPU:

La supremacía del silicio de Google entre los hiperescaladores es inigualable, con su TPU de 7.ª generación posiblemente a la par de Nvidia Blackwell. El TPU impulsa la familia de modelos Gemini, que están mejorando en capacidad y se sitúan cerca de la frontera de Pareto de $ por inteligencia en algunas tareas. - fuente: SemiAnalysis

¿Cuántas TPU produce Google actualmente y qué tamaño pueden alcanzar?

Aquí están los números que investigué...

Continúe leyendo en uncoveralpha.com