Si hace unos días os hacíamos un resumen de las novedades que traen consigo las RTX 50 de NVIDIA bajo arquitectura Blackwell, esta vez le toca el turno a las AMD Radeon RX 90×0 bajo arquitectura RDNA 4. Donde, al igual que sus rivales, nos encontramos con una mejora incremental de la anterior generación, pero, al igual que ocurre con la PS5 Pro de Sony, con una mejora importante en el rendimiento de cara a la IA y el Ray Tracing. Se trata de una arquitectura de transición, antes de dar un salto a la arquitectura UDNA. La cual se usará en sistemas como PlayStation 6 y la futura Xbox, aunque ya incluye algunos elementos provenientes de CDNA, lo que la convierte en una arquitectura de transición, no por ello menos interesante.
AMD vuelve a las GPU monolíticas con sus Radeon RX 90×0
En el pasado CES de enero de 2025, AMD dio un adelanto de sus próximas tarjetas gráficas, basadas en la arquitectura RDNA 4, y que se lanzarían bajo el nombre comercial de Radeon RX 90×0, siendo las primeras que saldrán al mercado las más potentes de la gama: RX 9070 XT y RX 9070. La sorpresa fue mayúscula cuando la empresa de Lisa Su confirmó los rumores en que no solo no van a competir de tú a tú frente a la gama alta de NVIDIA, sino que anunciaron que no tenían planes de superar en rendimiento bruto a la RX 7900 XTX, la tarjeta gráfica más potente de la anterior generación. No obstante, esto tiene cierta trampa, como veréis más adelante cuando tratemos las mejoras en Ray Tracing e inteligencia artificial.
En todo caso, hemos de ponernos en situación y tener en cuenta el rendimiento de la arquitectura RDNA 3 en el mercado de las tarjetas gráficas, dejando a AMD en la peor situación posible que no es otra que NVIDIA teniendo el 90 % del mercado. Esto explica el motivo por el cual no han querido continuar con el planteamiento de una GPU por chiplets o disgregada en RDNA 4 para preferir volver al modelo tradicional, ya que el rendimiento obtenido no compensa.
Organización general de las arquitectura RDNA
En principio, el diseño general de las diferentes generaciones RDNA de AMD es el mismo, con pequeñas mejoras incrementales que se han visto en el tiempo. No obstante, nos da la sensación de que, una vez terminada RDNA 2, el Radeon Technology Group tomó dos caminos distintos. El primero de ellos derivó en la arquitectura RDNA 3 usada en las tarjetas gráficas RX 7×00 y las gráficas integradas en las CPU Ryzen de la propia AMD. La segunda será la GPU principal de la serie RX 90×0 para tarjetas gráficas dedicadas, aunque no se espera su aparición en futuras iGPU, al menos por lo que se sabe hasta el momento.
No olvidemos que una de las particularidades de RDNA en todas sus versiones es el concepto del Workgroup Processor (WGP), donde los núcleos de la GPU o las Compute Units comparten elementos a pares como es la caché de instrucciones, la caché de datos para la unidad escalar, así como la memoria local. Cómo se puede ver en la diapositiva arriba de estas líneas, dicha organización se sigue manteniendo intacta y sin cambios en RDNA 4.
RDNA 4 versus GPU de PS5 Pro
Pese a compartir algunos elementos en común, hemos de recordar que la GPU de PS5 Pro no se basa en la arquitectura RDNA 4, debido a que, a nivel de núcleo de la GPU, así como del chip en general, hay una serie de diferencias importantes entre ambos. La más clara de todas es la existencia de la Infinity Cache, una memoria caché de tercer nivel de 64 MB de tamaño que es inédita por el momento en todos los chips de AMD para consola. No obstante, dicha diferencia ya existía entre PC y consolas desde RDNA 2, aunque en todo caso no es el único cambio a nivel global de la GPU.
Uno de los cambios importantes que ha hecho AMD en su nueva arquitectura y con visos a la siguiente es reemplazar la MMU integrada en el controlador de memoria de la GPU con el objetivo de poder gestionar las peticiones a memoria fuera de orden. Para que lo entendáis, en RDNA 3 y arquitecturas anteriores, dichas peticiones se hacían en orden. Es decir, si un dato no se encontraba en la caché y la unidad de gestión de memoria tenía que gestionar la búsqueda de la información en la VRAM, esta lo hacía según el orden de petición y no teniendo en cuenta el orden de obtención de los resultados en memoria o la latencia de los mismos.
¿Al fin unidades SIMT en una GPU de AMD?
Otro de los cambios que ha implementado AMD en RDNA es lo que AMD llama registros dinámicos. Ya os comentamos en el artículo sobre PlayStation 6 que uno de los cambios que esperábamos en la GPU de PlayStation 6 es la adopción de unidades SIMT en vez de SIMD con el objetivo de aprovechar mejor la disponibilidad de las diferentes unidades de ejecución existentes en el núcleo, lo que permite olas de diferentes tamaños. Pues bien, los registros dinámicos son muy importantes para la implementación de una unidad SIMT, ya que con estas las olas de instrucciones a ejecutar solo necesitan pedir lo que necesitan en cada momento, permitiendo asignar dinámicamente las unidades de ejecución o ALU no usadas a otras instrucciones en vez de dejarlas paradas.
Sin embargo, el jarro de agua fría nos viene cuando sabemos que deberemos esperar a UDNA para una implementación completa, y es que es la asignación de registros no es completamente automática en hardware, sino que el compilador o el driver tienen que gestionar cuándo y cómo se asignan o liberan registros dinámicamente. Es decir, para aprovechar esta característica se requiere compilar los shaders de una forma concreta. Si fuese un salto completo de SIMD a SIMT, la asignación sería completamente transparente al gestionarse desde el propio hardware.
Probablemente, este sea el motivo por el cual Sony decidió no apostar por RDNA 4 en su nueva consola, ya que para sacar el máximo rendimiento se volvería necesario recompilar todos los shaders de todos y cada uno de los juegos y es por ello que prefirieron la opción más cómoda.
Unidades de ejecución en RDNA 4
Cada núcleo de la GPU puede usar 2 unidades de ejecución distintas al mismo tiempo, pero tiene muchas más disponibles para ejecutar las diferentes instrucciones, aparte de la unidad escalar que trabaja con datos únicos y no por vectores y que funciona en paralelo a lo que son las unidades vectoriales. Es más, la unidad escalar dispone de su propia memoria, caché de instrucciones y set de registros, mientras que las siguientes unidades comparten sus registros asignados o VGPR.
- Cada unidad SIMD tiene dos sets de 32 ALU, uno para el cálculo de enteros de 32 bits, el otro es para el cálculo en coma flotante de 32 bits.
- La AI Accelerator Unit es el Array Sistólico o unidad Tensor que se ha añadido a RDNA 4, comparte registros con las unidades SIMD y el TLU, por lo que no puede usarse cuando una de estas unidades tienen acceso a memoria.
- Las 8 Transcendental Logic Unit son ALU especializadas en cálculos matemáticos complejos. Le permiten a la GPU realizarlo en muy pocos ciclos de reloj sin tener que sacrificar la sencillez de las ALU en la unidad SIMD. Su especialización es calcular funciones matemáticas transcendentales (de ahí su nombre) como: funciones trigonométricas, logaritmos, exponentes, y raíces.
Fuera de la nueva AI Accelerator Unit, el resto de componentes ya se encontraban disponibles en generaciones anteriores de la arquitectura RDNA. No obstante, aquí hemos de decir que una desventaja que tiene RDNA 4 respecto a las NVIDIA RTX 50 es que la unidad de aceleración para la IA comparte registros con el resto de unidades. Mientras que en la GPU de la marca verde la han separado y le han dado sus propios registros, permitiendo el uso simultáneo y en paralelo de los Tensor Core junto a las unidades SIMD y SFU/TLU.
Por fin, unidades para la IA de verdad
Al tiempo de escribir este artículo, AMD no ha aclarado todavía lo que son las AI Accelerator Units, pero está claro que se trata de una adaptación de las Matrix Core Unit de CDNA a los tipos de datos y cargas de trabajo de una GPU doméstica. Pensad que lo mismo ocurre en las GPU de NVIDIA y el ejemplo de ello nos lo encontramos con el hecho de que dichas instrucciones, tanto en RDNA 4 como en las GPU NVIDIA RTX, no soportan instrucciones con valores superiores a 16 bits, aunque pueden devolver resultados de 32 bits. ¿Cuál es el cambio principal en la nueva arquitectura? Pues que, por fin, una arquitectura gráfica de AMD tiene sus propios «Tensor Cores».
Ahora bien, hemos de decir que en un principio nos esperábamos una configuración como la de PS5 Pro, cuya GPU dispone de unidades similares. La diferencia entre ambas GPU radica en que, mientras la consola de Sony dispone de 2 AI Accelerator con una configuración de 32 x 9, aquí disponemos de una sola unidad con una configuración de 64 x 16 con soporte para Sparsity y formatos en coma flotante de 8 bits: FP8 y BF8. El cual es ampliamente utilizado en el nuevo FSR4, el cual es exclusivo de las tarjetas gráficas de AMD con esta arquitectura y desde aquí no nos extrañaría que diese mayor calidad de imagen que el PSSR de la PS5 Pro, más que nada por el hecho de que compite contra el DLSS de NVIDIA en PC.
Tipo de dato | RDNA 3 | RDNA 4 |
---|---|---|
FP32 | 256 | 256 |
FP64 | 4 | 4 |
FP16 | 512 | 1024/2048 |
BF16 | 512 | 1024/2048 |
FP8 | - | 2048/4096 |
BF8 | - | 2048/4096 |
INT8 | 512 | 2048/4096 |
INT4 | 1024 | 4096/8192 |
Ray Tracing mejorado en RDNA 4
El otro talón de Aquiles de AMD respecto a NVIDIA era hasta el momento el trazado de rayos, pues bien, con RDNA 4 se resuelven varios problemas y creemos que la unidad de intersección y de recorrido es la misma que la utilizada en PS5 Pro. Desde el momento en que este tipo de hardware suelen ser cajas negras que realizan de forma interna su trabajo en paralelo, sin intervención de otros elementos para devolver un resultado al final. Dicho de otra forma, y siendo más claros, la potencia a la hora de calcular las intersección para el trazo de rayos se ha duplicado por ciclo de reloj y núcleo respecto a RDNA 3 en RDNA 4.
La trampa es sencilla. En vez de usar una sola Ray Accelerator Unit, ahora utilizan dos, pero ambas se pueden unificar para poder recorrer un árbol BVH8, dando la opción a los desarrolladores a escoger el tipo de estructura de datos más adecuado según el tipo de escena con Ray Tracing renderizar. No obstante, se ha de aclarar que RDNA 4 en PC tiene una enorme ventaja respecto a la GPU de PS5 Pro pese a usar las mismas unidades para Ray Tracing por tres motivos: la presencia de la Infinity Cache, la nueva MMU que permite resolver peticiones a memoria fuera de orden y la caché dinámica en la Compute Units o núcleos de la GPU.
FSR4, exclusivo de RDNA 4
El FidelityFX Super Resolution de cuarta generación trae cambios importantes, ya que por primera vez en la historia del FSR el algoritmo no se ha desarrollado para poderse usar para las generaciones anteriores de GPU de AMD, dejando fuera incluso a las RX 7000 basadas en RDNA 3. El motivo detrás de ello son las capacidades de las nuevas AI Accelerator Units, las cuales y tal como os hemos explicado antes, son ahora del mismo tipo que los “Tensor Cores” de NVIDIA. Lo que hace que este algoritmo de superresolución y de generación automática de frames, análogo al DLSS de NVIDIA, sea exclusivo de las tarjetas gráficas cuya GPU tenga arquitectura RDNA 4.
Ahora bien, por lógica no creemos que el PSSR de PS5 Pro sea una versión consolizada del FSR4, dado que pese a servir para lo mismo, el algoritmo de Sony carece de generación de frames y sus niveles de calidad son cuanto menos lo suficientemente pobres como para no plantarle cara al DLSS de NVIDIA. Y esto se debe a que las AI Accelerator Units de RDNA 4 son mucho más capaces en rendimiento y posibilidades que las incluidas en la consola de Sony. ¿Cuánto? Pues hablamos del doble de operaciones por núcleo y ciclo de reloj.
Una RX 9070 XT con una GPU de 64 núcleos a 2.97 GHz de velocidad máxima (Boost) alcanza los 779 TOPS haciendo cálculos de enteros de 8 bits, mientras que las unidades equivalentes en PS5 Pro en una GPU con 60 núcleos a 2.17 GHz alcanza oficialmente los 300 TOPS haciendo cálculos bajo la misma precisión. Recordad que, a más potencia, más precisión, puede alcanzar un algoritmo de superresolución y con ello mayor calidad de imagen.