Información privilegiada de GPT-4 filtrada, 1,8 billones de parámetros enormes, 13 billones de entrenamiento de tokens, gastado 63 millones de dólares estadounidenses

Fuente: "Xinzhiyuan" (ID: AI_era)

¡Justo ahora, GPT-4 de OpenAI fue "abierto" por expertos de la industria nuevamente!

Estos incluyen parámetros e información muy específicos, como la arquitectura de GPT-4, la infraestructura de entrenamiento e inferencia, el volumen de parámetros, el conjunto de datos de entrenamiento, el número de token, el costo y la Mezcla de expertos (MoE).

En concreto, detrás de los diferentes proyectos, cómo pesa OpenAI. Y cómo cruzar el mayor cuello de botella en la inferencia de modelos grandes.

¿De quién vino una revelación tan pesada?

Los autores del artículo son dos colaboradores de SemiAnalysis llamados Dylan Patel y Gerald Wong.

Vale la pena mencionar que Dylan Patel también fue uno de los autores de la filtración de documentos internos de Google ("No tenemos un foso, y OpenAI tampoco"), que previamente había causado un gran revuelo en la industria.

El CEO de DeepMind, Hassabis, confirmó recientemente la autenticidad de los documentos filtrados de los ingenieros de Google en una entrevista con el medio extranjero The Verge.

Se puede ver que Dylan Patel tiene algunos canales especiales, lo que hace que la revelación de hoy sea un poco más auténtica.

Li Zhifei, el CEO de Going out to ask, también pronunció un discurso.

Muchas empresas pueden hacer GPT-4

En opinión del autor del artículo de última hora, la razón por la que OpenAI no está abierto no es para garantizar que los seres humanos no sean destruidos por la IA, sino porque las cosas que construyen son reproducibles.

Incluso predice que, en el futuro, todas las principales empresas de Internet o las nuevas empresas de IA en China y Estados Unidos podrán construir un modelo que sea igual a GPT-4 o incluso supere a GPT-4.

Pero también admitió que GPT-4 es una gran obra maestra de OpenAI. Condensa el diseño ingenioso del ingeniero, la estructura compleja y varias compensaciones ingeniosas de ingeniería.

El foso más duradero de OpenAI es que tienen comentarios de usuarios reales, los mejores talentos de ingeniería de la industria y la posición de liderazgo continua que brinda la ventaja de ser el primero en moverse.

Marco modelo

En primer lugar, el autor que dio la noticia cree que GPT-4 contiene un total de 1,8 billones de parámetros en 120 capas, mientras que GPT-3 solo tiene alrededor de 175 mil millones de parámetros.

En otras palabras, la escala de GPT-4 es más de 10 veces mayor que la de GPT-3.

Anteriormente, se dijo en Internet que el parámetro de GPT-4 era de 1 billón, lo que parece estar subestimado por la situación real.

Para mantener un costo razonable, OpenAI adopta el modelo MoE para la construcción.

Específicamente, GPT-4 tiene 16 modelos expertos con aproximadamente 111 mil millones de parámetros por experto MLP. Entre ellos, se utilizan dos modelos expertos para la propagación directa.

Aunque hay mucha discusión en la literatura sobre algoritmos avanzados para seleccionar a qué expertos apunta cada token, se dice que el algoritmo utilizado por OpenAI para GPT-4 es en realidad muy simple.

Además, hay alrededor de 55 mil millones de parámetros en el modelo, que se utilizan para compartir el mecanismo de atención.

En cada razonamiento de propagación directa (generación de un token), GPT-4 solo necesita usar alrededor de 280 mil millones de parámetros y 560 TFLOP.

Esto contrasta marcadamente con muchos modelos puramente densos que requieren alrededor de 1,8 billones de parámetros y 3700 TFLOP por pase de avance.

La composición del conjunto de datos

OpenAI entrenó a GPT-4 con 13 billones de tokens.

Este conjunto de datos no solo contiene 13 billones de tokens, sino que debido a que no hay tokens de alta calidad, este conjunto de datos también contiene muchas épocas.

Dentro de Scale AI y el conjunto de datos, también se incluyen millones de líneas de datos de ajuste fino de instrucciones.

Sin embargo, el autor de la revelación dijo que no encontraron mucha información sobre estos datos de RLHF.

La duración del contexto en la etapa de preentrenamiento alcanzó los 8K (seqlen), y la versión de 32k se ajustó en función de la versión de 8K preentrenada.

El tamaño del lote aumenta gradualmente durante varios días en el clúster, y el tamaño del lote final utilizado por OpenAI es de 60 millones.

Por supuesto, este es "solo" el tamaño del modelo experto con 7,5 millones de tokens cada uno, ya que no todos los modelos expertos verán todos los tokens.

Estrategia paralela

La estrategia paralela es muy importante para A100GPU.

OpenAI usa paralelismo de tensor de 8 vías, porque NVLink solo admite una cantidad limitada.

Pero además, el autor de las últimas noticias escuchó que OpenAI usa 15 canalizaciones paralelas.

En teoría, 15 canalizaciones es demasiado considerando la comunicación de datos y el tiempo de computación.

Pero debido a la limitación de la capacidad de la memoria, muchas canalizaciones son significativas.

Cuando está puramente canalizado y en paralelo tensorial, el parámetro FP16 es de aproximadamente 30 GB por GPU.

Pero una vez que se agregan el caché y el costo de KV, si la mayoría de las GPU utilizadas por OpenAI son A100 de 40 GB, entonces, en teoría, esa arquitectura tiene sentido.

Es posible que OpenAI esté usando ZeRo Stage 1 y puede estar usando FSDP a nivel de bloque o paralelismo híbrido de datos compartidos.

¿Por qué no usaron el modelo completo de FSDP? Probablemente por el alto costo de comunicación.

Aunque OpenAI tiene una red de alta velocidad entre la mayoría de los nodos, no cubre todos los nodos.

Entre ellos, al menos algunos clústeres tendrán un ancho de banda de conexión mucho menor que otros.

Sin embargo, el autor dijo que no termina de entender cómo OpenAI evita la generación de "enormes burbujas" en cada lote bajo un paralelismo de tubería tan alto y es muy probable que OpenAI haya resistido estos costos.

Costo de entrenamiento

OpenAI entrena GPT-4 con alrededor de 2.15e25 FLOPS, entrenado en alrededor de 25 000 A100 durante 90 a 100 días, y la tasa de utilización está entre el 32 % y el 36 %.

Esta utilización extremadamente baja se debió en parte a la gran cantidad de fallas, que requirieron reiniciar el entrenamiento desde los puntos de control anteriores. Como el costo de la burbuja mencionado anteriormente.

El costo de capacitación desperdiciado en este caso es extremadamente alto.

Otra razón es que la reducción total entre tantas GPU es muy costosa.

Este diagrama supone que la incapacidad de fusionar cada operación, el ancho de banda de memoria requerido por el mecanismo de atención y la sobrecarga de hardware equivalente a las lecturas de parámetros conducen a ineficiencias. De hecho, incluso con una biblioteca optimizada como la biblioteca FasterTransformer de Nvidia, la sobrecarga total puede ser aún mayor.

El autor del denunciante sospecha que si este clúster es en realidad un grupo de clústeres más pequeños con conexiones de red más débiles, entonces la velocidad de conexión sin bloqueo (sin bloqueo) entre diferentes partes del clúster es 800G/1.6T, pero estas partes la velocidad de conexión entre ellos es de solo 200G/400G.

Si el costo de la computación en la nube de OpenAI es de aproximadamente $1/A100 horas, entonces, en tales condiciones, el costo de capacitación es de aproximadamente $63 millones.

Esto no incluye todos los experimentos, entrenamiento fallido y otros costos, como la recopilación de datos, RLHF, costo humano, etc.

Si tiene en cuenta los factores que acabamos de mencionar, el costo real es mucho mayor.

Además, esto debe basarse en la premisa de que otros pueden comprar chips/redes/centros de datos, incurrir en gastos de capital para construir estos sistemas y arrendarlos a OpenAI.

Pero hoy, a $2/H100 horas, se puede realizar una capacitación previa en alrededor de 8192 H100 en solo 55 días a un costo de $21,5 millones.

La figura anterior muestra la cantidad de parámetros y tokens para algunos de los modelos avanzados disponibles públicamente. La línea en la figura son las observaciones a escala de Chinchilla de Google DeepMind (las barras de error más grandes suavizadas), cada punto de la línea muestra los FLOPS teóricos necesarios para entrenar el modelo con ese parámetro y la cantidad de tokens.

Sin embargo, el autor del informe dijo que para fines de este año, al menos nueve empresas tendrán clústeres H100 que superen el tamaño mencionado.

Si bien no todas estas empresas las utilizarán todas para la capacitación de modelos individuales, si alguna lo hace, tendrán modelos más grandes que GPT-4.

Por ejemplo, Meta tendrá más de 100.000 H100 a finales de este año, pero una parte considerable de ellos estarán distribuidos en su propio centro de datos para inferencia.

Pero su grupo individual más grande seguirá superando los 25.000 H100.

En resumen, para fines de este año, muchas empresas tendrán suficientes recursos informáticos para entrenar modelos de tamaño GPT-4.

Esta tabla es el costo teóricamente óptimo de entrenar un modelo en una Nvidia A100, sin considerar la mano de obra requerida, las herramientas de ML Ops, la recopilación/preprocesamiento de datos, la recuperación de fallas, los ejemplos de aprendizaje de una o varias veces, la inferencia, etc., muchos partes El costo de

Compensaciones en modelos expertos mixtos

MoE (Modelo mixto de expertos) es una excelente manera de reducir la cantidad de parámetros durante la inferencia, mientras los aumenta al mismo tiempo.

Pero esto es necesario para que cada token de entrenamiento codifique más información, porque es muy difícil obtener suficientes tokens de alta calidad.

Si OpenAI realmente quiere buscar el mejor rendimiento, necesita entrenar el doble de tokens para lograrlo.

Dicho esto, OpenAI hizo bastantes concesiones.

Por ejemplo, lidiar con MoE durante la inferencia es muy difícil porque cada parte del modelo no se usa en cada generación de tokens.

Esto significa que algunas partes pueden estar inactivas mientras otras funcionan.

Esta situación puede reducir significativamente la utilización cuando se presta servicio a los usuarios.

Los investigadores han demostrado que el uso de 64-128 modelos expertos produce mejores perfiles de pérdida que el uso de 16 modelos expertos, pero esto es solo una investigación.

Hay muchas razones para usar relativamente pocos modelos expertos. Una de las razones por las que OpenAI eligió 16 expertos es porque es difícil generalizar más modelos expertos en muchas tareas.

También es más difícil lograr la convergencia con modelos más expertos.

En un proceso de formación tan enorme, OpenAI optó por ser más conservador en la cantidad de modelos expertos.

Además, usar menos modelos expertos también ayuda a su infraestructura de inferencia. Hay varias compensaciones y compensaciones difíciles cuando se cambia a una arquitectura de inferencia híbrida de modelo experto.

El autor de las noticias de última hora comienza con la discusión de las ventajas y desventajas básicas del razonamiento LLM y luego analiza los problemas que enfrenta OpenAI y las decisiones que toma.

Compensaciones de razonamiento

Antes de presentar las compensaciones de razonamiento, por cierto, después de hablar con todas las empresas de LLM, el denunciante descubrió que la biblioteca de razonamiento FasterTransformer de NVIDIA es muy mala, y TensorRT lo es aún más.

Esto significa que si Nvidia no modifica, las personas deberán crear sus propias soluciones desde cero.

Hay tres ventajas y desventajas principales en el razonamiento sobre modelos de lenguaje grandes, la dimensión del tamaño del lote (cantidad de usuarios procesados simultáneamente) y la cantidad de chips utilizados, de la siguiente manera:

1. Retraso

El modelo debe responder dentro de una latencia razonable. Nadie quiere esperar unos segundos en una aplicación de chat antes de comenzar a recibir resultados. El tiempo de procesamiento para el llenado previo (tokens de entrada) y la decodificación (tokens de salida) varía.

2. Rendimiento

El modelo debe generar una cierta cantidad de tokens por segundo. Los humanos necesitan unas 30 fichas por segundo. Para varios otros casos de uso, se aceptan rendimientos tanto más bajos como más altos.

3. Tasa de utilización

El hardware que ejecuta el modelo debe lograr altas tasas de utilización, o el costo será prohibitivo. Si bien se puede usar una latencia más alta y un rendimiento más bajo para combinar más solicitudes de usuarios para lograr una mayor utilización, también aumenta la dificultad.

La clave del razonamiento LLM es equilibrar los dos puntos de ancho de banda de memoria y computación.

Requisitos teóricos de ancho de banda de LLM: se puede suponer que el tamaño máximo del modelo que se puede ejecutar en el iPhone 14 es ~1000 millones de parámetros FP16 o ~4000 millones de parámetros int4. Este es el límite básico de LLM basado en teléfonos inteligentes. no se adoptarán modelos

En pocas palabras, cada parámetro debe leerse y hay 2 FLOP asociados.

Por lo tanto, la proporción de la mayoría de los chips (el H100 SXM tiene solo un ancho de banda de memoria de 3 TB/s, pero el FP8 tiene 2000 TFLOPs/s) está completamente desequilibrada en inferencia con un tamaño de lote de 1.

Si solo hay un usuario (tamaño de lote 1), el ancho de banda de memoria requerido para leer cada parámetro cada vez que se genera un token domina el tiempo de inferencia, mientras que el tiempo de cálculo es casi insignificante.

Para escalar de forma eficaz modelos de lenguaje grandes a varios usuarios, el tamaño del lote debe ser superior a 1. Múltiples usuarios comparten el costo de leer los parámetros. Por ejemplo, con un tamaño de lote de 256/512, puede obtener 512 FLOP/s o 1024 FLOP/s por byte de lectura de memoria.

Esta relación está más cerca del equilibrio del H100 entre ancho de banda de memoria y FLOPS. Esto ayuda a lograr una mayor utilización, pero a costa de una mayor latencia.

Muchos consideran que la capacidad de la memoria es un cuello de botella importante para la inferencia LLM, ya que los modelos grandes requieren múltiples chips para la inferencia, y una mayor capacidad de memoria significa que caben en menos chips.

Sin embargo, en realidad es mejor usar más chips para que la latencia sea menor, el rendimiento aumente y se puedan usar lotes más grandes para una mayor utilización.

Compensaciones e infraestructura de inferencia de GPT-4

Como se mencionó anteriormente, es muy difícil para el razonamiento GPT-4. Pero volver a ser un mod MoE presenta un nuevo conjunto de dificultades.

Cada pase hacia adelante que genera tokens se puede enrutar a un conjunto diferente de expertos. Esto plantea un problema con el equilibrio entre el rendimiento, la latencia y la utilización en lotes de mayor tamaño.

El GPT-4 de OpenAI tiene 16 expertos, y cada pase de avance enruta a 2 de ellos.

Esto significa que si el tamaño del lote es 8, la lectura de parámetros de cada experto solo puede tener un tamaño de lote de 1.

Peor aún, esto podría significar que un experto tiene un tamaño de lote de 8 mientras que otros expertos tienen tamaños de lote de 4, 1 o 0.

Para cada token generado, el algoritmo de enrutamiento envía pases hacia adelante en diferentes direcciones, lo que provoca que los retrasos entre los tokens y los tamaños de lotes expertos varíen significativamente.

La infraestructura de inferencia es una de las principales razones por las que OpenAI eligió un número menor de expertos. Si eligen más expertos, el ancho de banda de la memoria se convierte en el cuello de botella para la inferencia.

El clúster de inferencia de OpenAI generalmente puede alcanzar un tamaño de lote de más de 4k, lo que significa que, incluso con el mejor equilibrio de carga entre expertos, el tamaño de lote de expertos es solo de unos 500 o más. Esto requiere una gran cantidad de uso para lograrlo.

Según el denunciante, nos enteramos de que OpenAI realiza inferencias en un grupo de 128 GPU. Tienen varios de estos clústeres en múltiples centros de datos y ubicaciones geográficas.

La inferencia utiliza paralelismo de tensor de 8 vías y paralelismo de tubería de 16 vías. Cada nodo que consta de 8 GPU tiene solo alrededor de 130B de parámetros, o menos de 30 GB por GPU en FP16 y menos de 15 GB en FP8/int8.

Esto permite ejecutar la inferencia en un A100 de 40 GB, siempre que el tamaño de caché de KV para todos los lotes no sea demasiado grande.

Las capas que contienen diferentes expertos en diferentes nodos no se dividen porque eso haría que el tráfico de la red fuera demasiado irregular y volver a calcular el caché KV entre cada generación de token sería demasiado costoso.

Para futuras extensiones del modelo MoE y enrutamiento condicional, la mayor dificultad es cómo manejar el enrutamiento del caché KV.

El modelo tiene 120 capas, por lo que simplemente podrían distribuirse en 15 nodos diferentes, pero dado que el primer nodo necesita cargar e incorporar datos, tiene sentido colocar menos capas en el nodo principal del clúster de inferencia.

Además, hay algunos rumores sobre la "descodificación especulativa" (a continuación), lo que también explica por qué los masternodes deben contener menos capas.

Costo de inferencia

En comparación con el modelo Davinchi con 175 mil millones de parámetros, GPT-4 cuesta 3 veces, aunque sus parámetros de avance solo aumentan 1,6 veces.

Esto se debe principalmente a que GPT-4 requiere un clúster más grande y logra una menor utilización.

Los autores creen que el costo de inferir la longitud de secuencia de 8k de GPT-4 en 128 A100 es de $0,0049 por 1000 tokens, mientras que el costo de inferir la longitud de secuencia de 8k de GPT-4 en 128 H100 es de $0,0021 por 1000 tokens.

Tenga en cuenta que esto supone una utilización bastante alta y mantiene alto el tamaño del lote.

Pero está claro que OpenAI a veces está muy infrautilizado.

En este sentido, el autor planteó la hipótesis de que OpenAI apagaría el clúster durante las horas de menor actividad, reconfiguraría los nodos, reanudaría el entrenamiento de modelos de prueba más pequeños y probaría varias tecnologías nuevas para reducir los costos de inferencia.

Si OpenAI no lo hubiera hecho, su utilización habría sido menor y sus costos se habrían más que duplicado.

Atención multiconsulta

Además, OpenAI también utiliza Atención de consultas múltiples (MQA).

Dirección en papel:

En resumen, solo se requiere un cabezal de atención y la huella de memoria de la caché KV se puede reducir significativamente.

Aun así, GPT-4 con una longitud de 32k ciertamente no puede ejecutarse en un A100 de 40GB, y hay un límite superior para el tamaño máximo de lote de 8k.

Procesamiento por lotes continuo

OpenAI implementa un tamaño de lote variable y un procesamiento por lotes continuo.

Hacerlo permite cierto grado de latencia máxima y optimiza el costo de inferencia.

Decodificación especulativa

Se reveló que OpenAI usó "descodificación especulativa" en el proceso de razonamiento de GPT-4, que aún tiene un 100% de incertidumbre.

La variación en la latencia de un token a otro, y la diferencia cuando se realizan tareas de recuperación simples frente a tareas más complejas, parece sugerir que esto es posible, aunque todavía hay demasiadas variables para estar seguros.

Aquí, el denunciante hizo las modificaciones apropiadas/agregó algunos detalles para explicar el texto en un estudio "Aceleración de la inferencia LLM con decodificación especulativa por etapas" de DeepMind.

Por lo general, hay dos fases para usar el LLM.

El primero es el relleno previo, donde el texto de la sugerencia se introduce en el modelo para generar la memoria caché KV y las probabilidades de registro (distribución de probabilidad de posibles salidas de token) de la primera salida. Este proceso suele ser rápido porque todo el texto del mensaje se puede procesar en paralelo.

La segunda etapa es la decodificación. Seleccione un token de las probabilidades logarítmicas de la salida e introdúzcalo en el modelo, que generará las probabilidades logarítmicas del siguiente token. Repita este proceso hasta que se genere la cantidad deseada de tokens.

Dado que la decodificación debe ocurrir secuencialmente, cada vez que los pesos deben transmitirse a través de la unidad informática para generar un solo token. Por lo tanto, esta segunda etapa es muy intensiva desde el punto de vista computacional (es decir, calcula FLOP/bytes de ancho de banda de memoria) cuando se ejecuta en mini lotes. Por lo tanto, la decodificación suele ser la parte más costosa de la generación autorregresiva.

Esta es la razón por la que el token de entrada es mucho más económico que el token de salida en las llamadas a la API de OpenAI.

La idea básica de la "descodificación especulativa" es usar un modelo de borrador más pequeño y rápido para decodificar múltiples tokens con anticipación y luego introducirlos en el modelo predictivo como un lote.

Si las predicciones del borrador del modelo son correctas, es decir, el modelo más grande está de acuerdo con esas predicciones, se pueden decodificar múltiples tokens usando un solo lote, lo que ahorra mucho ancho de banda de memoria y tiempo.

Sin embargo, si el modelo más grande rechaza un token predicho por el modelo preliminar, el lote restante se descarta y el algoritmo vuelve naturalmente a la decodificación estándar token por token.

La "descodificación especulativa" también puede ir acompañada de un esquema de muestreo de rechazo para tomar muestras de la distribución original. Vale la pena señalar que esto solo es útil en configuraciones de lotes pequeños donde el ancho de banda es el cuello de botella.

La decodificación especulativa, que intercambia computación por ancho de banda, es un objetivo de ingeniería de rendimiento atractivo por dos razones clave:

En primer lugar, no reduce la calidad del modelo. En segundo lugar, las mejoras de rendimiento que ofrece suelen ser ortogonales a otros enfoques, ya que su rendimiento proviene de convertir la "ejecución secuencial" en "ejecución paralela".

El método de inferencia actual es una secuencia separada de predicciones por lotes. Sin embargo, este enfoque no se adapta bien a lotes grandes o alineaciones de modelos de bajo calado.

Intuitivamente, la probabilidad de que dos modelos coincidan en secuencias de tokens contiguamente largas es exponencialmente baja, lo que implica que las ganancias de la decodificación especulativa disminuyen rápidamente a medida que aumenta la densidad aritmética.

El denunciante cree que si OpenAI usa "descodificación especulativa", solo pueden usarla en secuencias de aproximadamente 4 tokens.

Aparte, toda la conspiración sobre la castración de OpenAI, que da como resultado GPT-4 de menor calidad, puede deberse simplemente a que someten sus modelos predictivos a secuencias de baja probabilidad de modelos de "descodificación especulativa".

También se ha especulado que Bard también usa "descodificación especulativa" porque Google espera a que la secuencia completa se genere por completo antes de enviarla al usuario, pero en opinión del denunciante, esta suposición es completamente incorrecta.

Visual Multimodal

Las capacidades multimodales visuales son la parte menos impresionante de GPT-4, al menos en comparación con la investigación líder.

Por supuesto, nadie ha comercializado todavía los resultados de la investigación LLM multimodal.

El denunciante dijo que es un codificador visual independiente del codificador de texto, así como atención cruzada, la arquitectura es similar a Flamingo y se han agregado más parámetros a GPT-4 1.8T.

La capacidad multimodal de GPT-4 se ajusta con aproximadamente 2 billones de tokens después del entrenamiento previo de texto.

Se dice que en el modelo visual, OpenAI originalmente esperaba entrenar desde cero, pero debido a que no estaba lo suficientemente maduro, no tuvo más remedio que ajustar el modelo de entrenamiento de texto.

Y el modelo de próxima generación GPT-5, cuyo entrenamiento debería entrenar el modelo de visión desde cero, y poder generar imágenes, e incluso generar audio.

Uno de los propósitos principales de esta capacidad visual es permitir que los agentes autónomos lean páginas web y transcriban imágenes, videos.

Vale la pena mencionar que los datos utilizados por OpenAI para entrenar modelos multimodales incluyen: "datos conjuntos" (LaTeX/texto), capturas de pantalla de páginas web, videos de YouTube (marcos de muestreo y ejecución de Whisper para obtener subtítulos).

Un hecho interesante sobre la optimización excesiva de los LLM es que los modelos visuales tienen un costo de IO diferente al de los modelos textuales. En el modelo visual, la carga de datos IO es aproximadamente 150 veces mayor que la del modelo de texto.

El costo de IO del modelo visual es bajo

Cada token en el modelo visual es de 600 bytes y el texto es de 4 bytes/token.

Esto requiere mucho trabajo en términos de compresión de imágenes. Esto es extremadamente importante para los proveedores de hardware, ya que están optimizando el hardware dentro de 2 o 3 años en torno a los casos de uso y las proporciones de LLM.

Pueden encontrarse en un mundo donde cada modelo tiene poderosas capacidades visuales y de audio.

Pueden encontrarse mal adaptados a la arquitectura.

En general, la arquitectura definitivamente superará los modelos densos simplificados basados en texto y los modelos MoE que vemos hoy.

Referencias

Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)