
Dan Patiño
AI Strategy & Innovation en Coderhouse
Inteligencia Artificial
Qué es un token en IA: cómo se calcula, cuánto cuestan las APIs de OpenAI, Anthropic y Google, y cómo optimizar
Publicado el
Cuando integrás una API de IA en un proyecto y llega la primera factura, la primera pregunta suele ser la misma: ¿qué es exactamente un token y por qué me cobran por ellos? Los tokens son la unidad de medida sobre la que funcionan los modelos de lenguaje, y entender cómo se cuentan y cuánto cuestan es clave para construir aplicaciones de IA escalables sin sorpresas en el costo.
¿Qué es un token en los modelos de lenguaje?
Un token no es exactamente una palabra, aunque se parecen bastante. Los modelos de lenguaje procesan el texto dividiéndolo en fragmentos llamados tokens, que pueden ser palabras completas, partes de palabras o incluso signos de puntuación.
Como regla general, en inglés 1 token equivale aproximadamente a 0,75 palabras, o 4 caracteres. En español, por su morfología más compleja, la relación puede ser ligeramente distinta: una palabra larga como "implementación" puede contar como 3 o 4 tokens dependiendo del modelo.
Por ejemplo, la frase "Hola, ¿cómo estás?" puede tokenizarse de formas distintas según el modelo. OpenAI ofrece su herramienta Tokenizer para explorar cómo cualquier texto se divide en tokens antes de enviarse al modelo.
¿Por qué cada modelo cuenta diferente?
Cada familia de modelos usa su propio tokenizador, un algoritmo entrenado para dividir el texto de la manera más eficiente posible. OpenAI usa cl100k_base para GPT-4 y versiones posteriores; Anthropic usa un tokenizador propio para Claude; Google tiene el suyo para Gemini.
Esto significa que el mismo texto puede consumir distinta cantidad de tokens dependiendo del modelo que uses. Para proyectos a escala, esta diferencia puede impactar significativamente en los costos finales.
Tabla de precios por millón de tokens: GPT-5.5, Claude y Gemini
A mayo de 2026, los precios por millón de tokens de los principales modelos comerciales son aproximadamente:
Modelo | Input (por 1M tokens) | Output (por 1M tokens) | Contexto máximo |
|---|---|---|---|
GPT-5.5 Instant (OpenAI) | USD 2,50 | USD 10,00 | 128K tokens |
Claude Opus 4 (Anthropic) | USD 15,00 | USD 75,00 | 200K tokens |
Gemini 2.5 Pro (Google) | USD 1,25 | USD 5,00 | 1M tokens |
Los tokens de input son los que enviás al modelo (tu prompt, el historial de conversación, documentos de contexto). Los de output son los que el modelo genera como respuesta. En aplicaciones con conversaciones largas o RAG, el input suele dominar el costo.
Cómo calcular el costo de un proyecto de IA
Para estimar el costo de una aplicación, necesitás calcular cuántos tokens consume cada interacción promedio, tanto de entrada como de salida, multiplicarlo por el precio del modelo y proyectarlo al volumen esperado de uso.
Por ejemplo: si tenés un chatbot que envía prompts de 500 tokens (incluyendo el system prompt) y recibe respuestas de 300 tokens, cada interacción consume ~800 tokens totales. Con GPT-5.5 Instant a USD 2,50/M de input y USD 10/M de output, el costo por interacción sería aproximadamente USD 0,00425. Con 10.000 interacciones diarias, el costo mensual sería ~USD 1.275.
Estrategias para reducir costos optimizando el uso de tokens
Reducir el consumo de tokens no siempre significa recortar calidad. Hay varias técnicas que permiten optimizar sin degradar los resultados:
Comprimir el system prompt: eliminar instrucciones redundantes y ser preciso. Un system prompt de 200 tokens en lugar de 500 puede reducir el costo por interacción casi a la mitad.
Truncar el historial de conversación: en vez de enviar toda la conversación, mantener solo los últimos N turnos o usar un resumen de lo anterior.
Elegir el modelo correcto para cada tarea: no todas las tareas requieren el modelo más potente. Para clasificaciones simples o resúmenes cortos, un modelo más económico puede ser suficiente.
Gestionar bien la ventana de contexto en RAG: recuperar solo los fragmentos más relevantes, no toda la base de conocimiento.
Si te interesa profundizar en cómo funcionan las técnicas de personalización de modelos como RAG y fine-tuning, podés leer nuestro artículo sobre fine-tuning, RAG y prompt engineering: cómo elegir la técnica correcta.
Cursos recomendados de Coderhouse
Dominar el modelo de costos de las APIs de IA es parte de la formación de cualquier developer que trabaje con LLMs en producción:
Curso de Introducción a la Inteligencia Artificial (nivel inicial): para entender cómo funcionan los modelos de lenguaje, incluyendo conceptos como tokenización y ventana de contexto.
Curso de AI Agents (nivel intermedio): donde aprendés a construir aplicaciones con APIs de IA, optimizando prompts y flujos de contexto para mantener costos bajos.
Curso de AI Engineering (nivel avanzado): para implementar pipelines de producción con control total sobre el consumo de tokens, evaluación de modelos y optimización de costos a escala.
Preguntas frecuentes
¿Los tokens de entrada y salida cuestan lo mismo?
No. En todos los modelos principales, los tokens de salida (output) cuestan más que los de entrada (input). Esto se debe a que generar texto requiere más cómputo que procesarlo. Por eso, controlar la longitud de las respuestas del modelo es una de las formas más efectivas de reducir costos.
¿Cómo puedo saber cuántos tokens usa mi aplicación?
La mayoría de las APIs devuelven el consumo de tokens en cada respuesta (generalmente en el objeto usage). También podés usar las herramientas de tokenización oficiales de cada proveedor para estimar el costo antes de hacer la llamada.
¿Los tokens se acumulan en una conversación?
Sí. En aplicaciones conversacionales, cada vez que enviás un mensaje, el modelo recibe el historial completo de la conversación más el nuevo mensaje. Esto significa que a medida que la conversación avanza, el costo por interacción crece. Gestionar el historial (truncarlo o resumirlo) es esencial para controlar costos en chatbots de uso intensivo.
¿Existe algún límite de tokens por llamada?
Sí, cada modelo tiene un límite de contexto máximo: la cantidad total de tokens que puede procesar en una sola llamada (input + output combinados). GPT-5.5 Instant tiene 128K tokens, Claude Opus tiene 200K y Gemini 2.5 Pro llega al millón. Superar este límite genera un error, así que hay que diseñar las aplicaciones teniendo en cuenta este tope.
¿Vale la pena usar modelos más baratos para reducir costos?
Depende de la tarea. Para casos de uso simples como clasificación de texto, extracción de datos estructurados o respuestas cortas predecibles, un modelo más económico puede funcionar perfectamente. Para razonamiento complejo, generación de código avanzado o análisis de documentos largos, los modelos flagship siguen siendo los más confiables.

Sobre el autor
Soy Dan Patiño, responsable de AI Strategy & Innovation en Coderhouse. Mi día a día consiste en fusionar la gestión táctica del e-commerce (CRO, Email Marketing y SEO) con el desarrollo de soluciones disruptivas. Me especializo en crear apps internas con IA para automatizar tareas y potenciar la innovación dentro del equipo. Creo fielmente que la tecnología es el mejor aliado de la estrategia. Para profundizar en mi recorrido profesional, te espero en mi perfil de LinkedIn.
