Presentando el Soneto Claude 3.5

Claude head illustration ¡Hoy lanzamos Claude 3.5 Sonnet, nuestra primera versión en la próxima familia de modelos Claude 3.5! Claude 3.5 Sonnet eleva el estándar de la industria en inteligencia, superando a modelos competidores y a Claude 3 Opus en una amplia gama de evaluaciones, con la velocidad y el costo de nuestro modelo de nivel medio, Claude 3 Sonnet.

Today, we’re launching Claude 3.5 Sonnet—our first release in the forthcoming Claude 3.5 model family. Claude 3.5 Sonnet raises the industry bar for intelligence, outperforming competitor models and Claude 3 Opus on a wide range of evaluations, with the speed and cost of our mid-tier model, Claude 3 Sonnet. Claude 3.5 Sonnet ya está disponible de forma gratuita en Claude.ai y en la aplicación de Claude para iOS, mientras que los suscriptores de los planes Claude Pro y Team pueden acceder a él con límites de uso significativamente más altos. También está disponible a través de la API de Anthropic, Amazon Bedrock y Vertex AI de Google Cloud. El modelo tiene un costo de $3 por cada millón de tokens de entrada y $15 por cada millón de tokens de salida, con una ventana de contexto de 200K tokens.

Claude 3.5 Sonnet is now available for free on Claude.ai and the Claude iOS app, while Claude Pro and Team plan subscribers can access it with significantly higher rate limits. It is also available via the Anthropic API, Amazon Bedrock, and Google Cloud’s Vertex AI. The model costs $3 per million input tokens and $15 per million output tokens, with a 200K token context window. Claude 3.5 Sonnet establece nuevos puntos de referencia en la industria para el razonamiento a nivel de posgrado (GPQA), el conocimiento a nivel de pregrado (MMLU) y la competencia en codificación (HumanEval). Muestra una mejora notable en la comprensión de matices, humor e instrucciones complejas, y es excepcional en la redacción de contenido de alta calidad con un tono natural y relatable.

Claude model family Claude 3.5 Sonnet opera a doble velocidad que Claude 3 Opus. Este aumento de rendimiento, combinado con una fijación de precios rentable, hace que Claude 3.5 Sonnet sea ideal para tareas complejas como el soporte al cliente sensible al contexto y la orquestación de flujos de trabajo multi-paso.

Frontier intelligence at 2x the speed

Claude 3.5 Sonnet sets new industry benchmarks for graduate-level reasoning (GPQA), undergraduate-level knowledge (MMLU), and coding proficiency (HumanEval). It shows marked improvement in grasping nuance, humor, and complex instructions, and is exceptional at writing high-quality content with a natural, relatable tone. En una evaluación de codificación agente interna, Claude 3.5 Sonnet resolvió el 64% de los problemas, superando a Claude 3 Opus que resolvió el 38%. Nuestra evaluación prueba la capacidad del modelo para corregir un error o agregar funcionalidad a una base de código de código abierto, dada una descripción en lenguaje natural de la mejora deseada. Cuando se le instruye y se le proporcionan las herramientas relevantes, Claude 3.5 Sonnet puede escribir, editar y ejecutar código de forma independiente con razonamiento sofisticado y capacidades de resolución de problemas. Maneja las traducciones de código con facilidad, lo que lo hace particularmente efectivo para actualizar aplicaciones heredadas y migrar bases de código.

Claude 3.5 Sonnet operates at twice the speed of Claude 3 Opus. This performance boost, combined with cost-effective pricing, makes Claude 3.5 Sonnet ideal for complex tasks such as context-sensitive customer support and orchestrating multi-step workflows. Claude 3.5 Sonnet es nuestro modelo de visión más sólido hasta ahora, superando a Claude 3 Opus en puntos de referencia de visión estándar. Estas mejoras de cambio de paso son más notables para tareas que requieren razonamiento visual, como la interpretación de gráficos y diagramas. Claude 3.5 Sonnet también puede transcribir con precisión texto de imágenes imperfectas, una capacidad fundamental para el comercio minorista, la logística y los servicios financieros, donde la IA puede obtener más información de una imagen, gráfico o ilustración que solo del texto.

In an internal agentic coding evaluation, Claude 3.5 Sonnet solved 64% of problems, outperforming Claude 3 Opus which solved 38%. Our evaluation tests the model’s ability to fix a bug or add functionality to an open source codebase, given a natural language description of the desired improvement. When instructed and provided with the relevant tools, Claude 3.5 Sonnet can independently write, edit, and execute code with sophisticated reasoning and troubleshooting capabilities. It handles code translations with ease, making it particularly effective for updating legacy applications and migrating codebases. Hoy también presentamos Artefactos en Claude.ai, una nueva función que amplía cómo los usuarios pueden interactuar con Claude. Cuando un usuario le pide a Claude que genere contenido como fragmentos de código, documentos de texto o diseños de sitios web, estos Artefactos aparecen en una ventana dedicada junto a su conversación. Esto crea un espacio de trabajo dinámico donde pueden ver, editar y construir sobre las creaciones de Claude en tiempo real, integrando de manera fluida el contenido generado por IA en sus proyectos y flujos de trabajo.

Claude 3.5 Sonnet benchmarks

State-of-the-art vision

Claude 3.5 Sonnet is our strongest vision model yet, surpassing Claude 3 Opus on standard vision benchmarks. These step-change improvements are most noticeable for tasks that require visual reasoning, like interpreting charts and graphs. Claude 3.5 Sonnet can also accurately transcribe text from imperfect images—a core capability for retail, logistics, and financial services, where AI may glean more insights from an image, graphic or illustration than from text alone.

Claude 3.5 Sonnet vision evals

Artifacts—a new way to use Claude

Today, we’re also introducing Artifacts on Claude.ai, a new feature that expands how users can interact with Claude. When a user asks Claude to generate content like code snippets, text documents, or website designs, these Artifacts appear in a dedicated window alongside their conversation. This creates a dynamic workspace where they can see, edit, and build upon Claude’s creations in real-time, seamlessly integrating AI-generated content into their projects and workflows.

This preview feature marks Claude’s evolution from a conversational AI to a collaborative work environment. It’s just the beginning of a broader vision for Claude.ai, which will soon expand to support team collaboration. In the near future, teams—and eventually entire organizations—will be able to securely centralize their knowledge, documents, and ongoing work in one shared space, with Claude serving as an on-demand teammate. Esta función de vista previa marca la evolución de Claude de una IA conversacional a un entorno de trabajo colaborativo. Es solo el comienzo de una visión más amplia para Claude.ai, que pronto se expandirá para apoyar la colaboración en equipo. En un futuro cercano, los equipos, y eventualmente organizaciones enteras, podrán centralizar de forma segura sus conocimientos, documentos y trabajo en curso en un espacio compartido, con Claude actuando como un compañero bajo demanda.

Commitment to safety and privacy

Our models are subjected to rigorous testing and have been trained to reduce misuse. Despite Claude 3.5 Sonnet’s leap in intelligence, our red teaming assessments have concluded that Claude 3.5 Sonnet remains at ASL-2. More details can be found in the model card addendum. Nuestros modelos están sujetos a pruebas rigurosas y han sido entrenados para reducir el mal uso. A pesar del salto en inteligencia de Claude 3.5 Sonnet, nuestras evaluaciones de equipo rojo han concluido que Claude 3.5 Sonnet sigue en ASL-2. Se pueden encontrar más detalles en el anexo de la tarjeta del modelo.

As part of our commitment to safety and transparency, we’ve engaged with external experts to test and refine the safety mechanisms within this latest model. We recently provided Claude 3.5 Sonnet to the UK’s Artificial Intelligence Safety Institute (UK AISI) for pre-deployment safety evaluation. The UK AISI completed tests of 3.5 Sonnet and shared their results with the US AI Safety Institute (US AISI) as part of a Memorandum of Understanding, made possible by the partnership between the US and UK AISIs announced earlier this year. Como parte de nuestro compromiso con la seguridad y la transparencia, hemos colaborado con expertos externos para probar y refinar los mecanismos de seguridad dentro de este último modelo. Recientemente proporcionamos Claude 3.5 Sonnet al Instituto de Seguridad de Inteligencia Artificial del Reino Unido (UK AISI) para una evaluación de seguridad previa a la implementación. El UK AISI completó pruebas de 3.5 Sonnet y compartió sus resultados con el Instituto de Seguridad de Inteligencia Artificial de EE. UU. (US AISI) como parte de un Memorando de Entendimiento, hecho posible por la asociación entre los AISIs de EE. UU. y el Reino Unido anunciada a principios de este año.

We have integrated policy feedback from outside subject matter experts to ensure that our evaluations are robust and take into account new trends in abuse. This engagement has helped our teams scale up our ability to evaluate 3.5 Sonnet against various types of misuse. For example, we used feedback from child safety experts at Thorn to update our classifiers and fine-tune our models. Hemos integrado retroalimentación de políticas de expertos externos en la materia para asegurar que nuestras evaluaciones sean sólidas y tengan en cuenta las nuevas tendencias de abuso. Esta colaboración ha ayudado a nuestros equipos a aumentar nuestra capacidad para evaluar 3.5 Sonnet contra varios tipos de mal uso. Por ejemplo, utilizamos la retroalimentación de expertos en seguridad infantil en Thorn para actualizar nuestros clasificadores y ajustar finamente nuestros modelos.

One of the core constitutional principles that guides our AI model development is privacy. We do not train our generative models on user-submitted data unless a user gives us explicit permission to do so. To date we have not used any customer or user-submitted data to train our generative models. Uno de los principios constitucionales fundamentales que guía el desarrollo de nuestro modelo de IA es la privacidad. No entrenamos nuestros modelos generativos con datos enviados por el usuario a menos que el usuario nos dé permiso explícito para hacerlo. Hasta la fecha, no hemos utilizado ningún dato enviado por clientes o usuarios para entrenar nuestros modelos generativos.

Coming soon

Our aim is to substantially improve the tradeoff curve between intelligence, speed, and cost every few months. To complete the Claude 3.5 model family, we’ll be releasing Claude 3.5 Haiku and Claude 3.5 Opus later this year. Nuestro objetivo es mejorar sustancialmente la curva de compensación entre inteligencia, velocidad y coste cada pocos meses. Para completar la familia de modelos de Claude 3.5, lanzaremos Claude 3.5 Haiku y Claude 3.5 Opus más adelante este año.

In addition to working on our next-generation model family, we are developing new modalities and features to support more use cases for businesses, including integrations with enterprise applications. Our team is also exploring features like Memory, which will enable Claude to remember a user’s preferences and interaction history as specified, making their experience even more personalized and efficient. Además de trabajar en nuestra familia de modelos de próxima generación, estamos desarrollando nuevas modalidades y características para apoyar más casos de uso para empresas, incluidas integraciones con aplicaciones empresariales. Nuestro equipo también está explorando características como Memory, que permitirá a Claude recordar las preferencias e historial de interacción de un usuario según lo especificado, haciendo que su experiencia sea aún más personalizada y eficiente.

We’re constantly working to improve Claude and love hearing from our users. You can submit feedback on Claude 3.5 Sonnet directly in-product to inform our development roadmap and help our teams to improve your experience. As always, we look forward to seeing what you build, create, and discover with Claude. Estamos trabajando constantemente para mejorar a Claude y nos encanta recibir comentarios de nuestros usuarios. Puedes enviar comentarios sobre Claude 3.5 Sonnet directamente en el producto para informar nuestro plan de desarrollo y ayudar a nuestros equipos a mejorar tu experiencia. Como siempre, esperamos ver qué construyes, creas y descubres con Claude.