Skip to main content

Anthropic zaprezentowało 22 maja 2025 roku dwa nowe modele sztucznej inteligencji – Claude Opus 4 i Claude Sonnet 4. Nowe wersje wprowadzają funkcję rozszerzonego myślenia z użyciem zewnętrznych narzędzi oraz znacznie lepsze wyniki w testach kodowania. Claude Opus 4 osiągnął 72,5% w teście SWE-bench, przewyższając dotychczasowe modele konkurencji. Oba modele są już dostępne dla użytkowników, przy czym Sonnet 4 oferowany jest również w wersji bezpłatnej.

Claude Opus 4 i Sonnet 4 – co nowego w najnowszych modelach Anthropic

Claude Opus 4 to flagowy model Anthropic przeznaczony do najbardziej wymagających zadań programistycznych i analitycznych. Model został zaprojektowany z myślą o długotrwałych, wieloetapowych operacjach – od refaktoryzacji dużych baz kodu po koordynację złożonych procesów biznesowych. Opus 4 utrzymuje wysoką wydajność podczas wielogodzinnych sesji pracy, co potwierdzają testy przeprowadzone przez partnerów firmy.

Claude Sonnet 4 stanowi kompromis między mocą obliczeniową a szybkością działania i kosztami użytkowania. Model oferuje znaczną poprawę względem poprzedniej wersji Sonnet 3.7, szczególnie w zakresie precyzji wykonywania instrukcji i skuteczności w zadaniach programistycznych. Sonnet 4 sprawdza się zarówno jako samodzielne narzędzie do codziennych zadań deweloperskich, jak i jako część większych systemów wieloagentowych.

Oba modele wprowadzają funkcję rozszerzonego myślenia z użyciem narzędzi w wersji beta. Oznacza to, że podczas pracy nad złożonymi problemami mogą korzystać z zewnętrznych źródeł danych, takich jak wyszukiwarka internetowa, łącząc wewnętrzną logikę z aktualnymi informacjami. Dodatkowo modele potrafią jednocześnie używać kilku narzędzi, co przyspiesza realizację skomplikowanych zadań wymagających dostępu do różnych zasobów.

Nowe modele Claude 4

Wyniki testów Claude 4 – jak nowe modele radzą się z kodowaniem

W teście SWE-bench, który sprawdza umiejętność samodzielnego naprawiania rzeczywistych błędów w projektach open source, Claude Opus 4 uzyskał wynik 72,5%. Ten rezultat plasuje model na czele rankingu, wyprzedzając wszystkie dotychczasowe systemy AI dostępne na rynku. SWE-bench składa się z autentycznych problemów zgłoszonych w repozytoriach GitHub, co oznacza, że test odzwierciedla rzeczywiste wyzwania, z którymi zmagają się programiści.

Claude Sonnet 4 również osiągnął imponujące wyniki, notując 72,7% w teście SWE-bench. W przypadku Terminal-bench, który ocenia zdolność wykonywania złożonych zadań w środowisku terminala, Opus 4 uzyskał 43,2%. Te rezultaty oznaczają, że modele potrafią konkurować z doświadczonymi programistami w rozwiązywaniu praktycznych problemów kodowania.

Firmy technologiczne już testujące nowe modele raportują znaczące przyspieszenie procesów programistycznych. Cursor, Replit i Rakuten potwierdzają, że Opus 4 potrafi przez kilka godzin bez przerwy refaktorować i testować kod, utrzymując przy tym kontekst i jakość pracy. Mike Krieger z Anthropic przyznaje, że większość jego kodu obecnie pisze Opus, a różnica między kodem generowanym przez AI a pisanym ręcznie staje się coraz mniej zauważalna.

Rozszerzone myślenie i narzędzia – nowe funkcje Claude 4

Funkcja „Show thinking” pozwala użytkownikom zajrzeć do procesu rozumowania modelu podczas rozwiązywania złożonych problemów. Gdy opcja jest włączona, Claude pokazuje krok po kroku, jak analizuje zadanie, rozważa różne opcje i odrzuca niepasujące rozwiązania. Ta przezroczystość ma znaczenie nie tylko dla zrozumienia działania AI, ale także dla weryfikacji poprawności rozumowania i wykrywania potencjalnych błędów.

Podczas tego procesu myślenia Claude 4 może wstrzymać generowanie odpowiedzi, uruchomić zewnętrzne narzędzie – na przykład wyszukać informacje w internecie – a następnie włączyć znalezione dane do dalszego rozumowania. To podejście pozwala modelowi na naprzemienne stosowanie wewnętrznej logiki i aktualnych informacji z zewnętrznych źródeł, co znacznie podnosi jakość końcowych odpowiedzi.

Gdy użytkownicy przyznają Claude 4 dostęp do lokalnych plików, model buduje i aktualizuje własne pliki pamięci zawierające informacje o preferencjach użytkownika, stylu pracy i wcześniejszych projektach. Ta funkcja eliminuje konieczność ciągłego przypominania kontekstu i pozwala na budowanie długoterminowej współpracy. Model pamięta ulubione biblioteki programistyczne, wzorce kodowania i specyficzne wymagania projektów.

Claude Code, narzędzie do współpracy z programistami, zostało zintegrowane z popularnymi środowiskami pracy, takimi jak VS Code, JetBrains oraz GitHub Actions. Sonnet 4 został wybrany jako domyślny model dla GitHub Copilot, co oznacza dostęp do zaawansowanych funkcji AI dla milionów programistów bez konieczności zmiany dotychczasowych narzędzi pracy.

Ceny Claude 4 i dostępność – ile kosztuje korzystanie z nowych modeli

Claude Opus 4 kosztuje 15 dolarów za milion tokenów wejściowych i 75 dolarów za milion tokenów wyjściowych. Dla porównania: milion tokenów wejściowych odpowiada około 750 tysiącom słów – to objętość porównywalna z całą sagą „Harry Potter”. Claude Sonnet 4 jest znacznie tańszy – 3 dolary za milion tokenów wejściowych i 15 dolarów za wyjściowe.

Sonnet 4 dostępny jest również w wersji bezpłatnej dla wszystkich użytkowników, natomiast Opus 4 pozostaje dostępny wyłącznie dla subskrybentów płatnych planów. Ceny pozostały na poziomie poprzednich generacji modeli, co oznacza, że użytkownicy otrzymują znacznie większą funkcjonalność za te same pieniądze.

Oba modele są dostępne przez Anthropic API, Amazon Bedrock oraz Google Cloud Vertex AI. Użytkownicy mogą również korzystać z nich poprzez subskrypcje Claude Pro, Max, Team i Enterprise. Dla firm analiza kosztów pokazuje konkurencyjność cennika, choć Google Gemini Pro 2.5 nadal oferuje niższe stawki przy zbliżonej liczbie tokenów kontekstowych.

Dostęp do Claude 4 przez popularne platformy oznacza, że zespoły programistyczne mogą łatwo zintegrować nowe modele z istniejącymi procesami pracy. Nie ma konieczności zmiany infrastruktury – wystarczy aktualizacja modelu w używanej już platformie chmurowej.

Artykuł był pomocny? Oceń go!

Kliknij w gwiazdkę, aby ocenić!

Średnia ocena 5 / 5. Ilość ocen 4

Brak ocen! Oceń artykuł jako pierwszy