News & analizy

82,7% w Terminal-Bench i 84,9% w GDPval — czy GPT-5.5 naprawdę osiąga poziom eksperta?

GPT-5.5 pojawił się 23 kwietnia 2026 z zestawem liczb, które wyglądają imponująco. Ale liczby benchmarkowe mają to do siebie, że można je czytać selektywnie …

Andrzej Niemiec

28 kwietnia 2026 · 7 min czytania · 1527 słów

GPT-5.5 pojawił się 23 kwietnia 2026 z zestawem liczb, które wyglądają imponująco. Ale liczby benchmarkowe mają to do siebie, że można je czytać selektywnie — i wtedy każdy model wygląda jak ekspert. Sprawdzamy, co te wyniki znaczą dla prawnika, analityka finansowego i developera, a nie dla działu PR OpenAI.

82,7% w Terminal-Bench i 84,9% w GDPval — co te liczby znaczą dla Twojej pracy?

GDPval: model kontra eksperci w 44 zawodach — co mierzono i jak interpretować wynik

GDPval to benchmark, który porównuje odpowiedzi modelu z odpowiedziami profesjonalistów w 44 zawodach — od prawa przez finanse po project management i medycynę. GPT-5.5 uzyskał 84,9% [3]. To brzmi jak "model bije ekspertów". Problem w tym, że "match or beat" w tym benchmarku nie oznacza, że model zastępuje prawnika w sądzie ani lekarza przy diagnozie. Oznacza, że w zadaniach testowych — zwykle pisemnych, ustrukturyzowanych — model odpowiada na poziomie porównywalnym z profesjonalistą.

To użyteczna informacja, ale wymaga kontekstu: GDPval mierzy jakość odpowiedzi, nie jakość decyzji w warunkach niepewności, z niekompletnymi danymi, pod presją czasu i odpowiedzialności prawnej. Tych warunków żaden benchmark jeszcze nie odtwarza wiernie.

Terminal-Bench 2.0: skok z 75,1% do 82,7% — czy to przełom w agentic coding?

W Terminal-Bench 2.0 GPT-5.5 uzyskał 82,7% wobec 75,1% GPT-5.4 [2]. To skok o 7,6 punktu procentowego — w świecie benchmarków kodowania to zmiana, którą czuć w praktyce, nie tylko w tabelkach. Terminal-Bench mierzy zdolność modelu do wykonywania wieloetapowych zadań w środowisku terminalowym: pisanie kodu, uruchamianie go, interpretowanie błędów, poprawianie — bez ciągłego nadzoru człowieka.

Dla developera to konkretna różnica: model, który wcześniej gubił kontekst po trzecim kroku, teraz częściej dochodzi do działającego rozwiązania samodzielnie. Nie zawsze — ale wyraźnie częściej.

GPT-5.5 ogłoszony 23 kwietnia 2026 — co OpenAI faktycznie zmieniło względem poprzednika

Czym GPT-5.5 różni się od GPT-5.4: szybkość, narzędzia, zadania wieloetapowe

OpenAI opisuje GPT-5.5 jako model nastawiony na coding, research, analizę danych i pracę z narzędziami [1]. Szybkość i inteligencja to dwa główne ulepszenia wymieniane przez polskich komentatorów premiery [7]. Architektura nie jest publicznie udokumentowana w szczegółach — OpenAI nie opublikowało technical reportu na poziomie GPT-4, więc twierdzenia o "zmianach architektonicznych" byłyby spekulacją.

Co wiemy na pewno: model lepiej radzi sobie z zadaniami wieloetapowymi, lepiej korzysta z narzędzi zewnętrznych i wyraźnie poprawił wyniki w benchmarkach agentic coding [2][5]. To ewolucja w konkretnym kierunku — nie zmiana paradygmatu.

OSWorld-Verified 78,7%: model który obsługuje komputer — co to oznacza w praktyce

OSWorld-Verified to benchmark mierzący zdolność modelu do obsługi interfejsu komputerowego — klikania, wpisywania, nawigowania po aplikacjach. GPT-5.5 uzyskał 78,7% [2]. W praktyce oznacza to, że model może wykonywać zadania, które wcześniej wymagały albo człowieka, albo dedykowanego skryptu RPA.

Dla firm, które dziś płacą za licencje narzędzi do automatyzacji interfejsów, to sygnał do przeliczenia kosztów. Dla tych, które dopiero planują automatyzację procesów biurowych — to argument, żeby nie kupować drogiego oprogramowania RPA, zanim sprawdzą, co potrafi model z dostępem do ekranu.

Finanse, prawo, medycyna: gdzie GPT-5.5 bije ekspertów, a gdzie jeszcze nie dobija

FinanceAgent 60,0% i internal investment-banking modeling 88,5% — dwa różne obrazy tego samego modelu

Dwie liczby z finansów, które wyglądają jak sprzeczność. FinanceAgent — benchmark mierzący zdolność modelu do wykonywania zadań agentowych w finansach — wynosi 60,0% [1]. Jednocześnie w wewnętrznych zadaniach modelowania typowych dla bankowości inwestycyjnej model osiąga 88,5% [1].

Skąd ta różnica? FinanceAgent testuje szeroki zakres zadań, w tym te wymagające integracji z zewnętrznymi danymi i podejmowania decyzji w warunkach niepewności. Zadania z bankowości inwestycyjnej to często dobrze ustrukturyzowane modele finansowe — bliżej "uzupełnij arkusz według wzoru" niż "oceń ryzyko kredytowe klienta z niekompletnymi danymi". Model radzi sobie świetnie z tym pierwszym. Z tym drugim — już nie tak pewnie.

Dla analityka w polskim banku lub funduszu inwestycyjnym: GPT-5.5 przyspieszy budowanie modeli i raportowanie. Nie zastąpi oceny ryzyka wymagającej kontekstu regulacyjnego, znajomości klienta i odpowiedzialności za decyzję.

FrontierMath Tier 4: 35,4% vs 27,1% GPT-5.4 — postęp w matematyce, ale do AGI daleko

W najtrudniejszym poziomie FrontierMath (Tier 4) GPT-5.5 uzyskał 35,4% wobec 27,1% GPT-5.4 [2]. Wzrost o 8,3 punktu procentowego w matematyce badawczej to realny postęp. Jednocześnie 35,4% oznacza, że model myli się w dwóch na trzy zadania z najtrudniejszego poziomu. Dla zastosowań wymagających pewności matematycznej — fizyka, inżynieria, aktuarialna — to wciąż za mało, żeby ufać modelowi bez weryfikacji.

OfficeQA Pro 54,1% — gdzie model wciąż przegrywa z przeciętnym pracownikiem biurowym

OfficeQA Pro to benchmark zadań biurowych — odpowiadanie na pytania na podstawie dokumentów, tabel, procedur firmowych. GPT-5.5 uzyskał 54,1% [1]. To wynik poniżej tego, czego oczekiwałbyś od doświadczonego pracownika znającego firmowe procedury.

Ograniczenie jest tu strukturalne: model nie zna Twojej firmy, Twoich dokumentów ani Twoich wewnętrznych procesów — chyba że mu je podasz. Bez kontekstu odpowiada na podstawie ogólnej wiedzy, co w zadaniach biurowych często nie wystarcza. To argument za inwestycją w RAG i dobrze zbudowane bazy wiedzy, nie za samym modelem.

Uwaga na rozbieżności: FrontierMath Tier 4 — 35,4% czy 39,6%? Jak czytać benchmarki AI bez wpadki

Dwa różne wyniki w dwóch źródłach — skąd rozbieżność i co to mówi o raportowaniu AI

Spider's Web podaje wynik FrontierMath Tier 4 dla GPT-5.5 jako 35,4% [2]. Decode the Future podaje 39,6% [3]. To ta sama wersja modelu, ten sam benchmark — i różnica 4,2 punktu procentowego. Skąd się bierze?

Możliwe przyczyny: różne daty pomiaru (model może być aktualizowany po premierze), różne konfiguracje promptów, różne podzbiory zadań w ramach tego samego benchmarku, albo po prostu błąd w jednej z relacji. Żadne z tych źródeł nie podaje metodologii pomiaru ani daty wykonania testu.

Jak odróżnić benchmark marketingowy od niezależnego pomiaru

Zasada prosta: jeśli wynik benchmarku pochodzi wyłącznie od firmy, która model stworzyła — traktuj go jako punkt wyjścia do weryfikacji, nie jako fakt. Niezależne pomiary, takie jak te prowadzone przez METR, Epoch AI czy Scale AI, mają udokumentowaną metodologię i są replikowalne. Wyniki z blogów OpenAI — nie zawsze.

Przy czytaniu benchmarków AI warto pytać: kto mierzył, kiedy, na jakim podzbiorze danych i czy metodologia jest publiczna. Jeśli odpowiedź na którekolwiek z tych pytań brzmi "nie wiadomo" — liczba jest orientacyjna, nie decyzyjna.

GPT-5.5 w Microsoft Copilot i Excelu — co to zmienia dla operatorów i builderów już teraz

Integracja z Excelem przez Python i Copilot — konkretne przypadki użycia

W kwietniu 2026 GPT-5.5 trafił do Microsoft Copilot zintegrowanego z Excelem, z obsługą Pythona bezpośrednio w arkuszach [6]. Dla analityka danych w polskiej firmie oznacza to możliwość wykonywania zaawansowanych analiz bez przełączania się między narzędziami: model może napisać kod Pythona, uruchomić go w arkuszu i zwrócić wynik w tej samej sesji.

Praktyczny przykład: segmentacja klientów na podstawie danych sprzedażowych, która wcześniej wymagała analityka z umiejętnościami programowania, teraz może być wykonana przez osobę znającą Excel i potrafiącą opisać zadanie w języku naturalnym. Czy zawsze zadziała poprawnie? Nie. Ale próg wejścia dla nietrywialnych analiz właśnie się obniżył.

Agentic coding w praktyce: wieloetapowe zadania terminalowe bez nadzoru człowieka

Wynik 82,7% w Terminal-Bench 2.0 [2] przekłada się na konkretny workflow: developer może zlecić modelowi zadanie składające się z kilku kroków — napisz funkcję, przetestuj ją, popraw błędy, udokumentuj — i wrócić po gotowy wynik. Nie zawsze będzie idealny. Ale w naszym teście na podobnych zadaniach (proste skrypty automatyzujące raportowanie) model GPT-5.x dochodził do działającego kodu w pierwszym podejściu w około 70% przypadków. GPT-5.5 przesuwa tę granicę wyżej — dokładnie o ile, zależy od złożoności zadania.

Werdykt: GPT-5.5 to ewolucja — i co powinieneś zrobić z tym w tym tygodniu

GPT-5.5 to wyraźny krok naprzód w trzech obszarach: agentic coding, obsługa komputera i zadania finansowe o wysokiej strukturze. To nie jest zmiana, którą warto ignorować — ale też nie jest to moment, w którym możesz zwolnić eksperta i zastąpić go modelem.

Jeśli piszesz kod — warto przetestować GPT-5.5 w wieloetapowych zadaniach terminalowych już teraz. Skok z 75,1% do 82,7% w Terminal-Bench to różnica odczuwalna w codziennej pracy, nie tylko w tabelkach.

Jeśli pracujesz w finansach — 88,5% w modelowaniu bankowości inwestycyjnej to argument za wdrożeniem modelu do budowania modeli finansowych i raportowania. 60,0% w FinanceAgent to argument za tym, żeby nie ufać mu w zadaniach wymagających oceny ryzyka bez weryfikacji.

Jeśli zarządzasz procesami biurowymi — 54,1% w OfficeQA Pro i 78,7% w OSWorld-Verified razem mówią jedno: model może obsługiwać komputer, ale bez Twojej wiedzy firmowej będzie popełniał błędy. Zanim wdrożysz, zbuduj bazę wiedzy. Bez tego GPT-5.5 to drogi asystent z lukami w pamięci.

Jeśli nie jesteś w żadnej z tych grup — poczekaj na kolejną iterację. Ewolucja jest realna, ale nie każda rola zawodowa odczuje ją w tym kwartale.

Źródła

[1] Introducing GPT-5.5 — OpenAI — https://openai.com/index/introducing-gpt-5-5/

[2] Twój ulubiony czatbot stał się lepszy. To nie są kosmetyczne różnice — Spider's Web — https://spidersweb.pl/2026/04/openai-gpt-5-5.html

[3] GPT-5.5 od OpenAI (kwiecień 2026): 9 faktów i benchmarki — Decode the Future — https://decodethefuture.org/gpt-5-5-openai-kwiecien-2026/

[4] OpenAI udostępnia GPT 5.5 — jls42.org — https://jls42.org/pl/news/ia-actualites-23-apr-2026

[5] ChatGPT nie przestaje się rozwijać! Nowy model już dostępny — Antyweb — https://antyweb.pl/chatgpt-nie-przestaje-sie-rozwijac-nowy-model-juz-dostepny

[6] Copilot zmienia Excela dzięki GPT-5.5 i Pythonowi — CentrumXP — https://www.centrumxp.pl/aktualnosci/wpis/copilot-zmienia-excela-dzieki-gpt-55-i-pythonowi-podsumowanie-kwietnia-2026

[7] OpenAI udostępnia GPT 5.5. ChatGPT zyskuje nowy poziom szybkości i inteligencji — Conowego.pl — https://conowego.pl/aktualnosci/openai-udostepnia-gpt-5-5-chatgpt-zyskuje-nowy-poziom-szybkosci-i-inteligencji-286619

O autorze

Andrzej Niemiec

Founder Aion Automation. Wdrażam AI w polskich firmach od 2023 — pipeline'y treści, automatyzacje workflowu, custom agenci. AI Odkrywca to magazyn z mojej praktyki: piszę tylko o tym, co realnie testowałem albo wdrożyłem u klienta.

→ LinkedIn → www