News
Praktyczne zastosowaniaTwoje testy przechodzą, a agent i tak robi głupoty — dlaczego klasyczne QA tu nie działa i co z tym zrobićPraktyczne zastosowaniaAgentic workflow w produkcji: kiedy gotowy control plane wystarczy, a kiedy musisz budować własnyPraktyczne zastosowania95% pilotaży AI nie trafia do produkcji — i nie chodzi o kodPraktyczne zastosowaniaLLM jako selektor akcji: dlaczego 72% to pułap, którego nie przeskoczysz bez zmiany architekturyPraktyczne zastosowaniaKiedy jeden provider LLM zaczyna kosztować więcej niż cały zespółPraktyczne zastosowaniaRachunek 4x wyższy niż zakładałeś: kiedy bezpośrednie SDK przestaje wystarczać w agentach AIPraktyczne zastosowaniaTwój scraper spala tokeny na menu nawigacyjnym. Oto co zrobić zamiast tegoPraktyczne zastosowaniaTwój agent AI właśnie przeczytał stronę, która go okłamała — i nie wie o tymPraktyczne zastosowaniaTwoje testy przechodzą, a agent i tak robi głupoty — dlaczego klasyczne QA tu nie działa i co z tym zrobićPraktyczne zastosowaniaAgentic workflow w produkcji: kiedy gotowy control plane wystarczy, a kiedy musisz budować własnyPraktyczne zastosowania95% pilotaży AI nie trafia do produkcji — i nie chodzi o kodPraktyczne zastosowaniaLLM jako selektor akcji: dlaczego 72% to pułap, którego nie przeskoczysz bez zmiany architekturyPraktyczne zastosowaniaKiedy jeden provider LLM zaczyna kosztować więcej niż cały zespółPraktyczne zastosowaniaRachunek 4x wyższy niż zakładałeś: kiedy bezpośrednie SDK przestaje wystarczać w agentach AIPraktyczne zastosowaniaTwój scraper spala tokeny na menu nawigacyjnym. Oto co zrobić zamiast tegoPraktyczne zastosowaniaTwój agent AI właśnie przeczytał stronę, która go okłamała — i nie wie o tym
Nemotron wygrał. Nie był to wyrównany wyścig — co mówi benchmark 39 zadań na klasie 4B
Narzędzia AI

Nemotron wygrał. Nie był to wyrównany wyścig — co mówi benchmark 39 zadań na klasie 4B

Pięć modeli, jeden MacBook, 39 zadań z finansów, logiki i kodu. Wynik? NVIDIA Nemotron-3 Nano 4B zostawił konkurencję za sobą — i to na sprzęcie, który kupis…

AN
Andrzej Niemiec
28 kwietnia 2026 · 8 min czytania · 1639 słów

Pięć modeli, jeden MacBook, 39 zadań z finansów, logiki i kodu. Wynik? NVIDIA Nemotron-3 Nano 4B zostawił konkurencję za sobą — i to na sprzęcie, który kupisz w każdym salonie Apple. Jeśli zastanawiasz się, czy klasa 4B to jeszcze kompromis czy już realna opcja wdrożeniowa, masz odpowiedź.

39 zadań, 5 modeli, jeden laptop — tak wygląda prawdziwy test małych LLM w 2026

Dlaczego community benchmark na M3 Pro mówi więcej niż papierowe tabelki

Oficjalne leaderboardy mierzą modele w warunkach, których nie odtworzysz w swojej firmie. Kontrolowane klastry GPU, specyficzne wersje bibliotek, zadania dobrane pod kątem marketingowej narracji — to wszystko sprawia, że wyniki z papierowych tabel rzadko przekładają się na to, co widzisz po uruchomieniu modelu lokalnie.

Community benchmark opublikowany na r/LocalLLaMA [2] działa inaczej. Autor uruchomił pięć modeli na MacBooku M3 Pro z 18 GB RAM — sprzęcie dostępnym dla każdego polskiego programisty czy analityka pracującego zdalnie. Każda para model×zadanie była testowana trzy razy, wynik agregowany medianą. Parametry: temperatura 0, seed 42, max_tokens 1024. To warunki, które możesz odtworzyć dziś po południu.

Metodologia: finanse, reasoning, kod — trzy wymiary, które mają sens biznesowy

39 zadań podzielono na trzy kategorie: 15 zadań finansowych (P/E, NPV, CAGR, wskaźnik Sharpe'a), 15 zadań z rozumowania (zadania słowne, sylogizmy, rachunek prawdopodobieństwa) i 9 zadań z kodowania na poziomie FizzBuzz i wyżej [2]. To nie są akademickie abstrakcje — to dokładnie te typy problemów, które pojawiają się w codziennej pracy analityka finansowego, kontrolera czy juniora piszącego skrypty automatyzujące raporty.

Warto zestawić to z recenzowanymi benchmarkami akademickimi, które stosują metodologię niemożliwą do odtworzenia poza laboratorium [4]. Community test ma swoje ograniczenia — o tym za chwilę — ale jego siłą jest właśnie odtwarzalność na realnym sprzęcie.

Pięć modeli klasy 4B, które liczą się w 2026 roku

Gemma 4 E4B (Google, kwiecień 2026) — 9,6 GB na dysku, architektura Effective 4B

Google ogłosiło Gemma 4 w czterech rozmiarach: E2B, E4B, 26B MoE i 31B Dense [1]. Wariant E4B to architektura "Effective 4B" — liczba aktywnych parametrów odpowiada klasie 4B przy danym koszcie obliczeniowym, co oznacza, że model może być fizycznie większy, ale obliczeniowo zachowuje się jak 4B. Na dysku zajmuje 9,6 GB, co czyni go najcięższym modelem w tym zestawieniu [2].

Google projektowało E4B z myślą o generacji kodu i agentowych workflow [1]. Czy to przekłada się na wyniki w benchmarku? Nie tak bardzo, jak można by oczekiwać.

Qwen 3.5 4B, Granite 4 3B, Nemotron-3 Nano 4B, Phi-4 Mini — kto stoi za każdym modelem

Reszta stawki to: Qwen 3.5 4B od Alibaby (3,4 GB, marzec 2026), Granite 4 3B od IBM (2,1 GB, październik 2025), Nemotron-3 Nano 4B od NVIDIA (2,8 GB, marzec 2026) i Phi-4 Mini od Microsoft (2,5 GB, koniec 2024) [2]. Rozpiętość rozmiarów na dysku jest znacząca: od 2,1 GB dla Granite do 9,6 GB dla Gemmy — przy podobnej klasie parametrów. To ma bezpośrednie przełożenie na wymagania sprzętowe i czas ładowania modelu.

IBM Granite to jedyny model z tej piątki, który pochodzi od firmy z silną obecnością w polskim segmencie enterprise. Dla działów IT w dużych polskich organizacjach może to mieć znaczenie przy negocjacjach wsparcia i SLA.

Nemotron-3 Nano wygrał i to nie był wyrównany wyścig — co mówią liczby

Wyniki w finansach — gdzie modele się mylą najczęściej

Autor benchmarku określił wynik Nemotrona jednoznacznie: "won and it's not close" [2]. Zadania finansowe — obliczenia P/E, NPV, CAGR i wskaźnika Sharpe'a — to obszar, gdzie modele klasy 4B tradycyjnie się potykają. Wielokrokowe obliczenia wymagają precyzji w śledzeniu pośrednich wyników, a przy temperaturze 0 i ograniczeniu do 1024 tokenów nie ma miejsca na błądzenie.

Nemotron-3 Nano 4B radził sobie z tymi zadaniami lepiej niż pozostałe cztery modele. Szczegółowe wyniki punktowe nie zostały opublikowane w formie tabelarycznej w źródle [2], ale autor jednoznacznie wskazuje dystans do reszty stawki — nie była to różnica jednego punktu procentowego.

Reasoning i kod: sylogizmy, zadania słowne, FizzBuzz-tier — kto trzyma poziom

W kategorii reasoning — sylogizmy, zadania słowne, rachunek prawdopodobieństwa — Nemotron utrzymał przewagę. Zadania z kodowania na poziomie FizzBuzz i wyżej to z kolei obszar, gdzie Gemma 4 E4B, projektowana pod generację kodu [1], powinna błyszczeć. Wyniki benchmarku pokazują, że architektoniczne obietnice nie zawsze przekładają się na praktyczną przewagę w konkretnym zestawie zadań.

Ważna uwaga metodologiczna: autor przyznał, że w poprzednim benchmarku modeli 7–8B popełnił błąd, dając modelom thinking budget zaledwie 128 tokenów [2]. To uczciwe przyznanie się do błędu, które podnosi wiarygodność obecnego testu — ale jednocześnie przypomina, że każdy community benchmark ma swoje ślepe plamki.

Klasa 4B kontra modele 7–8B: kiedy mniejszy model jest wystarczająco dobry

Koszt wnioskowania a jakość odpowiedzi — gdzie leży punkt przełamania

Poprzedni benchmark autora dotyczył modeli 7–8B (specjaliści kontra generaliści) [2]. Klasa 4B to o połowę mniej parametrów, co przekłada się bezpośrednio na szybkość wnioskowania i wymagania pamięciowe. Na MacBooku M3 Pro z 18 GB RAM możesz uruchomić model 4B i mieć jeszcze zasoby na inne procesy. Model 7–8B zaczyna już mocno obciążać ten sprzęt.

Dla polskiej firmy wdrażającej lokalny model na stacji roboczej pracownika — bez dedykowanego serwera GPU — różnica między 2,8 GB a 7+ GB na dysku i odpowiadające jej wymagania RAM to często różnica między wdrożeniem a brakiem wdrożenia. Koszt MacBooka M3 Pro to wydatek rzędu 10 000–13 000 PLN. Serwer z GPU klasy A100 to zupełnie inna liga budżetowa.

Lokalne wdrożenie na 18 GB RAM: co to oznacza dla prywatności danych i TCO

Modele uruchamiane lokalnie nie wysyłają danych do zewnętrznych serwerów. Dla firm przetwarzających dane objęte RODO, tajemnicą handlową lub regulacjami sektorowymi (np. kancelarie prawne, biura rachunkowe, firmy medtech) to argument, który nie wymaga uzasadnienia — dane zostają na urządzeniu.

Całkowity koszt posiadania (TCO) lokalnego modelu 4B to koszt sprzętu plus czas konfiguracji. Brak opłat za API, brak limitów zapytań, brak ryzyka zmiany cennika przez dostawcę. To szczególnie istotne dla JDG i małych sp. z o.o., które nie mogą sobie pozwolić na nieprzewidywalne koszty operacyjne.

Open-weight nie znaczy open-source — co musisz sprawdzić przed wdrożeniem

Licencje Gemma 4, Granite 4, Phi-4 Mini: różnice, które mają znaczenie prawne

Wszystkie pięć modeli z benchmarku to modele open-weight [1][2] — ale "open-weight" to nie to samo co "open-source" i nie to samo co "możesz używać komercyjnie bez ograniczeń". Gemma 4 jest open-weight z naciskiem na zastosowania developerskie [1], ale licencja Google zawiera ograniczenia dotyczące m.in. liczby użytkowników i zastosowań konkurencyjnych wobec usług Google.

Granite 4 od IBM i Phi-4 Mini od Microsoft mają własne warunki licencyjne, które różnią się w szczegółach dotyczących użytku komercyjnego, redystrybucji i modyfikacji. Przed wdrożeniem w polskiej firmie — szczególnie jeśli budujesz produkt lub usługę na bazie modelu — musisz przeczytać licencję, a nie tylko nagłówek "open-weight". W razie wątpliwości: radca prawny, nie blog technologiczny.

Porównanie z publicznymi leaderboardami — jak czytać rozbieżności

LLM-Stats porównuje ponad 300 modeli AI [3], w tym modele open-weight klasy 3–5B. Wyniki z community benchmarku na M3 Pro mogą się różnić od pozycji tych samych modeli na oficjalnych leaderboardach — i to jest normalne. Różne zestawy zadań, różny sprzęt, różne wersje modeli. Community benchmark mierzy konkretne zastosowanie na konkretnym sprzęcie. Leaderboard mierzy coś innego.

Jeśli Nemotron-3 Nano 4B wygrywa w zadaniach finansowych i reasoning na M3 Pro, ale na HF Open LLM Leaderboard plasuje się niżej niż Gemma 4 E4B — obie informacje mogą być prawdziwe jednocześnie. Pytanie, które z nich jest bliższe twojemu przypadkowi użycia.

Który model 4B wybrać do swojego projektu — werdykt i lista kontrolna

Trzy scenariusze: analityka finansowa, chatbot wewnętrzny, asystent kodu

Analityka finansowa (obliczenia P/E, NPV, raporty): Nemotron-3 Nano 4B. Wyniki benchmarku są jednoznaczne, model waży 2,8 GB i działa na standardowym sprzęcie biurowym [2].

Chatbot wewnętrzny (FAQ, onboarding, wyszukiwanie w dokumentach): Granite 4 3B od IBM to najlżejszy model w zestawieniu — 2,1 GB [2]. Przy zastosowaniach, gdzie liczy się szybkość odpowiedzi i niskie wymagania sprzętowe, a zadania nie wymagają złożonego rozumowania, mniejszy rozmiar może być zaletą, nie wadą.

Asystent kodu: Gemma 4 E4B była projektowana pod generację kodu i agentowe workflow [1]. Mimo że benchmark nie potwierdził jednoznacznej dominacji w tej kategorii, architektoniczne decyzje Google i rozmiar modelu (9,6 GB) sugerują, że E4B ma potencjał w zadaniach wymagających dłuższego kontekstu i wieloetapowego rozumowania.

Pięć pytań przed wyborem modelu lokalnego

Zanim zdecydujesz, odpowiedz na te pytania:

  1. Czy twój sprzęt ma wystarczająco RAM, żeby uruchomić model bez swapowania? (18 GB RAM = bezpieczna granica dla klasy 4B)
  2. Czy przetwarzasz dane objęte RODO lub tajemnicą handlową? (jeśli tak, lokalny model to nie opcja, to wymóg)
  3. Czy przeczytałeś licencję modelu pod kątem komercyjnego użycia? (open-weight ≠ wolna licencja)
  4. Czy twoje zadania są bliższe finansom/reasoning czy generacji kodu? (wyniki benchmarku różnią się między kategoriami)
  5. Czy testujesz model na własnych danych przed wdrożeniem? (żaden benchmark nie zastąpi testu na twoim konkretnym przypadku)

Werdykt: Jeśli wdrażasz lokalny model do zadań analitycznych lub reasoning i masz sprzęt z 18 GB RAM, Nemotron-3 Nano 4B od NVIDIA jest aktualnie najlepszym wyborem w klasie 4B — benchmark na 39 zadaniach to potwierdza bez niedomówień [2]. Gemma 4 E4B ma sens, jeśli priorytetem jest generacja kodu i nie przeszkadza ci 9,6 GB na dysku. Granite 4 3B wybierz, gdy liczy się przede wszystkim minimalny ślad pamięciowy. Phi-4 Mini i Qwen 3.5 4B nie wyróżniły się w tym teście na tyle, żeby rekomendować je jako pierwszą opcję — chyba że masz konkretny powód, żeby sięgnąć właśnie po nie.

Źródła

[1] Google Blog — Gemma 4: Byte for byte, the most capable open models — https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/

[2] r/LocalLLaMA — The 4B class of 2026 (benchmark) — https://www.reddit.com/r/LocalLLaMA/comments/1sxch39/the_4b_class_of_2026_benchmark/

[3] LLM-Stats — LLM Leaderboard 2026: Compare 300+ Top AI Models — https://llm-stats.com

[4] Nature — A benchmark of expert-level academic questions to assess AI — https://www.nature.com/articles/s41586-025-09962-4

AN
O autorze
Andrzej Niemiec

Founder Aion Automation. Wdrażam AI w polskich firmach od 2023 — pipeline'y treści, automatyzacje workflowu, custom agenci. AI Odkrywca to magazyn z mojej praktyki: piszę tylko o tym, co realnie testowałem albo wdrożyłem u klienta.