Przewiń do głównej treści

#30 — Checklista gotowości produkcyjnej

·1422 słów·7 min

Statystyki porażek AI znamy na pamięć. Większość projektów GenAI nigdy nie wychodzi z pilotażu. Te, które wychodzą, rzadko przynoszą wymierne korzyści. Reszta trwa w zawieszeniu — zjada budżet, aż ktoś w końcu zapyta „po co to robimy?".

To ostatnie wydanie z serii o skalowaniu produkcyjnym. Czas na podsumowanie i wnioski.

Dlaczego standardowe checklisty nie wystarczają
#

Typowa reakcja na przedwdrożeniowy stres? Dłuższa lista kontrolna:

  • Bezpieczeństwo — sprawdzone
  • Infrastruktura — gotowa
  • Monitoring — skonfigurowany
  • Procedury awaryjne — opisane To wszystko trzeba mieć. Ale dla systemów AI w regulowanych branżach — to za mało.

Klasyczne listy Go/No-Go zakładają świat deterministyczny: wymagania się nie zmieniają, dane na produkcji wyglądają jak w testach, ludzie pracują według schematu. AI łamie wszystkie trzy założenia. Daje wyniki probabilistyczne, dryfuje w czasie, zmienia procesy wokół siebie.

Można odfajkować każdy punkt i nadal nie dostarczyć działającego rozwiązania.

Problem polega na tym, że gotowość produkcyjna to pytanie o governance, nie o kolejne pole w Jirze. Lista musi pomagać analizować te same ryzyka, które omawialiśmy w całej serii — i scalać je w jedną decyzję.

Powtórzę to jeszcze raz: Jeśli zasada governance nie potrafi automatycznie zablokować wdrożenia, to nie jest kontrola. To sugestia.

Trzy rodzaje ryzyka, które musisz sprawdzić
#

Przez ostatnie wydania mapowaliśmy przyczyny, przez które projekty AI umierają między pilotażem a produkcją. Przed startem wszystkie trzy trzeba zweryfikować.

1. Dane kontra rzeczywistość
#

W testach model widział czyste, dobrze opisane dane. W call center zobaczy formularze wypełnione w połowie, klientów zmieniających język w połowie zdania i procedury zmienione w zeszłym kwartale bez odpowiedniej dokumetnacji.

W wydaniu #26 nazwaliśmy to przepaścią między danymi treningowymi a produkcją. Nie da się jej zasypać dobrymi intencjami. Trzeba mieć dowody, że system sobie z nią radzi.

Przykład: Epic Systems wdrożył model wykrywania sepsy w setkach szpitali. W testach retrospektywnych wyglądał świetnie. W codziennej praktyce klinicznej - gdzie dane wpisywane są chaotycznie i z opóźnieniem - model przegapiał 67% przypadków sepsy, a jednocześnie generował tyle fałszywych alarmów, że lekarze nauczyli się go ignorować.

2. Automatyzacja chaosu
#

W wydaniu #27 pokazywałem, co się dzieje, gdy automatyzujesz nieefektywny proces: chaos zaczyna działać szybciej. Na produkcji AI nie działa w próżni. Zmienia obieg zadań, eskalacje, prawa do podejmowania decyzji.

Przed startem potrzebujesz trzech rzeczy: mapy procesu z jasno zaznaczonym miejscem dla AI, osoby odpowiedzialnej za całość (także gdy system padnie) i ścieżki powrotu do pracy ręcznej. Bez tego „gotowość produkcyjna" oznacza tylko „gotowość do szybszego bałaganu".

Przykład: Algorytm zakupu nieruchomości Zillow uczył się na danych z rosnącego rynku. Gdy ceny zaczęły spadać, model dalej kupował - po zawyżonych cenach. Zillow straciło ponad 500 mln USD i zlikwidowało dział zajmujący się tym obszarem. Proces nie uwzględniał Human-in-the-Loop - nikt nie sprawdzał, czy wyniki działania modelu są zgodne ze zdrowym rozsądkiem.

3. ROI na slajdach
#

W wydaniu #29 budowaliśmy kartę wyników ROI: sposób mierzenia tego, co naprawdę ma znaczenie po uruchomieniu systemu.

Przed startem musisz wiedzieć dwie rzeczy: czego oczekujesz od systemu (konkretnie, mierzalnie) i skąd będziesz brał dane, żeby to zweryfikować. I raczej źródłem nie powinien być PowerPoint przygotowany za ciężkie pieniądze przez konsultantów z Big4. Inaczej będziesz mieć system AI, którego korzyści nie da się obronić, gdy CFO zapyta, ile dzięki niemu zarobiliśmy lub zaoszczędziliśmy.

Przykład: IBM Watson for Oncology wdrożono w onkologicznych ośrodkach na całym świecie. Tylko w MD Anderson inwestycja wyniosła ponad 60 mln USD. Prezentacje wyglądały imponująco. Media pisały o przełomie. Ale gdy zweryfikowano, czy Watson poprawia wyniki leczenia w porównaniu ze standardową terapią — dowodów nie było. Projekt wycofano po cichu.

Checklista gotowości produkcyjnej
#

Dziesięć pytań, które można omówić na jednym spotkaniu zarządu. Do każdego — dowód, który powinien istnieć przed decyzją „start".

1. Właściciel
#

  • Pytanie: Kto bierze odpowiedzialność za ten system na produkcji?
  • Dowód: Konkretna osoba po stronie biznesu i po stronie IT, ze spisanym zakresem odpowiedzialności.

2. Miejsce w procesie
#

  • Pytanie: Jakie procesy realizuje/wspiera ten system i kto odpowiada za całość, gdy system przestanie działać?
  • Dowód: Mapa procesu (stan obecny i docelowy), punkty kontroli człowieka, ścieżka powrotu do pracy ręcznej.

3. Dane z rzeczywistości
#

  • Pytanie: Czy system testowano na danych takich jak na produkcji, nie tylko na danych z PoC?
  • Dowód: Wyniki testów na danych produkcyjnych — w tym na przypadkach rzadkich i na danych niepełnych lub zaszumionych.

4. Co może pójść źle
#

  • Pytanie: Wiemy, jak system może się pomylić? Wiemy, co wtedy robimy?
  • Dowód: Spisane scenariusze awarii, wyniki red-teamingu, procedura reakcji.

5. Wyłącznik
#

  • Pytanie: Jak wyłączamy system w przypadku, gdy przestanie spełniać kryteria jakościowe? Co dzieje się zaraz potem?
  • Dowód: Działający kill switch, przetestowany rollback, co najmniej jedna przeprowadzona próba.

6. Zależności
#

  • Pytanie: Od czego zależy ten system — komponenty, API, prompty, źródła danych? Kto za co odpowiada?
  • Dowód: Lista zależności z właścicielami i lokalizacją w repozytorium.

7. Jak się dowiemy, że coś jest nie tak
#

  • Pytanie: Co nas natychmiast zaalarmuje, że system zachowuje się źle? To, co oznacza “natychmiast” zależy od charakterystyki procesu — mogą to być milisekundy lub dni.
  • Dowód: Ustalone wskaźniki wczesnego ostrzegania, alerty trafiające do konkretnych ludzi, plan dyżurów supportu.

8. Czy to się opłaca
#

  • Pytanie: Jak zmierzymy, czy system jest wart utrzymywania?
  • Dowód: Karta wyników ROI zasilana prawdziwymi danymi.

9. Co pokażemy audytorowi
#

  • Pytanie: Gdy audytor zapyta „dlaczego system podjął taką decyzję?" — co mu pokażemy?
  • Dowód: Dokumentacja zakresu decyzji systemu, logi wejść i wyjść, prosty opis działania. Tu schodzą się wymagania SR 11-7 (Fed), EU AI Act dla systemów wysokiego ryzyka i NIST AI RMF. W regulowanych branżach audytorzy w końcu o to zapytają.

10. Próba generalna
#

  • Pytanie: Czy przeszliśmy tę listę z ludźmi, którzy będą odpowiadać za system?
  • Dowód: Notatka ze spotkania: otwarte ryzyka, przypisani właściciele.

Od listy do systemu
#

Jeśli przejdziesz tę listę raz i schowasz do szuflady — masz proces manualny, oparty na dobrej woli. Jeśli wbudujesz ją w pipeline wdrożeniowy — masz governance. Różnica jest taka: procesy oparte na dobrej woli działają, dopóki ktoś pamięta, systemy działają zawsze.

Dojrzałe organizacje budują pięć filarów:

  1. Feature Store — single point of truth danych przygotowanych dla modeli. Eliminuje różnice między tym, co widział model w treningu, a tym, co widzi na produkcji.
  2. Model Registry — kontrola wersji modeli z pełną historią: dane treningowe, kod, wyniki walidacji.
  3. AI Gateway — centralny punkt kontroli całego ruchu do modeli. Limity, anonimizacja danych osobowych, polityki dostępu — w czasie rzeczywistym.
  4. Observability Stack — wykrywanie dryfu, monitoring jakości, alerty o problemach, których nie widać w standardowych metrykach.
  5. Policy Engine — silnik Governance-as-Code. Reguły wykonują się automatycznie w pipeline. Dziś większość z Was przejdzie tę listę ręcznie. Z czasem większość punktów da się zautomatyzować. Celem nie jest zastąpienie ludzkiego osądu — tylko upewnienie się, że ludzie zajmują się właściwymi pytaniami, a nie tracą czas na rzeczy, które maszyna zrobi lepiej.

Co dalej
#

To wydanie zamyka pierwszy cykl The AI Equilibrium. Zaczynałem tę serię z myślą o technologii. Skończyłem pisząc o decyzjach — kto je podejmuje, na jakiej podstawie i co robić, gdy okażą się błędne.

Ta lista nie wygra konkursu piękności, ale można ją pokazać zarządowi i obronić. I o to właśnie chodzi w gotowości produkcyjnej: nie o perfekcję, tylko o to, żeby dało się uzasadnić, zweryfikować i obronić podjętą decyzję.

W kolejnych wydaniach weźmiemy tę listę i zastosujemy do konkretnych branż — decyzje kredytowe, contact center, ubezpieczenia, usługi publiczne. Przypadek po przypadku: jak przejść od teorii do praktyki.

Briefing
#

Brak governance = brak ROI
#

Raport Smarsh o AI w finansach: tylko 32% firm ma formalny program governance AI. Wspólny mianownik słabych wyników AI to nie złe modele - to brak ram operacyjnych. Dlatego ta lista istnieje.

Firewall nie ochroni twojego AI
#

Harvard Business Review pisze, że klasyczne zabezpieczenia IT nie obejmują zagrożeń specyficznych dla AI: prompt injection, zatruwania danych treningowych, exploity na konkretne modele. Artykuł cytuje lukę w Microsoft 365 Copilot z czerwca 2025, która ujawniła dane firmowe. Ryzyko AI wymaga osobnego podejścia — modelowania zagrożeń, red-teamingu, dedykowanego monitoringu. Punkty #4 i #7 na liście są właśnie po to.

EU AI Act nadchodzi
#

Przewodnik Scalevise opisuje, czego będą wymagać regulatorzy w 2026: spis systemów AI, udokumentowana logika decyzji, procedury nadzoru, ciągły monitoring. Przepisy dla systemów wysokiego ryzyka wchodzą w sierpniu 2026. W regulowanych branżach inwentaryzacja i audytowalność to już nie opcja — to luka, którą audytor znajdzie za ciebie.

Pytanie na ten tydzień
#

Przed następnym „go-live" zbierz zespół decyzyjny i przejdźcie razem tę listę. Na poważnie, nie dla formalności.

Na ile z tych dziesięciu pytań macie dziś odpowiedź popartą dowodami — nie założeniami?

Jeśli mniej niż siedem: właśnie wiesz, co blokuje wdrożenie. I raczej nie jest to model.

Zachowaj równowagę,

Krzysztof