W ostatnim numerze zgłębialiśmy odpowiedź na pytanie o to, czym w oczach regulatora jest „System AI”. Okazuje się, że odpowiedź często kryje się nie w marketingowej broszurze, ale w drobnym druku ustawy. W tym tygodniu przechodzimy od silnika do paliwa. To temat o wiele mniej efektowny, ale prawdopodobnie najważniejszy w każdej poważnej dyskusji o AI w przedsiębiorstwie. Mówimy o danych.
Zbyt wiele organizacji próbuje budować wieżowiec AI na grząskim gruncie. Są zafascynowani olśniewającą architekturą najnowszych modeli, nie zwracając uwagi na mało efektowną, ale fundamentalną pracę związaną z zarządzaniem danymi.
Briefing#
Wielka abdykacja Waszyngtonu#
Największą historią ostatnich dwóch tygodni nie była nowa technologia, ale wiadomość, która wstrząsnęła Waszyngtonem. Długo dyskutowany plan nałożenia dziesięcioletniego federalnego moratorium na stanowe przepisy dotyczące AI — centralny element ustawy „One Big Beautiful Bill Act” — został bezceremonialnie odrzucony przez Senat USA w niemal jednomyślnym głosowaniu 99-1. Lobbyści wielkich firm technologicznych, którzy pragnęli prostoty jednego federalnego zbioru zasad, przegrali.
Oczywistym wnioskiem jest, że to regulacyjny chaos. Mniej oczywistym jest to, że to korekta rynkowa. Waszyngton, być może przypadkowo, zrobił najmądrzejszą możliwą rzecz: abdykował. Przekazał kontrolę stanom, uwalniając to, co niektórzy nazywają „regulacyjnym wyścigiem”. Stany takie jak Teksas, Kalifornia i Kolorado są teraz konkurującymi laboratoriami, testującymi w realnym świecie różne modele zarządzania. Zmusza to do tworzenia elastycznych i odpornych ram zarządzania, a nie kruchych, zbudowanych dla świata fantazji z jedną zasadą. Więcej o upadku moratorium można przeczytać tutaj.
Inżynierskie podejście Europy#
Podczas gdy Ameryka skłania się ku federalizmowi regulacyjnemu, UE poszła w przeciwnym kierunku, ale nie w taki sposób, jak można by się spodziewać. W tym tygodniu Komisja Europejska opublikowała swój Kodeks Postępowania dla AI Ogólnego Przeznaczenia, dobrowolny przewodnik po zgodności z unijnym Aktem o AI.
Ten dokument to w gruncie rzeczy specyfikacja inżynierska. Czyta się go mniej jak tekst prawny, a bardziej jak szczegółowy projekt budowy bezpiecznej maszyny. Nakazuje on konkretne, audytowalne kontrole: uwierzytelnianie wieloskładnikowe, częste testy typu „red-teaming”, kontrole zagrożeń wewnętrznych, a nawet fizyczne bezpieczeństwo centrów danych. To zbliża się do filozofii „Governance-as-Code”. UE nie debatuje tu nad naturą świadomości; traktuje ryzyko AI jak problem inżynierii przemysłowej, który można rozwiązać za pomocą rygoru, procesu i zdrowej dawki przezorności.
Powstanie zautomatyzowanych „red teams”#
Podczas gdy politycy debatują nad zasadami, inżynierowie budują narzędzia do ich egzekwowania. Najważniejszą innowacją technologiczną w zarządzaniu nie jest lepszy model, ale lepszy sposób na jego złamanie. Obserwujemy pojawienie się zautomatyzowanych i ciągłych platform „AI red teaming”, zaprojektowanych do nieustannego atakowania własnych systemów AI firmy w celu znalezienia wad.
Usługi takie jak nowa „Continuous Ascend AI” firmy Straiker obiecują działanie 24/7, testowanie działających aplikacji i alarmowanie deweloperów w momencie, gdy aktualizacja modelu dostawcy nieumyślnie osłabi ich obronę. To zmienia standard postępowania z jednorazowego audytu przed wdrożeniem na stan nieustannej, zautomatyzowanej czujności. Pytanie dla liderów nie brzmi już: „Czy przetestowaliście AI?”, ale: „Czy wasza AI nieustannie testuje samą siebie?”. Więcej o tych nowych usługach można przeczytać tutaj.
Pusty rdzeń AI: Zrozumienie problemu wioski potiomkinowskiej#
Dwie niedawne analizy pokazują, dlaczego jakość danych jest tak kluczowa. Autorzy tego artykułu ukuli termin „rozumienie potiomkinowskie”, aby opisać niepokojące zjawisko: modele LLM tworzące pewnie brzmiące analizy, które są fundamentalnie puste. Podobnie jak fałszywe fasady wiosek zbudowane, by zaimponować carycy Katarzynie, modele te tworzą iluzję zrozumienia, nie posiadając prawdziwej wiedzy.

Artykuł pokazuje, jak modele LLM mogą generować szczegółowe, elokwentne wyjaśnienia na temat fikcyjnych bytów lub sfabrykowanych danych z taką samą pewnością, z jaką podchodzą do prawdziwych informacji. Jest to szczególnie niebezpieczne w środowisku biznesowym, gdzie decydenci mogą nie rozpoznać, kiedy AI „halucynuje z przekonaniem” na podstawie błędnych danych wejściowych.
Jest to zbieżne z krytyką Gary’ego Marcusa dotyczącą „paraliżującej niezdolności generatywnej AI do tworzenia solidnych modeli świata”. Marcus twierdzi, że obecne systemy AI nie posiadają rozumienia przyczynowo-skutkowego, które ludzie rozwijają poprzez fizyczną interakcję z rzeczywistością. Zamiast tego budują statystyczne przybliżenia oparte wyłącznie na tekście, tworząc fundamentalne martwe punkty, których nie da się pokonać żadnym skalowaniem parametrów.
Implikacje dla przedsiębiorstw są groźne: LLM może być wioską potiomkinowską — imponującą z daleka, ale pustą przy bliższym przyjrzeniu się. Modelom można ufać, że dadzą dobre wyniki, jeśli mają wewnętrzny model systemu, który mają wspierać lub optymalizować. Modele LLM go nie mają. Jak podsumowuje Marcus: „Dzisiejsze LLM pozostają systemami statystycznymi bez prawdziwego zrozumienia swoich danych wejściowych czy wyjściowych”. Dlatego praca nad fundamentami danych nie jest opcjonalna — to różnica między AI, która naprawdę wzmacnia ludzką inteligencję, a AI, która jedynie tworzy przekonującą iluzję kompetencji.
Pracuję nad dłuższym tekstem na ten temat, ponieważ fascynuje mnie rozdźwięk między rzeczywistością a szumem medialnym, a także wiara ludzi w „magię AI”.
Mało efektowny fundament sukcesu AI#
Zarządzanie danymi to mało efektowny, ale kluczowy element w świecie AI. To nie jest temat, który celebruje się w komunikatach prasowych lub prezentuje na porywających wystąpieniach. To cicha, sumienna i często żmudna praca polegająca na zapewnieniu, że Twoje dane są czyste, zorganizowane, bezpieczne i odpowiednie do celu. I tak jak w dobrze utrzymanym budynku, bez tego wszystko inne w końcu się rozpada. Obecny cykl szumu medialnego zachęca liderów do skupienia się na efektownych przypadkach użycia — chatbotach dla klientów, predyktorach rynkowych opartych na AI. Ale to niebezpieczne sprowadzenie na manowce. Jak zauważył Ethan Mollick i inni, pierwsza fala prawdziwej, trwałej wartości z AI w przedsiębiorstwie prawdopodobnie będzie pochodzić z wewnętrznych, praktycznych zastosowań, które poprawiają wydajność i zmniejszają monotonię. Problem w tym, że te praktyczne zastosowania opierają się na wysokiej jakości danych wewnętrznych, które często są chaotycznym bałaganem. Model AI, bez względu na to, jak zaawansowany, jest potężnym, ale dosłownym w swoim działaniu silnikiem. Nie posiada „modelu świata” ani tego, co moglibyśmy nazwać zdrowym rozsądkiem. Nie potrafi w magiczny sposób rozpoznać, że dane z arkusza kalkulacyjnego “Sprzedaz_Q3_Final_v2_Kopia_Jana.xlsx” są bardziej wiarygodne niż dane z oficjalnego, ale nieaktualnego systemu CRM. Po prostu przetworzy to, co mu się poda. To jest koncepcja „rozumienia potiomkinowskiego”: LLM może wygenerować płynną, pewnie brzmiącą analizę opartą na błędnych danych, tworząc przekonującą iluzję wglądu, która jest niebezpiecznie mylna.

Siedem grzechów głównych danych w przedsiębiorstwie#
Zanim zaczniesz budować, musisz zrozumieć typowe punkty zapalne. Większość projektów AI w przedsiębiorstwach, które kończą się niepowodzeniem, nie zawodzi dlatego, że model jest wadliwy, ale dlatego, że padają ofiarą jednej lub więcej z tych pułapek:
Niska jakość: To najczęstszy grzech. Obejmuje wszystko, od brakujących pól i nieprawidłowych wpisów po niespójne formatowanie. AI wytrenowana na takich danych nauczy się tych niedoskonałości i wzmocni je, produkując niewiarygodne wyniki z niezachwianą pewnością siebie.
Ukryta stronniczość: Twoje dane historyczne są odzwierciedleniem przeszłych decyzji, w tym przeszłych uprzedzeń. Model zatwierdzania kredytów wytrenowany na dekadach stronniczych danych kredytowych nie stanie się w magiczny sposób sprawiedliwy; stanie się po prostu wysoce wydajnym silnikiem do utrwalania tej samej stronniczości.
Silosy danych: Najcenniejsze spostrzeżenia często pochodzą z połączenia różnych zbiorów danych — na przykład połączenia danych z obsługi klienta z danymi sprzedażowymi. W większości organizacji dane te żyją w oddzielnych, zazdrośnie strzeżonych silosach, co uniemożliwia całościowy obraz.
Niebezpieczne obchodzenie się z danymi: Pośpiech w eksperymentowaniu często prowadzi zespoły do chodzenia na skróty, na przykład przesyłania wrażliwych danych klientów na platformę AI strony trzeciej bez odpowiednich przeglądów bezpieczeństwa, co stwarza ogromne ryzyko zgodności i prywatności.
Brak udokumentowanego pochodzenia: Skąd pochodzą te dane? Kto miał do nich dostęp? Czy mamy prawo używać ich do trenowania AI? Bez jasnego łańcucha pochodzenia (provenance), nie możesz udowodnić regulatorowi — ani sobie — że Twoje dane są zgodne z przepisami.
Niedopasowany kontekst: Używanie danych do celu, do którego nie były przeznaczone. Na przykład, używanie logów czatów z obsługi klienta, które są pełne nieformalnego języka i skrótów, do trenowania AI piszącej formalne raporty, doprowadzi do dziwacznych i nieprofesjonalnych wyników.
„Ciemne dane” (Dark Data): To ogromny ocean nieustrukturyzowanych danych, które Twoja organizacja gromadzi, ale nie wykorzystuje — e-maile, pliki PDF, transkrypcje spotkań. To potencjalna kopalnia złota, ale dostęp do nich i przygotowanie ich dla AI to znaczące wyzwanie inżynierskie, które często jest niedoceniane.
Myślenie inżynierskie i dane gotowe na AI#
Rozwiązaniem tych problemów nie jest zakup kolejnego pakietu oprogramowania. To przyjęcie innego sposobu myślenia: pragmatycznego, inżynierskiego podejścia do danych. Oznacza to traktowanie swoich potoków danych z takim samym rygorem, jaką stosuje się przy budowie mostu czy sieci energetycznej.
Kluczowe są trzy zasady:
Dane muszą być czyste: Oznacza to ustanowienie zautomatyzowanych, powtarzalnych procesów czyszczenia, walidacji i wzbogacania danych. To nie jest jednorazowe zadanie; to ciągły proces, jak utrzymywanie czystego zaopatrzenia w wodę. Celem jest posiadanie „jednego źródła prawdy” dla Twoich najważniejszych domen danych.
Dane muszą być osadzone w kontekście: Dane bez kontekstu to tylko szum. Każdy krytyczny zbiór danych powinien być opatrzony „kartą danych” lub metadanymi, które jasno wyjaśniają jego pochodzenie, zamierzone użycie, znane ograniczenia i właściciela. Umożliwia to zarówno ludziom, jak i systemom AI prawidłowe korzystanie z danych.
Dane muszą być kontrolowane: Dostęp do danych, zwłaszcza do trenowania modeli AI, musi być regulowany przez ścisłe, oparte na rolach kontrole. Nie chodzi tylko o bezpieczeństwo; chodzi o zapewnienie, że właściwe dane są używane do właściwego celu. Wymaga to zmiany kulturowej z „własności danych” przez działy na „zarządzanie danymi” w imieniu całego przedsiębiorstwa.
Zmiana kulturowa: Od zbieraczy do gospodarzy danych#
To inżynierskie podejście nie może się powieść bez odpowiedniej zmiany kulturowej. W wielu organizacjach dane są traktowane jak prywatne lenno. Dział marketingu „posiada” dane klientów; dział finansów „posiada” dane transakcyjne. Ten sposób myślenia jest największą pojedynczą przeszkodą w tworzeniu przedsiębiorstwa gotowego na AI. Stanie się przedsiębiorstwem „AI-first”, jak sugeruje Ethan Mollick, wymaga radykalnej zmiany. Oznacza to traktowanie danych jako wspólnego, ogólnofirmowego zasobu. Wymaga tworzenia nowych ról — nie tylko analityków danych, ale kuratorów danych (data curators) i zarządców danych (data stewards), których zadaniem jest zapewnienie jakości, kontekstu i bezpieczeństwa danych, z których będzie korzystać cała organizacja. Wymaga to promowania mało efektownej, pracy u podstaw związanej z zarządzaniem danymi. Oznacza nagradzanie zespołów, które porządkują silosy danych, tak samo jak nagradzasz zespoły, które budują efektowne nowe modele.
Praktyczne ramy: Ocena gotowości danych#
Aby pomóc rozpocząć tę rozmowę, proponuję cztery pytania, które warto zadać. Mają one na celu ujawnienie, jak gotowa jest Twoja organizacja na AI na dużą skalę.
Test „jednego źródła prawdy”: Gdybym poprosił o ostateczną listę naszych 100 najlepszych klientów, ile różnych odpowiedzi bym otrzymał i ile czasu zajęłoby ich uzgodnienie?
Pytanie o „audyt stronniczości”: Jaki proces mamy wdrożony, aby aktywnie audytować nasze dane historyczne pod kątem ukrytych uprzedzeń, które mogłyby zatruć nasze modele AI? Kto jest odpowiedzialny za zatwierdzenie zbioru danych jako „wystarczająco sprawiedliwego” do użycia?
Wyzwanie „pochodzenia danych”: Czy możemy prześledzić pełną historię danych używanych przez nasz najważniejszy model predykcyjny, od jego źródła do ostatecznego wejścia? Czy moglibyśmy to udowodnić regulatorowi?
Budżet na „prace u podstaw”: Ile inwestujemy w fundamentalną pracę czyszczenia, integracji i zarządzania danymi w porównaniu z tym, ile inwestujemy w eksperymentalne modele AI? Czy ta równowaga jest właściwa?
Uporządkowanie fundamentów danych to niezbędny pierwszy krok. Ale gdy już masz czyste paliwo, nadal musisz zarządzać silnikiem. W naszym następnym numerze zgłębimy pojawiające się wyzwania „Agentic AI” — co się dzieje, gdy AI zaczyna działać na własną rękę i jak możemy zapewnić, że pozostajemy u steru.
Z najlepszymi pozdrowieniami,
Krzysztof
