Przewiń do głównej treści

#3 Kim jesteś i dlaczego tak uważasz?

·1383 słów·7 min

Czytelniku,

W zeszłym tygodniu rozmawialiśmy o mało efektownej prawdzie, że AI jest tylko tak dobra, jak dane, którymi się żywi. W tym tygodniu przechodzimy od danych wejściowych do samego silnika. Zajmiemy się dwoma pytaniami. Po pierwsze, czym dokładnie jest system AI w oczach regulatora? I po drugie, w miarę jak mamy do czynienia z coraz bardziej złożonymi modelami, jak możemy zaufać „czarnej skrzynce”, która nie potrafi wyjaśnić swojego działania? Odpowiedzi, jak się okaże, dotyczą w mniejszym stopniu technologii, a w większym filozofii prawa, której zignorowanie może drogo kosztować.

The Briefing
#

Z jednej strony regulatorzy doprecyzowują zasady na dziś. Z drugiej, najwięksi gracze na rynku pędzą w kierunku przyszłości opartej na indywidualnym podejściu i bliskiej współpracy — co jest wyraźnym przyznaniem, że generyczna AI to za mało.

Po pierwsze opublikowano nowy projekt krajowej ustawy wdrażającej Akt o AI. Proponowana „Komisja ds. AI” została uproszczona, a jej opinie prawne na temat konkretnych systemów AI będą teraz wiążące dla innych organów administracji. Dla biznesu oznacza to, że proces uzyskania ostatecznej decyzji w sprawie nowego systemu AI powinien stać się bardziej przewidywalny. Wcześniej firma mogła otrzymać pozytywną opinię od jednego urzędu, która następnie mogła zostać zakwestionowana przez inny — sytuacja, która zwiększa ryzyko inwestycji w AI. Ta zmiana zapewnia pewien stopień pewności prawnej, wymagany przy inwestycjach kapitałowych. Doprecyzowanie zasad dotyczących piaskownic regulacyjnych dodatkowo to wspiera, tworząc bezpieczniejszą przestrzeń do praktycznych eksperymentów.

Artykuł na LinkedIn

Tymczasem rynek zmierza w kierunku rozwiązań bardziej specjalizowanych niż LLMy trenowane na danych publicznych. Mira Murati, była CTO OpenAI, uruchomiła swoją nową firmę TML, aby tworzyć spersonalizowaną AI dla przedsiębiorstw. Kluczowe jest jej skupienie na „Reinforcement learning for business”. To podejście polega m.in. na trenowaniu modeli tak, aby optymalizowały się pod kątem konkretnych, twardych celów biznesowych, takich jak maksymalizacja marż czy poprawa retencji klientów. Jest to bezpośrednia próba rozwiązania problemu polegającego na tym, że generyczne modele LLM nie rozumieją celów biznesowych i często generują wiarygodnie brzmiące, ale komercyjnie bezużyteczne wyniki.

Inc.

Ten zwrot znajduje odzwierciedlenie w działaniach samego OpenAI. Firma uruchomiła ramię konsultingowe, angażując własnych inżynierów do budowy indywidualnych systemów dla klientów, z minimalnym zaangażowaniem na poziomie 10 milionów dolarów. To wejście w usługi oparte na bliskiej współpracy, na wzór modelu Palantir, jest mocnym przyznaniem: odblokowanie prawdziwej wartości AI wymaga głębokiej, praktycznej integracji, a nie tylko dostępu do API do potężnego, ale generycznego modelu.

Dla osób, które od jakiegoś czasu pracują na rynku IT, nie jest to nic nowego — każda nowa generacja systemów zaczyna się od doskonałych produktów „out-of-the-box”, które obiecują znacznie prostszy świat, a nieuchronnie kończy się znacznie światem złożonych, spersonalizowanych i tworzonych na zamówienie procesów i oprogramowania.

Dlaczego dotyczy to również generatywnej AI? Oczywiście dlatego, że ma ona swoje ograniczenia. LLMy nie posiadają prawdziwego „modelu świata”. Są mistrzami statystycznej mimikry, zdolnymi do tworzenia przekonującej imitacji myśli strategicznej — czegoś w rodzaju „myślenia potiomkinowskiego”. Zwrot w kierunku głębokiej personalizacji i uczenia ze wzmocnieniem jest próbą zbudowania zastępstwa dla tego brakującego zrozumienia. Zgłębimy tę koncepcję „AI potiomkinowskiej” bardziej szczegółowo w kolejnym wydaniu newslettera.

Kiedy statystyka staje się AI
#

Podczas gdy rynek patrzy w przyszłość, regulatorzy są zajęci definiowaniem teraźniejszości. Unijny Akt o AI zmusza nas do rozwiązania fundamentalnego problemu: czym dokładnie jest „System AI”? Definicja opiera się na cechach takich jak autonomia i adaptacyjność, celowo odróżniając go od „prostszych, tradycyjnych systemów oprogramowania”. To rozróżnienie nie jest akademickie. Dla banku to pytanie za wiele milionów euro.

Rozważmy scoring kredytowy. Przez lata banki używały standardowych modeli regresji logistycznej. „Czysta” wersja tego modelu, z ręcznie wybranymi zmiennymi i stałymi współczynnikami, wykracza poza zakres Aktu o AI. Brakuje jej autonomii i adaptacyjności, które określa prawo.

Jednak w momencie, gdy zautomatyzujesz ten proces — na przykład używając algorytmów do selekcji cech lub okresowo automatycznie rekalibrując model — prawdopodobnie przekracza on próg i staje się systemem AI. Jego zachowanie nie jest już statyczne; uczy się i adaptuje. Teraz rozważmy nowocześniejsze techniki, takie jak gradient-boosting mechanisms. Obecnie są one klasyfikowane jako systemy AI. Ich cała konstrukcja opiera się na uczeniu się i wnioskowaniu, wykorzystaniu zespołów mniejszych modeli, aby iteracyjnie korygować własne błędy. Eksperci branżowi prowadzą rozmowy z prawodawcami w celu złagodzenia definicji systemu AI, tak aby mniej istniejących technologii wpadało do tej kategorii. Jeśli im się uda, wpływ nowych regulacji na duże przedsiębiorstwa będzie mniejszy.

Ma to ogromne znaczenie, ponieważ Załącznik III do Aktu o AI wprost wymienia systemy AI używane „do oceny zdolności kredytowej osób fizycznych” jako przypadek użycia wysokiego ryzyka. Logika jest prosta i brutalna: jeśli Twój model scoringu kredytowego jest technicznie „Systemem AI”, jest on automatycznie oznaczany jako „wysokiego ryzyka”, co uruchamia obszerne obowiązki zgodności, które muszą zostać spełnione do sierpnia 2026 roku.

Nowa czarna skrzynka: Od nieprzejrzystych modeli do nieprzejrzystych promptów
#

O ile potrafimy jakoś radzić sobie z wyjaśnialnością modeli statystycznych, pojawienie się LLMów pogłębia problem „czarnej skrzynki”. W przypadku modelu XGBoost możemy przynajmniej użyć technik takich jak SHAP, aby zidentyfikować, które cechy wejściowe miały największy wpływ na wynik. W przypadku LLM jest to niemożliwe. Wyzwanie przenosi się z wyjaśniania wewnętrznej mechaniki modelu na zapewnienie, że proces rozumowania jest przejrzysty i audytowalny.

To prowadzi nas do krytycznego obszaru ryzyka dla nowoczesnego przedsiębiorstwa: zarządzania promptami i ich kontekstem. W tym nowym paradygmacie prompt i kontekst to nowy kod źródłowy. Niewłaściwie zarządzany prompt może mieć poważne konsekwencje:

  • Ryzyko bezpieczeństwa: Użytkownik może nieumyślnie wkleić wrażliwe dane klienta do promptu wysyłanego do zewnętrznego API, tworząc wyciek danych.

  • Ryzyko zgodności: Niewłaściwie ograniczony model może generować porady naruszające regulacje finansowe.

  • Ryzyko operacyjne: Niespójne promptowanie w różnych zespołach może prowadzić do skrajnie różnych wyników, tworząc chaos operacyjny.

Skuteczne zarządzanie oznacza traktowanie biblioteki zatwierdzonych promptów firmowych jako cennego, kontrolowanego zasobu. Ale jak uczynić ten nowy rodzaj „kodu” wyjaśnialnym? Odpowiedź leży w takim projektowaniu samych promptów, aby wymusić przejrzystość.

Sprawić, by LLM „pokazał, jak pracuje”
#

Możemy osiągnąć wyższy stopień interpretowalności dla LLM, używając dwóch kluczowych technik:

  1. Promptowanie typu Chain-of-Thought: To najbardziej bezpośrednia metoda. Zamiast prosić tylko o odpowiedź, wyraźnie instruujesz model, aby nakreślił swoje rozumowanie krok po kroku, zanim poda ostateczny wniosek. Standardowy prompt mógłby zapytać: „Czy ten klient kwalifikuje się do zwrotu pieniędzy?” i otrzymać nieaudytowalne „Tak”. Prompt CoT instruuje go, aby najpierw podsumował problem, następnie odniósł się do odpowiedniej polityki, przedstawił swoje rozumowanie na podstawie tej polityki, a dopiero potem podał ostateczną odpowiedź. Nieprzejrzysta czarna skrzynka jest zmuszona do stworzenia własnej ścieżki audytowej.

  2. Retrieval-Augmented Generation (RAG): To najważniejsza technika dla każdej branży regulowanej. RAG zmniejsza ryzyko halucynacji LLM, zmuszając go do opierania swoich odpowiedzi na wcześniej zatwierdzonym, zaufanym zestawie dokumentów, które mu dostarczasz. Gdy użytkownik zadaje pytanie, system najpierw znajduje najistotniejsze dokumenty w Twojej wewnętrznej bazie wiedzy i instruuje LLM: „Odpowiedz na pytanie użytkownika, używając WYŁĄCZNIE następujących informacji”. Dobrze zaprojektowany system RAG nie tylko daje odpowiedź; dostarcza cytaty, mówiąc: „Uważam, że odpowiedź to X, a oparłem to na informacjach znalezionych w dokument_A.pdf (strona 4)”. Przekształca to AI z zawodnej wyroczni w wydajnego i audytowalnego asystenta badawczego. Nie likwiduje to jednak całkowicie ryzyka halucynacji modelu, ponieważ nadal w jego “pamięci” jest szeroka baza wiedzy z domeny publicznej, na której był trenowany.

Ta nowa rzeczywistość wymaga nowego zestawu pytań, które łączą aspekty techniczne, prawne i operacyjne.

  1. Co znajduje się w naszym model inventory? Czy mamy kompleksową listę wszystkich modeli używanych w firmie i czy formalnie oceniliśmy każdy z nich pod kątem definicji z Aktu o AI?

  2. Gdzie przebiega nasza „czerwona linia” regulacyjna? Czy zdefiniowaliśmy jasną wewnętrzną politykę dotyczącą tego, które techniki modelowania są dopuszczalne dla konkretnych przypadków użycia, biorąc pod uwagę obciążenie związane ze zgodnością

  3. Kto zarządza naszymi promptami? Czy mamy formalny proces tworzenia, zatwierdzania i zarządzania promptami i kontekstem używanym z naszymi narzędziami generatywnej AI, zwłaszcza w funkcjach skierowanych do klienta lub wysokiego ryzyka?

  4. Czy nasza „wyjaśnialność” broni się z perspektywy regulacyjnej? Nie wystarczy powiedzieć, że model jest wyjaśnialny. Czy możemy przedstawić dokumentację dla naszych metod CoT i RAG, która zadowoliłaby kontrolę regulatora dla systemu wysokiego ryzyka?

Podwójne wyzwania związane z określaniem roli i kategoryzacją “klasycznej” AI i zarządzaniem tą generatywną, są doskonałą ilustracją naszego głównego tematu. Są to złożone kwestie, w których zderzają się rzeczywistość inżynierska, filozofia regulacyjna i pragmatyczne podejście biznesowe. Skuteczne poruszanie się po nich wymaga wyjścia poza szum informacyjny i zagłębienia się w szczegóły.

W następnym wydaniu zajmiemy się tym, czy LLMy myślą i wykażemy że obecny model ich działania nie może zostać nazwany rozumowaniem. Zbadamy też praktyczne aspekty zarządzania danymi jako niepodważalnego fundamentu każdej udanej i odpowiedzialnej strategii AI.

Do zobaczenia za tydzień,

Krzysztof