Siedem najlepszych symulowanych skrótów wywiadowczych miało sens

Wziąłem sześć tygodni wolnego, aby wychować dziecko i wszyscy zdecydowali, że nadszedł czas, aby ogłosić, że rewolucja AI jest nieuchronna. Trudno nie brać tego do siebie.

Tik-tak nowych rozwiązań, z których każdy jest bardziej imponujący niż poprzedni – i każdy pojawia się na scenie szybciej niż poprzedni – osiągnął swoje apogeum w zeszłym tygodniu wraz z niemal równoczesnym ogłoszeniem Google Bard i Microsoft Bing Chat. Od tego czasu możliwa była permutacja dyskursu, od tysiącletnich twierdzeń o rychłym eschatonie AI do odrzucenia całej dziedziny jako gloryfikowanego autouzupełniania.

Nie jestem tutaj, aby rozstrzygać tę debatę. Zamiast tego, jeśli rok 2023 to rok, w którym sztuczna inteligencja zmieni wszystko, to na początku tego roku warto zagłębić się nieco w to, czym jest, jak działa i dlaczego jest tym, czym jest. A najlepszym sposobem na to jest zacząć mówić o tych wszystkich małych terminach, które są pomijane w głównym nurcie, ponieważ są „zbyt techniczne”.

Co tak naprawdę oznaczają kluczowe akronimy i żargon AI

Sieci neuronowe to podstawowa technologia leżąca u podstaw boomu na sztuczną inteligencję. Pomyśl o nich jako o odpowiedniku silnika parowego z pierwszej rewolucji przemysłowej: technologii ogólnego przeznaczenia, która może dotrzeć do niezliczonych różnych branż i przypadków użycia oraz je przekształcić.

Sieci neuronowe, opracowane po raz pierwszy w latach czterdziestych XX wieku, rozpoczęły się jako próby modelowania mózgów zwierząt, które składają się z milionów prostych neuronów, z których każdy jest połączony z kilkoma innymi. Każdy pojedynczy neuron jest niezwykle prosty, ale ilość rodzi jakość, a wystarczająca ich liczba razem może nauczyć się wykonywania złożonych zadań. To samo dotyczy sztucznych sieci neuronowych, chociaż te neurony są raczej ideami algorytmicznymi niż fizycznymi połączeniami.

Podobnie jak w przypadku silnika parowego, zrozumienie prawdziwej mocy wynalazku zajęło dziesięciolecia. Sieć neuronowa działa tylko z ogromnymi ilościami mocy obliczeniowej i danych, więc były one ciekawostką przez większość ostatnich 70 lat. Zmieniło się to na przełomie tysiącleci, a era sztucznej inteligencji zaczęła powoli nabierać tempa.

LLM

„Duży model językowy” lub LLM to jedno z dwóch głównych podejść do sztucznej inteligencji, które doprowadziły do ​​ostatniego gwałtownego postępu w tym sektorze. Opisuje sieci neuronowe, które są trenowane przy użyciu ogromnych zbiorów danych tekstowych, takich jak seria GPT OpenAI, PaLM Google czy LLaMa Meta. Na przykład PaLM wykorzystuje „wysokiej jakości dokumenty internetowe, książki, Wikipedię, konwersacje i kod GitHub”, aby rozwijać rozumienie języka.

Pytanie, na które LLM próbuje odpowiedzieć, jest proste: biorąc pod uwagę krótki fragment tekstu, co będzie dalej? Ale dobre wykonanie tego zadania ma niesamowitą moc. Po pierwsze, jest to rekurencyjne. Po przewidzeniu, co będzie dalej, masz nową, nieco dłuższą sekcję tekstu, którą możesz wprowadzić z powrotem do LLM i powtórzyć pytanie, generując całe zdania, akapity, artykuły lub książki.

Pytanie ma również charakter ogólny. Przewidywanie, co będzie dalej w przypadku krótkiego fragmentu rzeczowego tekstu w języku angielskim, różni się od przewidywania, co będzie dalej w przypadku krótkiego fragmentu kodu, pytania, wiersza, pary przetłumaczonych zdań lub układanki logicznej — ale to samo podejście wydaje się działać całkiem dobrze dla wszystkich tych zadań. Im większy model językowy, tym lepszy wynik: GPT-3 jest 1500 razy większy niż GPT-1 i wydaje się, że nie jesteśmy blisko odkrycia granicy.

JEDNAKŻE

To, co LLM zrobiły dla tekstu, „generatywne sieci przeciwników” zrobiły dla obrazów, filmów, muzyki i nie tylko. Ściśle mówiąc, sieć GAN to dwie sieci neuronowe: jedna zbudowana w celu oznaczania, kategoryzowania i oceniania, a druga zbudowana w celu tworzenia od podstaw. Łącząc je w pary, możesz stworzyć sztuczną inteligencję, która może generować treści na polecenie.

Powiedzmy, że potrzebujesz sztucznej inteligencji, która może robić zdjęcia. Najpierw wykonujesz ciężką pracę, tworząc sztuczną inteligencję do etykietowania, która może zobaczyć obraz i powiedzieć, co na nim jest, pokazując miliony obrazów, które zostały już oznaczone, dopóki nie nauczy się rozpoznawać i opisywać „psa” , „ptak” czy „fotografia przekrojonej na pół pomarańczy, na której widać, że w środku jest jabłko”. Następnie bierzesz ten program i używasz go do trenowania drugiej sztucznej inteligencji, aby go oszukać. Ta druga sztuczna inteligencja „wygrywa”, jeśli może stworzyć obraz, któremu pierwsza sztuczna inteligencja nada pożądaną etykietę.

Po wyszkoleniu tej drugiej sztucznej inteligencji masz to, co postanowiłeś zbudować: sztuczną inteligencję, której możesz nadać etykietę i uzyskać obraz , który według niej pasuje do etykiety. Albo piosenkę . Albo wideo . Albo model 3D .

Obliczać

Szkolenie nowego modelu AI może być kosztowne. Ostateczne stworzenie GPT-3 zajęło około 10 milionów dolarów czasu obliczeniowego, w oparciu o dokumenty badawcze OpenAI, i pozostawiono niedopowiedziane, ile nieudanych wysiłków wymagało, zanim ostateczna wersja wyszła zgodnie z zamierzeniami. Ta przeszkoda – dostęp do „obliczeń” lub mocy obliczeniowej – oznacza, że ​​duże narzędzia ogólnego przeznaczenia, takie jak LLM, są zwykle domeną ogromnych firm. Już w 2018 roku OpenAI ostrzegało, że ilość mocy obliczeniowej wykorzystywanej w szkoleniach AI podwaja się co trzy i pół miesiąca. Z tego powodu rok później firma ogłosiła, że ​​odejdzie od modelu non-profit ze względu na potrzebę „zainwestowania miliardów dolarów w nadchodzących latach w przetwarzanie w chmurze na dużą skalę”.

Wielka Brytania jest światowym liderem w badaniach nad sztuczną inteligencją dzięki „złotemu trójkątowi” z Oksfordu, Cambridge i Londynu. Ale naukowcy często mają ograniczony dostęp do ilości mocy obliczeniowej, której potrzebują do pracy w najnowocześniejszych technologiach, co doprowadziło do przejęcia zysków komercyjnych przez amerykańskich i chińskich gigantów korporacyjnych z miliardami do zainwestowania. Doprowadziło to do wezwań do stworzenia należącego do rządu „BritGPT” , zbudowanego ze środków publicznych w celu zapewnienia mocy obliczeniowej, której brakuje brytyjskim naukowcom.

Czarna skrzynka

Sieci neuronowe są często opisywane jako „czarna skrzynka”: im bardziej stają się kompetentne, tym trudniej jest ustalić, w jaki sposób robią to, co robią. GPT-3 zawiera 175 miliardów „parametrów”, z których każdy opisuje, jak silnie lub słabo jeden neuron wpływa na inny. Ale prawie niemożliwe jest stwierdzenie, co dany parametr robi dla LLM jako całości.

Nawet ogólna struktura sieci neuronowych jest czymś w rodzaju tajemnicy. Czasami możemy dostrzec przebłysk porządku. „T” w GPT oznacza „Transformator”, sposób połączenia sieci neuronowej, aby umożliwić jej naśladowanie pamięci krótkotrwałej, co oczywiście ma sens w przypadku czegoś, co wymaga czytania zdania słowo po słowie. Ale inne aspekty projektowania sieci neuronowych są bardziej oparte na próbach i błędach: na przykład wydaje się, że zmuszenie sieci neuronowej do „przeciśnięcia” myślenia przez wąskie gardło zaledwie kilku neuronów może poprawić jakość danych wyjściowych. Dlaczego? Naprawdę nie wiemy. Po prostu… tak jest.

Strojenie

Nie wszystko wymaga trenowania modelu AI od podstaw. Możesz pomyśleć o 10 milionach dolarów wydanych na GPT-3 jako o koszcie nauczenia sztucznej inteligencji czytania i pisania perfekcyjnego angielskiego. Ale jeśli wszystko, co chcesz zrobić, to opracować sztuczną inteligencję, która może, powiedzmy, pisać dobre artykuły naukowe, nie musisz zaczynać od zera, gdy AI, która potrafi czytać po angielsku, już istnieje: zamiast tego możesz „dostroić” te AI na konkretne dane, z których mają się uczyć, ucząc ich hiperspecyficznych umiejętności za ułamek kosztów. Ale wiąże się to z ryzykiem: takie precyzyjne dostrojenie nieuchronnie zależy od wstępnego szkolenia, nad którym być może nie miałeś kontroli.

Wyrównanie

Z jednej strony „dopasowanie” sztucznej inteligencji jest prostym pytaniem: czy rzeczywiście wyszkoliliśmy sztuczną inteligencję, aby robiła to, czego od niej oczekujemy? Jeśli chcemy sztucznej inteligencji, która może przewidzieć, którzy więźniowie prawdopodobnie ponownie popełnią przestępstwo, ale sztuczna inteligencja wykorzystuje profilowanie rasowe jako podstawową część swojej decyzji, możemy opisać to jako „niezgodne” z naszymi pragnieniami.

Czasami sztuczna inteligencja może nie być wyrównana z powodu złych danych treningowych, które osadzają w niej uprzedzenia i nieścisłości. Jeśli sztuczna inteligencja jest przeszkolona w wykrywaniu recydywistów na podstawie zbioru danych więźniów, nigdy nie dowie się o tych, którzy nie trafili do więzienia; jeśli jest wyszkolony w mówieniu po angielsku ze zbiorem danych obejmującym cały Twitter, może zacząć wypowiadać specyficzne przekonania na temat powiązań między szczepionkami Billa Gatesa, 5G i Covid.

Innym razem sztuczna inteligencja może być niezrównoważona, ponieważ zadaliśmy jej niewłaściwe pytanie. LLM ma na celu przewidywanie, jaki tekst będzie następny, ale czasami tak naprawdę nie jest to to, czego chcemy: czasami wolelibyśmy mieć „prawdziwe” odpowiedzi niż „prawdopodobne”. Czasami wolelibyśmy otrzymać odpowiedzi, które nie powtarzają rasistowskich obelg, nie grożą użytkownikowi ani nie zawierają instrukcji budowania bomb. Ale to nie jest pytanie, które zadaliśmy AI.

A czasami wyrównanie jest używane do oznaczania czegoś bardziej egzystencjalnego. Załóżmy, że prosisz sztuczną inteligencję o optymalizację hali fabrycznej, aby zmaksymalizować wydajność godzinową, a ona decyduje, że najważniejszą rzeczą do zrobienia jest upewnienie się, że nikt nie przerwie produkcji przez następny miliard lat, więc ukrywa w swoich planach technologię, która zabiłaby każdą organiczną formę życia na planecie – to również byłaby niewyrównana sztuczna inteligencja.