Artykuł został poświęcony historii i ewolucji ChatGPT oraz modeli GPT – fascynującego narzędzia, które zrewolucjonizowało sposób, w jaki korzystamy z sztucznej inteligencji. Niniejsza podstrona przeniesie Cię w podróż przez kolejne etapy rozwoju ChatGPT, prezentując bogate tło naukowe oraz istotne osiągnięcia, które przyczyniły się do wyłonienia tego niezwykłego systemu.

Zaprezentujemy nie tylko opisy poszczególnych wersji, ale także graficzny przebieg wydarzeń, który pozwoli na lepsze zrozumienie skali i tempa rozwoju tego fenomenu. Omówione będą zarówno kluczowe innowacje, jak i wyzwania napotkane przez zespół badawczy OpenAI, które stały za stworzeniem tego potężnego narzędzia.

Zapraszamy do zgłębienia historii ChatGPT, by odkryć, jak badania w dziedzinie sztucznej inteligencji zaowocowały powstaniem rozwiązania, które obecnie wpływa na życie milionów osób na całym świecie.

Nowe początki

W ciągu ostatnich kilku lat, dzięki wysiłkom niezliczonych inżynierów oprogramowania, lingwistów, analityków i innych ekspertów, dokonano niezwykłych postępów w dziedzinie przetwarzanie języka naturalnego i tworzenia treści przez rozwiązania programistyczne. Wcześniej skupiano się na modelach takich jak BERT i word2vec, jednakże, rok 2022 okazał się punktem zwrotnym w dziedzinie, rozpoczynając w pewnym sensie nową erę.

Za postępami tymi stoi OpenAI, które w zaledwie cztery lata opracowało wiele modeli językowych, które udowodniły eksponencjalny i nieliniowy postęp w obszarze sztucznej inteligencji. Warto zauważyć, że jeden z założycieli OpenAI, Elon Musk, wyrażał w marcu 2023 obawy co do zagrożeń ze strony AI, jednocześnie doceniając jej potencjalne korzyści…

Co to dla nas oznacza? W miarę wzrostu popularności modeli generowania tekstu, istnieje prawdopodobieństwo, że pewne zawody ulegną trwałym zmianom lub staną się przestarzałe w niedalekiej przyszłości; jednak – czy to aby takie nowe?

OpenAI

OpenAI to innowacyjna firma założona w 2015 roku przez wizjonerską grupę liderów technologicznych, w tym Elona Muska, Sama Altmana i innych, w San Francisco, z misją rozwijania i promowania sztucznej inteligencji na rzecz dobra ludzkości. Firma składa się zarówno z korporacji for-profit (OpenAI LP), jak i jej spółki matki, organizacji non-profit (OpenAI Inc.). Elon Musk w 2018 roku zrezygnował z udziału w OpenAI z powodu możliwych konfliktów interesów związanymi z rozwojem sztucznej inteligencji w Tesli dla samochodów samojezdnych. Niemniej jednak, nie zerwał całkowicie z organizacją i nadal pozostaje z nią w kontakcie.

Od początku swojej działalności, OpenAI zyskało uznanie jako ośrodek badawczy na światową skalę, podejmując ambitne projekty, które przyczyniają się do przyspieszenia rozwoju (silnej/ogólnej) sztucznej inteligencji (AGI, ang. General Artificial Intelligence lub Strong Artificial Intelligence).

Misją OpenAI jest tworzenie takiej AGI ;), która byłaby zdolna do wykonywania wszelkich zadań intelektualnych na równi z ludźmi, mając jednocześnie na uwadze przede wszystkim interesy ludzkości. Firma przyjmuje zobowiązanie do długoterminowej współpracy z innymi instytucjami oraz wspiera badań nad AI, które mogą przynieść korzyści społeczeństwu.

W swojej działalności, według swojej strony internetowej oraz ogólnodostępnych materiałów, OpenAI kieruje się zasadami takimi jak: bezpieczeństwo, szeroko zakrojona dystrybucja korzyści, długoterminowe myślenie, a także aktywne uczestnictwo w globalnym społeczeństwie AI. Osiągnięcia firmy obejmują rozwój przełomowych systemów sztucznej inteligencji, takich jak GPT-3/GPT-4, na którym opiera się ChatGPT. Dzięki takim innowacjom OpenAI przyczynia się do kształtowania przyszłości AI, tworząc narzędzia, które mają potencjał zmienić życie ludzi na całym świecie.

Współpraca z Microsoft

W maju 2019 roku organizacja podpisała umowę z Microsoftem, który zainwestował w nią miliard dolarów. Partnerstwo umożliwia licencjonowanie technologii OpenAI w celach komercyjnych, przy czym Microsoft jest uprzywilejowanym partnerem. Umowa obejmuje także wzajemne wsparcie i współpracę w projektach związanych z bezpieczeństwem i ograniczeniami stosowania sztucznej inteligencji oraz jej wykorzystaniem dla dobra społeczeństwa.

Partnerstwo to spotkało się z mieszanymi reakcjami. Z jednej strony, rozwój AI na tym poziomie jest skomplikowanym i kosztownym zadaniem (choćby z raportowanymi kosztami uczenia modeli testowych wahającymi się od 4 do 20 milionów dolarów), co czyni strategiczne partnerstwo z tak dużą firmą jak Microsoft logicznym krokiem. Z drugiej strony, niektórzy wyrazili obawy, że umowa ta stwarza nierówne warunki konkurencji i może prowadzić do monopolizacji.

11 grudnia 2015 - Narodziny
Powstaje OpenAI

Rok 2018
Musk Rezygnuje

30 marca: 
OpenAI powołuje organizację-córkę typu "for-profit"

Od teraz, firma składa się zarówno z korporacji for-profit (OpenAI LP), jak i jej spółki matki, organizacji non-profit (OpenAI Inc.).

Generatywne AI

Historia generatywnych modeli AI sięga lat 50. ubiegłego wieku, gdy powstały pierwsze modele takie jak Hidden Markov Models (HMMs) oraz Gaussian Mixture Models (GMMs). Te modele generowały dane sekwencyjne, takie jak mowa czy serie czasowe. Jednak znaczący postęp w generatywnych modelach nastąpił dopiero po nadejściu uczenia głębokiego.

Przetwarzanie języka naturalnego (NLP) Jednym z pierwszych sposobów generowania zdań była metoda modelowania języka N-gram, w której uczy się rozkładu słów, a następnie przeszukuje się sekwencję w poszukiwaniu najlepszego dopasowania. Ta metoda jest jednak skuteczna tylko dla krótkich zdań.

Aby rozwiązać ten problem, wprowadzono rekurencyjne sieci neuronowe (RNN) do zadań modelowania języka. RNN są w stanie modelować stosunkowo długie zależności i umożliwiają generowanie dłuższych zdań. Później opracowano Long Short-Term Memory (LSTM) oraz Gated Recurrent Unit (GRU), które używają mechanizmu bramek do kontrolowania pamięci podczas uczenia. Metody te są zdolne do uwzględnienia około 200 tokenów.

Modele GPT

Model językowy GPT (Generative Pre-Training Transformer) służy do generowania tekstów. Szczególną popularność zdobyła trzecia wersja tego modelu, która dysponuje aż 175 miliardami parametrów uczenia maszynowego. Jego imponujące osiągi sprawiają, że wygenerowane teksty są trudne do odróżnienia od tych stworzonych przez człowieka. Ale nie zawsze tak było…

Generative Pre-Training Transformer 1 (GPT-1)

GPT-1 zostało uruchomione w 2018 roku. Wytrenowany na ogromnym zbiorze danych BooksCorpus, ten generatywny model języka był zdolny do nauki dużych zależności i zdobycia ogromnej wiedzy na różnorodnych zasobach tekstów. Jeśli chodzi o architekturę, GPT-1 stosuje 12-warstwowy dekoder architektury transformatora z mechanizmem samo-uwagi do uczenia. Jednym z istotnych osiągnięć GPT-1 było zdolność do wykonywania zadań bez wzorca (zero-shot performance / zero-shot learning). To udowodniło, że modelowanie generatywnego języka można wykorzystać z efektywnym konceptem wstępnego uczenia się w celu uogólnienia modelu. GPT, oparte na uczeniu transferowym, stało się potężnym narzędziem do wykonywania zadań związanych z przetwarzaniem języka naturalnego z minimalnym strojeniem (tj. ingerencją człowieka). Otworzyło to drogę dla innych modeli, które mogły dalej rozwijać jego potencjał w generatywnym uczeniu wstępnym z większymi zbiorami danych i parametrami.

GPT-2

W 2019 roku OpenAI opracowało Generative Pre-trained Transformer 2 (GPT-2), używając większego zbioru danych i dodając dodatkowe parametry, aby zbudować silniejszy model języka. Podobnie jak GPT-1, GPT-2 wykorzystuje dekoder modelu transformatora. Niektóre z istotnych usprawnień idących za GPT-2 to jego ulepszona architektura modelu i nowa  implementacja; dzięki 1,5 miliardowi parametrów jest 10 razy większy niż GPT-1 (117 milionów parametrów), posiada też 10 razy większy zbiór danych w porównaniu do swojego poprzednika. Nowy model ponownie został wytrenowany na różnorodnym zbiorze danych, co sprawia, że jest potężny pod względem rozwiązywania różnych zadań językowych związanych z tłumaczeniem, podsumowywaniem tekstów itp., używając jedynie surowego tekstu jako wejścia i przyjmując niewiele lub wcale przykładów danych treningowych. Ewaluacja GPT-2 na kilku zbiorach danych dla zadań downstream pokazała, że znacząco poprawiło dokładność w identyfikacji długich zależności i przewidywaniu zdań.

GPT-3

GPT-3 to już trzecia wersja serii modeli Generative Pre-training od OpenAI. Jest to ogromny model predykcji, zdolny do generowania długich sekwencji oryginalnego tekstu. W prostych słowach, jest to aplikacja, która może automatycznie generować akapity tak unikalne, że brzmią prawie, jakby napisała je żywa osoba. Główną zmianą względem poprzednika jest jego poziom złożenia – zawiera około 175 miliardów parametrów i jest 100 razy większy niż GPT-2. Postęp w rozwoju modelu pozwolił na przełom w postaci nabycia przez model „umiejętności” wykonywania prostych zadań arytmetycznych, w tym tworzenia fragmentów kodu i wykonywania zadań wymagających pewnego poziomu „inteligencji”. Niemniej jednak, gigantyczna liczba parametrów sprawia, że GPT-3 jest zasobożerne i stanowi wyzwanie dla praktycznego zastosowania. 

Celem GPT-3 było przyspieszenie przetwarzania języka i zwiększenie jego możliwości w porównaniu z wcześniejszymi wersjami, bez konieczności szczegółowego strojenia. Podczas gdy wcześniejsze modele przetwarzania języka (takie jak BERT) wymagały dogłębnego strojenia z wykorzystaniem tysięcy przykładów, GPT-3 pozwala na eliminację tego kroku.

Kluczowa różnica między trzema modelami GPT polega na liczbie parametrów: pierwotny model transformatora posiadał około 110 milionów parametrów, GPT-1 zaadaptowało ten rozmiar, GPT-2 zwiększyło liczbę parametrów do 1,5 miliarda, natomiast w GPT-3 liczba ta wzrosła do 175 miliardów, co czyni go największą siecią neuronową.

Uczenie modeli

Jest tajemnicą, na jakich danych opiera się uczenie ostatnich modeli, ale można przypuszczać, że wykorzystano zasoby takie jak Common Crawl (AllenAI), Reddit czy Wikipedia. Jakość zbioru treningowego ma kluczowe znaczenie, gdyż wpływa na precyzję i wiarygodność modelu. W przypadku GPT zdaje się obowiązywać zasada, że „ilość staje się jakością”. Treningowe dane wzbudzają jednak kontrowersje, zarówno ze względu na stronniczość, jak i aspekty prawne. Pamiętajmy jednak, że nadal jesteśmy na początku tej drogi i zawsze mamy miejsce na zmianę na lepsze!

Świadome AI?

Czy GPT posiada świadomość? Odpowiedź jest jasna i  brzmi „nie”. W żadnym z istniejących modeli nie zaobserwowano oznak świadomości czy zdolności samouczenia się. Patrząc jednak na to co można osiągnąć w odpowiedni sposób korzystając z tego narzędzia do głowy przychodzi myśl – „każda wystarczająco zaawansowana technologia jest nieodróżnialna od magii”. Dziś GPT rzeczywiście przypomina magię, lecz w rzeczywistości to jedynie doskonały predyktor.

11 czerwca 2018 rok - GPT-1 premiera 

14 luty 2019 - GPT-2 premiera 

11 czerwca 2020 - GPT-3 premiera 

22 września 2020 - GPT-3 dla Microsoft 

OpenAI ogłosiło, że podpisało umowę z Microsoftem, która umożliwia firmie Microsoft wykorzystanie technologii GPT-3 do opracowywania nowych produktów i usług. Microsoft jest jednym z niewielu partnerów, którzy mają dostęp do GPT-3. Umowa ta pozwala na rozwój i wykorzystanie technologii sztucznej inteligencji w różnych dziedzinach, takich jak przetwarzanie języka naturalnego czy projektowanie interfejsów użytkownika. 

27 stycznia 2022 - InstructGPT (GPT-3.5) premiera

InstructGPT to model sztucznej inteligencji opracowany przez OpenAI, oparty na architekturze GPT-3. Ten model został zaprojektowany z myślą o lepszym zrozumieniu i wykonywaniu instrukcji zawartych w podawanych przez użytkowników pytaniach.

InstructGPT, dzięki swoim zaawansowanym możliwościom generowania języka oraz zdolności do analizy kontekstu, potrafi dostarczyć bardziej precyzyjnych i konkretnych odpowiedzi na różnorodne zapytania. W porównaniu z wcześniejszymi wersjami GPT, InstructGPT ma na celu ułatwienie korzystania z narzędzia przez użytkowników, pomagając w sposób bardziej intuicyjny i skuteczny.

30 listopada 2022 - ChatGPT premiera 

1 luty 2023 - ChatGPT Plus premiera

"Nowy plan subskrypcji, ChatGPT Plus, będzie dostępny za $20/miesiąc, a subskrybenci otrzymają szereg korzyści:

  • Ogólny dostęp do ChatGPT, nawet w godzinach szczytu
  • Szybszy czas odpowiedzi
  • Priorytetowy dostęp do nowych funkcji i ulepszeń\"

14 marca 2023 - GPT-4 premiera 

Według oficjalnego ogłoszenia OpenAI, GPT-4 to obecnie  najbardziej zaawansowany system AI, generujący bezpieczniejsze i bardziej użyteczne odpowiedzi. Dzięki szerszej wiedzy ogólnej i umiejętnościom rozwiązywania problemów, GPT-4 radzi sobie z trudnymi zadaniami z większą precyzją niż poprzednicy. W swojej ostatniej formie, GPT-4 przewyższa ChatGPT szczególnie pod względem zaawansowanego rozumowania. Najnowszy model ma o 82% mniejsze prawdopodobieństwo odpowiedzi na żądania zabronionej treści oraz o 40% większe prawdopodobieństwo dostarczenia odpowiedzi zgodnych z prawdą niż model GPT-3.5. 

25 kwietnia 2022 - ChatGPT Business zapowiedziane 

\"Pracujemy również nad nową subskrypcją ChatGPT Business dla profesjonalistów, którzy potrzebują większej kontroli nad swoimi danymi, jak również dla przedsiębiorstw chcących zarządzać swoimi użytkownikami końcowymi. ChatGPT Business będzie przestrzegać zasad wykorzystania danych naszego API, co oznacza, że dane użytkowników końcowych nie będą domyślnie wykorzystywane do trenowania naszych modeli.\" 

18 maja 2023 - OpenAI wydaje ChatGPT na iOS! 

Aplikacja jest już dostępna dla użytkowników w USA, lecz to pewnie kwestia czasu by poszła w świat.

Model Parametry Warstwy dekodera Rozmiar kontekstu tokenów Warstwa ukryta Rozmiar partii
GPT-1 117 milionów 12 512 768 64
GPT-2 1,5 miliarda 48 1024 1600 512
GPT-3 175 miliardów 96 2048 12 288 3,2 mln
GPT-4 1 bilion 768 8192 do 32 768 49 152 Nieznany

ChatGPT – prawdziwa rewolucja

W listopadzie 2022 roku OpenAI wprowadziło darmową wersję ChatGPT, która ma na celu udzielanie odpowiedzi na pytania i prowadzenie rozmów w formie dialogu. Model jest trenowany na ogromnej ilości tekstu, bez konkretnej instrukcji co do generowanej treści. Gotowy, może być wykorzystany do różnych celów, takich jak generowanie odpowiedzi dla zadanych pytań czy tworzenia nowych tekstów. ChatGPT osiągnął 1 milion użytkowników w zaledwie 5 dni po uruchomieniu.

Zarówno GPT-3.5, jak i ChatGPT zostały wytrenowane na infrastrukturze Azure AI. Podczas treningu ChatGPT zastosowano metodę Reinforcement Learning from Human Feedback (RLHF), która korzysta z tych samych technik co GPT-3.5, ale z inną metodą zbierania danych. Połączono zbiór danych InstructGPT, przekształcony na format dialogu, z  nowymi dialogami stworzonymi przez ludzi (trenerów AI), którzy komunikowali się z modelem odpowiednio jako użytkownik i asystent AI.

Aby stworzyć model nagród dla uczenia ze wzmocnieniem, konieczne było zebranie danych do porównania, które składały się z dwóch lub więcej odpowiedzi, wysoko ocenionych pod względem jakości. Wykorzystano w tym celu „sterowane” rozmowy stworzone przez trenujących AI. Do odpowiedzi generowanych przez model dodawano następnie alternatywy, które oceniali wyznaczeni trenerzy. Model ulepszano w kolejnych iteracjach, korzystając z optymalizacji Proximal Policy Optimization.

Proces generowania tekstu przez ChatGPT zaczyna się od zamiany słów na cyfrowe wektory, tzw. kodowanie. W tym celu używa się słownika, gdzie każde słowo w tekście odpowiada unikalnemu kodowi numerycznemu. Wektory są następnie wprowadzane do modelu, który za pomocą wielu warstw i transformatorów analizuje tekst. ChatGPT stara się określić, które słowa są najbardziej prawdopodobne w danym kontekście, korzystając ze swojej wiedzy o języku (strukturze zdań) oraz informacji uzyskanych podczas wcześniejszego treningu. Na koniec model generuje odpowiedź w formie tekstu i zwraca ją użytkownikowi. Innym sposobem wyjaśnienia powyższego procesu jest to, że model próbuje przewidzieć następne słowo na podstawie poprzednich, uwzględniając kontekst i stosując pewien poziom zmienności.

Wbrew powszechnym przekonaniom, model ChatGPT nie powtarza danych ze zbioru treningowego, lecz generuje nowy tekst, choć zawartość może być podobna lub identyczna. Jest to możliwe dzięki wcześniejszemu treningowi, podczas którego model ChatGPT nawiązał połączenia między bilionami słów. W praktyce oznacza to, że ChatGPT korzysta z wcześniej nabytej wiedzy o języku, tworząc odpowiedzi dostosowane do potrzeb człowieka. Wszystko to umożliwia generowanie angażujących i spójnych tekstów, które wydają się być napisane przez człowieka, a nie maszynę. Warto jednak pamiętać, że mimo zaawansowania technologii, ChatGPT nadal nie posiada świadomości ani zdolności do samouczenia się, co oznacza, że jego odpowiedzi zależą od jakości danych, na których był trenowany oraz z góry nałożonym ograniczeniom.

Model GPT-4

GPT-4, najnowsza wersja modelu od OpenAI, wydanego 14 marca 2023, to przełom w technologii sztucznej inteligencji, który kolejny raz przenosi granicę płynnej komunikacji z maszynami.

Bazując na nowym modelu, ChatGPT pozwala teraz na przetwarzanie tekstu, obrazów i filmów, czyniąc go niezwykle wszechstronnym narzędziem choćby dla marketerów, przedsiębiorstw i osób prywatnych.

W telegraficznym skrócie, GPT-4 jest 10 razy bardziej zaawansowany niż poprzednik (GPT-3.5, czy też inaczej „InstructGPT”). Ta usprawnienie pozwala modelowi lepiej zrozumieć kontekst i rozróżniać niuanse, co przekłada się na dokładniejsze i spójniejsze odpowiedzi. Ponadto, GPT-4 posiada maksymalny limit tokenów wynoszący 32 000 (odpowiednik 25 000 słów), co stanowi znaczny wzrost w porównaniu z 4 000 tokenami (odpowiednik 3 125 słów) w modelu GPT-3.5.

Kluczowe różnice między ChatGPT-4 a ChatGPT-3

Analiza obiektów graficznych

Jedną z głównych różnic między ChatGPT-4 a ChatGPT-3 jest możliwość analizy obiektów graficznych. ChatGPT-4 jest w stanie rozpoznać obiekty w grafikach i zdjęciach, a także generować opisy obrazów z większą precyzją. ChatGPT-3 nie posiada tej funkcjonalności.

Złożoność manipulacji

ChatGPT-4 oferuje bardziej zaawansowaną złożoność manipulacji tekstu w porównaniu do ChatGPT-3. Może tworzyć bardziej skomplikowane struktury zdaniowe, uwzględniając złożone relacje między słowami i wyrażeniami. ChatGPT-4 może przetwarzać większe ilości tekstu i obsłużyć między 8,192, a 32,768 słów w jednej sekwencji, podczas gdy ChatGPT-3 obsługuje maksymalnie 2048 słów.

Możliwości wielojęzyczne

ChatGPT-4 oferuje lepszą obsługę wielu języków niż ChatGPT-3. Może generować wysokiej jakości treści w różnych językach i automatycznie tłumaczyć teksty między językami. ChatGPT-4 obsługuje 50 języków, w porównaniu do 40 języków obsługiwanych przez ChatGPT-3.

Nowe osobowości

ChatGPT-4 oferuje nowe możliwości personalizacji i tworzenia unikalnych osobowości dla botów i aplikacji. Można dostosować jego zachowanie i styl wypowiedzi do konkretnych potrzeb użytkowników. ChatGPT-4 może na przykład zostać zaprogramowany, aby udawał konkretną postać, taką jak bohater z filmu czy książki.

GPT, Chat, czy ChatGPT?

Chociaż zarówno ChatGPT, jak i GPT-3/GPT-4 zostały stworzone przez tę samą firmę badawczą istnieją miedzy nimi fundamentalne różnice:

  • GPT-3 i GPT-4 to ogromne modele językowe, trenowane na terabajtach danych pochodzących z internetowych baz danych, które nadają aplikacjom sztucznej inteligencji (AI) zdolność generowania tekstu. Są to jedne z największych dostępnych sieci neuronowych (naśladujących ludzki mózg): GPT-3 ma 175 miliardów parametrów, które pozwalają na przetwarzanie wprowadzonego tekstu i generowanie odpowiedzi najlepiej pasującej do żądania, a GPT-4 posiada ich już 100 bilionów!
  • ChatGPT to czatbot AI wykorzystujący model językowy GPT do interakcji z ludźmi w sposób konwersacyjny. Jest zoptymalizowany pod kątem dialogu przez ludzkich trenerów, a darmowa wersja opiera się na 175 miliardach parametrów GPT-3, aby generować przekonujące odpowiedzi tekstowe. OpenAI dodało również odpowiednie filtry treści, aby zapobiec ewentualnym błędnym reakcjom (kłamstwom, agresji, mowie nienawiści i innym). To wszystko sprawia, że ChatGPT to niesamowicie przydatne narzędzie, a nauczyć się jak używać ChatGPT to zajęcie na jedno popołudnie 🙂