Miesięcznik Federacji Stowarzyszeń Naukowo-Technicznych NOT

Baner poziomy

Technologiczne falstarty – SHRDLU, pradziadek asystentów głosowych

Modele językowe przebojem wdarły się zarówno do powszechnej świadomości, jak i najzupełniej praktycznych zastosowań biznesowych, w rekordowo krótkim czasie rewolucjonizując sposób, w jaki wyszukujemy i przetwarzamy informacje oraz wytwarzamy teksty użytkowe.

Ogromny sukces i popularyzacja generatywnej sztucznej inteligencji nastąpiły w ciągu kilku ostatnich lat, pomysł zatem, iż ktoś mógł wymyślić, a nawet skutecznie zrealizować podobny system już ponad pół wieku temu wydawać się może niedorzeczna. Wydarzenie takie jednak faktycznie miało miejsce, a co więcej stworzone wówczas narzędzie (przynajmniej pod pewnymi względami) wykazywało nawet przewagę nad używanymi obecnie modelami LLM.

Pogadajmy z komputerem

Najsłynniejszy filmowy „gadatliwy komputer” występuje w „Odysei Kosmicznej 2001” Cubricka, którą w zachodnich kinach można było zobaczyć w 1968 r., dokładnie wtedy, gdy w Massachusetts Institute of Technology rozpoczęto prace nad pierwszym jego realnym odpowiednikiem. Wizje maszyn, z którymi dałoby się porozmawiać znajdujemy jednak już w wielu wcześniejszych produkcjach, co najmniej od lat 50. XX w. Marzenie to podsycane było przez medialne określanie wczesnych maszyn cyfrowych mianem mózgów elektronowych. W rzeczywistości jednak przez pierwsze ćwierćwiecze interakcja z nimi zastrzeżona była dla osób o statusie i umiejętnościach informatycznych – „arcykapłanów”, wymagając, żeby to człowiek opanował posługiwanie się językiem komputera, nie zaś odwrotnie.

Przeszkodę stanowiła tu nie tylko trudność stworzenia syntezatora i analizatora dźwięków mowy (pierwszą piosenkę wykonywaną przez komputer IBM 704 można było usłyszeć już w 1961 r.), ale w równej mierze samo rozumienie i przetwarzanie języka naturalnego nawet wprowadzanego i odczytywanego z terminala tekstowego.

Jedyny stworzony dotąd system konwersacyjny Eliza z 1966 r. był wprawdzie w stanie całkiem skutecznie udawać psychoanalityka, potrafiąc wciągać rozmówców w emocjonalnie zaangażowane konwersacje, osiągał to jednak bez faktycznego rozumienia komunikatów, czy nawet pojedynczych słów, wyszukując jedynie określone wzorce, by następnie zareagować na nie w oparciu o przygotowane wcześniej zestawy reguł.

„Zabawa” klockami

SHRDLU był pierwszym w historii systemem AI zdolnym do faktycznego posługiwania się językiem angielskim: interpretowania i wykonywania poleceń oraz logicznego odpowiadania na pytania. Potrafił również przechowywać kontekst prowadzonej rozmowy, zapamiętywać nowe pojęcia i definicje oraz przeprowadzać wnioskowanie w oparciu o posiadane już informacje.

By móc to osiągnąć jego twórcy zdecydowali się jednak na bardzo istotne uproszczenie. SHRDLU nie funkcjonował w kontekście złożonych problemów rzeczywistości, lecz tylko w swoim własnym, wirtualnym mikroświecie zbudowanym z wielościanów o różnych kształtach, wymiarach i kolorach. Na temat tego ograniczonego uniwersum wiedział on wszystko, potrafił sensownie odpowiadać na złożone pytania odnośnie jego aktualnego stanu oraz realizować dowolne, fizycznie wykonalne operacje na jego elementach zlecone mu przez operatora.

Zalety starej szkoły AI

W tym wąskim, dziedzinowym kontekście wykazywał on faktyczne przewagi nad modelami pokroju Chata GPT. Działał w oparciu o jednoznaczną logikę formalną oraz zaszyte w nim definicje i reguły, jego rozumowanie było zatem wewnętrznie spójne i precyzyjne, a ścieżkę przeprowadzonego wnioskowania można było prześledzić i wytłumaczyć. Ta zrozumiałość i przewidywalność zasadniczo odróżniała go od budowanych współcześnie sieci neuronowych.

Udzielane odpowiedzi były zawsze wiarygodne. Po otrzymaniu niemożliwego do wykonania polecenia informował on o tym, tłumacząc przyczynę z powodu, której nie może ono zostać zrealizowane. Dzisiejsze LLM-y otrzymawszy pytanie, na które nie znają odpowiedzi częstokroć halucynują, serwując użytkownikowi wiarygodnie brzmiące, jednak zupełnie fikcyjne informacje.

Nie można również  pominąć absolutnie nieporównywalnych zasobów niezbędnych do działania ówczesnych i dzisiejszych systemów. Moc obliczeniowa superkomputerów z 1970 r. była szacunkowo 10 miliardów razy mniejsza niż współczesnych. Koszt pojedynczej operacji logicznej zmalał w tym samym okresie w porównywalnym stopniu jednak, złożoność i rozległość budowanych obecnie farm serwerów powoduje, że sam tylko Microsoft zdecydował się zakupić, w celu zaspokojenia swoich potrzeb związanych jedynie z rozwojem sztucznej inteligencji, elektrownię atomową o mocy 835 MW.

Zderzenie z realiami rzeczywistego świata

Pomimo osiąganych sukcesów i entuzjazmu, który wywołał, nadzieje na dalszy spektakularny rozwój AI w oparciu o zastosowaną tutaj metodologię szybko zostały rozwiane. SHRDLU okazał się być mistrzem w jednej tylko dziedzinie. W swoim własnym „świecie bloków” sprawdzał się doskonale, nie był jednak w stanie rozwiązywać rzeczywistych problemów wykraczających poza ten ograniczony kontekst.

Nie mógł też zostać łatwo przeniesiony do innych zastosowań. Reguły, którymi się kierował, musiały zostać wcześniej przemyślane i opracowane przez człowieka. Również skalowanie systemu do obsługi bardziej złożonego środowiska, czy języka okazało się trudne, prowadząc do lawinowego wzrostu złożoności niezbędnych reguł i definicji, a nawet w ramach opanowanej już dziedziny wykazywał on tak zwaną kruchością semantyczną. Wprowadzenie bowiem choćby niewielkich zmian w sposobie formułowania pytań i poleceń mogło powodować, iż przestawał on je w efekcie rozumieć.

Mira Żmijewska