Kis-Kovács budapesti olvasónk egy újabb kérdéssel fordult a VÍRUSNAPLÓ szerkesztőségéhez: röviden mit lehet tudni, mit kell tudni a ma sokat emlegetett mesterséges intelligenciáról?

1669544443318aj

A mesterséges intelligencia kutatást két fő iskolára oszthatjuk: a hagyományos MI-re és a számítási intelligenciára (Computational Intelligence, CI).

A hagyományos MI főleg a jelenleg gépi tanulásként osztályozott módszerekből áll, amelyet a formalizmus és a statisztikai analízis jellemez. A terület ismert még szimbolikus MI, logikai MI, tiszta MI (neat AI), és GOFAI (jó, régimódi mesterséges intelligencia) neveken is. A terület a következő módszereket foglalja magába:

  • Szakértői rendszerek, amelyek egy szűk szakmai területen érvényes érvelési szabályokat alkalmaznak következtetések levonásához. A működése során tényekkel, és további tények kikövetkeztetéséhez alkalmas szabályokkal operál. Az egyik legismertebb az 1970-es években létrehozott MYCIN, ami a vér betegségeinek diagnózisához adott segítséget.
  • Esetalapú érvelés
  • Bayes-statisztikán alapuló hálózatok
  • Viselkedésalapú MI: egy moduláris módszer, MI-rendszerek kézi létrehozásához.

A számítási intelligencia az iterációs (lépésenkénti) fejlődést vagy tanulást helyezi előtérbe (például a paraméter hangolást a kapcsolat alapú rendszerekben). A tanulási folyamat gyakorlati tapasztalatokon alapul és nem szimbolikus, koszos MI (scruffy AI) vagy puha számítási technikai módszereket használ.

  • Neuronhálózatok: nagyon erős mintafelismerési képességű rendszerek.
  • Fuzzy rendszerek: technikák a kockázat melletti érveléshez, amelyeket elterjedten használnak modern ipari és fogyasztói szabályozási rendszerekben.
  • Evolúciós számítási technikák, amely a biológia által inspirált fogalmakat (például populáció, mutáció, a legjobb túlélése) alkalmaz egyes problémák egyre jobb megoldásához. Ezek a módszerek az evolúciós algoritmusok (például genetikus algoritmusok) és a raj-intelligencia (például hangya algoritmus) területekre oszthatók.

A két fő irányvonal elemeit próbálták ötvözni a hibrid intelligens rendszerekben, amelyekben a szakértői rendszerek következtetési szabályait hozzák létre neuronhálózatok vagy a statisztikai tanulás képzési szabályainak segítségével.

Legújabb

A mesterséges neurális hálózatok a biológiai neuronhálózatok ihlette gépek illetve programok, amelyek a természetes hálózatokat modellezik. Jellemzőik, hogy rendelkeznek tanulási, valamint a megtanult információ későbbi előhívását lehetővé tevő algoritmussal.

Két kutató, John Abbot és Jennifer Marohasy most egy ilyen gépet épített, és arra használták, hogy a globális felmelegedéssel kapcsolatos számításokat végeztessenek azzal. A mesterséges neurális hálózatra (artificial neural network, ANN) épített intelligencia osztott-szorzott, szó szerint historikus adatokkal, és az jött ki neki: nem az ember rontotta el.

A mesterséges intelligencia megalkotói igyekeztek biztosra menni, és óriási mennyiségű adattal látták el gépüket. Ezt azért tették, hogy a neurális hálózat, azokat feldolgozva, önálló számításokat végezve tudjon következtetni olyan idők hőmérséklet-értékeire, amely korokból nem állnak rendelkezésre ennek feljegyzett értékei. Például a fák évgyűrűinek számából vagy a tengeri élőlényekre vonatkozó adatokból, mintavételes eljárást alkalmazva, képes volt kiszámolni jóval az ipari forradalom előtti értékeket is.

A kutatóknak különösen az elmúlt 100 év volt fontos. Az 1880-as évekre datálható az ipari mértékű károsanyag-kibocsátás kezdete és a metán légköri jelenlétének megnövekedése. Az elmúlt nagyjából száz év sokkal jobban dokumentált ezen a téren is, így a kutatók számára adott volt a lehetőség, hogy a rendelkezésre álló információkat összevethessék a gép kalkulálta előrejelzésekkel.

A mesterséges intelligencia ugyanis nem csak számolt, hanem számításai alapján kalkulált is az elmúlt 100 évre. A tudósok regisztrálták: a történelmi adatok elemzése alapján a gép lényegében ugyanolyan értékeket kapott, mint amelyek rendelkezésre állnak, csak éppen az emisszióra vonatkozó adatok ismerete nélkül.

Ez a kutatók következtetése szerint azt jelenti, hogy a globális felmelegedéssel kapcsolatos változások elviekben függetlenek az emberi tevékenységektől, és mindenképpen bekövetkeztek volna. Gépük szerint ami globális felmelegedésként ismert, nem más, mint egy ismétlődő periódus, melynek ciklikussága száz illetve ezer éves nagyságrendben is kimutatható.

Az ANN számításai szerint a felmelegedés a naptevékenység, a vulkáni működés és a tengeri áramlatok változásainak bonyolult egymásra hatásából adódik. Azt ugyanis a gép is igazolta: a Föld hőmérséklete az elmúlt 100 év távlatában egyértelműen emelkedő tendenciát mutat. Ez azonban a mesterséges intelligencia szerint, nem az ember tevékenységének köszönhető, hanem természetes ismétlődése történelmi mintának.

A mesterséges neurális hálózat teljesítménye a kapott eredménytől függetlenül figyelemre méltó. Kérdés persze, az óriási mennyiségű indulási adat jellege mennyire befolyásolta a gép számításait abban, hogy algoritmusai alapján erre a következtetésre jusson.

Mi a MI?

Eddig arról beszéltünk, hogy miért izgalmas az MI, de nem mondtuk meg, hogy mi is valójában? Az idők folyamán négy irányzat alakult ki. De ahogy ez várható volt, feszültség uralkodik az embercentrikus és a racionalitáscentrikus irányzatok között. Az embercentrikus irányzat szükségképpen empirikus tudomány, hipotézisekkel és empirikus igazolással.

A racionalitáscentrikus megközelítés a matematikára és a mérnöki tudományokra támaszkodik. Mindegyik csoport rágalmazta is, de segítette is a többi csoport munkáját. Nézzük most a négyféle megközelítést kicsit részletesebben.

Emberi módon cselekedni: Turing-teszt megközelítés

A Turing-tesztet (Turing-test) Alan Turing javasolta azzal a céllal, hogy az intelligenciának egy kielégítő munkadefiníciót adjon (Turing, 1950). Ahelyett hogy az intelligenciára jellemző kvalitások hosszú és feltehetően vitás listáját megadná, Turing egy tesztet javasolt, amelynek alapja a vitathatatlanul intelligens entitástól – egy embertől – való megkülönböztethetetlensége. A számítógép akkor állja ki a próbát, ha az emberi kérdező néhány írásos kérdés feltevése után nem képes eldönteni, hogy az írásos válaszok egy embertől vagy egy géptől érkeznek-e. A tesztet a 26. fejezet tárgyalja részletesen, ahol azzal is foglalkozunk, hogy intelligensnek mondható-e a számítógép, ha teljesíti a tesztet. Jelenleg igen sok feladatot jelent egy gépet úgy programozni, hogy teljesítse a tesztet. A számítógépnek a következő képességekkel kellene rendelkeznie

  • természetes nyelvfeldolgozás (natural language processing) a sikeres angol (illetve más emberi) nyelvű párbeszédhez;
  • tudásreprezentáció (knowledge representation) az ismert vagy hallott információ tárolására;
  • automatizált következtetés (automated reasoning), hogy a tárolt információt kérdések megválaszolására és új következtetések levonására használjuk;
  • gépi tanulás (machine learning) az új körülményekhez való adaptálódáshoz, a mintázatok detektálására és általánosítására.

A Turing-teszt a kérdező és a számítógép közötti fizikai kölcsönhatást szándékosan kerülte, mert egy személy fizikai szimulációja az intelligenciához nem szükséges. Az ún. teljes Turing-teszt (total Turing-test) azonban videojelet is fel kell dolgozzon, hogy a kérdező tesztelni tudja az illető érzékelési képességeit, valamint tartalmazza annak a lehetőségét is, hogy a kérdező az objektumokat átadhassa „egy nyíláson keresztül”. A teljes Turing-teszt teljesítéséhez a számítógépnek szüksége lesz:

  • gépi látásra (computer vision), az objektumok érzékeléséhez és
  • robotikára (robotics) az objektumok mozgatásához.

Ez a hat terület nagyjából lefedi az MI-t. Turing becsületére válik, hogy egy olyan tesztet talált ki, amely 50 év múltával is releváns maradt. Az MI-n belül a kutatók sok erőfeszítést mégsem fejtettek ki a Turing-teszt teljesítése érdekében, abban a hiedelemben, hogy a mögötte sorakozó elvek tanulmányozása fontosabb, mint egy példány duplikálása. A „mesterséges repülés” kutatása akkor járt sikerrel, amikor a Wright testvérek abbahagyták a madarak utánzását, és az aerodinamikát kezdték tanulmányozni. A repüléssel foglalkozó könyvek nem azt a célt fogalmazzák meg, hogy olyan „gépeket kellene építeni, amelyek annyira hasonlóan repülnek a galambokhoz, hogy ezzel akár más galambokat is képesek megtéveszteni”.

Emberi módon gondolkodni: a kognitív modellezés

Ha azt szeretnénk kijelenteni, hogy egy program emberi módon gondolkodik, valamilyen módon meg kellene határoznunk, hogy az emberek hogyan gondolkodnak. Ehhez az emberi elme működési mechanizmusának belsejébe kellene tudnunk belenézni. Két módja van ennek: önelemzés révén – az átsuhanó gondolataink megragadásával – vagy pszichológiai kísérletekkel. Ha egyszer majd rendelkezünk az elme elegendően részletes elméletével, lehetségessé válik az elmélet számítógépes programmal való kifejezése. Ha a program bemenetei és kimenetei, valamint időzítése az emberi viselkedéssel megegyeznek, ez egyben bizonyíték arra, hogy a program bizonyos mechanizmusai feltehetően az emberben is megtalálhatók. Így például Newell és Simon, akik az „általános problémamegoldót (General Problem Solver, GPS)” (Newell és Simon, 1961) kifejlesztették, csupán azzal, hogy a programjuk helyesen oldja meg a problémákat, nem voltak elégedettek. Jobban érdekelte őket, hogy összehasonlítsák a program következtetési lépéseit az ugyanazon a feladaton dolgozó emberek lépéseivel. Az MI számítógépes modelljeit és a pszichológia kísérleti technikáit a kognitív tudomány (cognitive science) interdiszciplináris területe kapcsolja össze azáltal, hogy kísérletet tesz precíz és verifikálható elméletek megfogalmazására az emberi elme működéséről.

A kognitív tudomány önmagában is vonzó terület, annyira, hogy egy önálló enciklopédia létrehozásának is van értelme (Wilson és Keil, 1999). A könyvünkben meg sem kíséreljük leírni, hogy az emberi megismerésből mit tudunk már. Esetenként azonban kitérünk az MI-technikák és az emberi gondolkodás közötti hasonlóságokra és különbségekre. Az igazi kognitív tudomány – szükségszerűen – a valódi emberek, illetve állatok kísérleti kutatásán alapul, mi pedig feltételezzük, hogy az olvasó a kísérleteihez csupán számítógéppel rendelkezik.

Az MI-kutatás kezdeti szakaszában a megközelítéseket sokszor össze is keverték. Egy szerző állíthatta például, hogy ha egy algoritmus egy feladaton jól vizsgázik, akkor jó modellje az emberi képességeknek, és megfordítva. A mai szerzők a kétféle igényt elkülönítik. Ez a megkülönböztetés mind az MI, mind a kognitív tudomány gyorsabb fejlődését tette lehetővé. Az MI és a kognitív tudomány folyamatosan termékenyítően hatnak egymásra, különösképpen a látás és a természetes nyelv vonatkozásában. A látás a közelmúltban különösen sokat fejlődött a neurofiziológiai eredményeket és a számítási modelleket összefogó integrált megközelítés révén.

Racionálisan gondolkodni: a gondolkodás törvénye

Arisztotelész görög filozófus volt az elsők egyike, aki megkísérelte a „helyes gondolkodás”, azaz a megcáfolhatatlan következtetési folyamatok törvényekbe foglalását. Híres szillogisztikája (syllogisms) olyan mintákat szolgáltatott a következtetési sémákhoz, amelyek helyes premisszákból mindig helyes következményekre vezettek. Például „Szókratész egy ember; minden ember halandó; azaz Szókratész halandó.” Ezekről a gondolkodási törvényekről feltételezték, hogy az elme működését irányítják, és ezek indították el a logika (logic) tudományának kialakulását.

A 19. században a logikusok – a logika tudományát művelők – megadták a világ mindennemű objektumára és az azok közötti relációkra vonatkozó állításoknak a precíz megfogalmazását. (Hasonlítsuk ezt a közönséges aritmetikai jelölésrendszerhez, ami főleg a számokon értelmezett egyenlőségek és egyenlőtlenségek kifejezésére alkalmas.) 1965-ben léteztek már olyan programok, amelyek – legalább elvben – képesek voltak tetszőleges, logikai jelölésekkel kifejezett problémához megadni a probléma megoldását. Az MI-n belül uralkodó logicista (logicist) hagyomány azt reméli, hogy ilyen programokra alapozva intelligens rendszereket képes létrehozni.

Ennek a megközelítésnek két alapvető baja van. Először is a logikai jelölésrendszer által igényelt formális elemekkel informális tudást kifejezni nem ilyen egyszerű, különösen ha a tudás nem 100%-osan biztos. A másik az, hogy nagy a különbség egy probléma „elvi”, illetve gyakorlati megoldása között. Már a néhány tíz tényt kitevő problémák megoldása is kimerítheti egy tetszőleges számítógépes rendszer számítási erőforrásait, hacsak valamilyen módon nincs vezérelve, hogy melyik következtetési lépésekkel próbálkozzék először. Annak ellenére, hogy ez a két probléma a számítógépes következtető rendszer bármilyen elven történő fejlesztésénél felbukkan, először a logicista hagyományban jelent meg.

Racionálisan cselekedni: a racionális ágens

Egy ágens (agent) nem más, mint valami, ami cselekszik (az ágens szó forrása a latin agere – cselekedni). Számítógépes ágensektől azonban elvárjuk, hogy legyenek más jellemzői is, amelyekben különböznek a „mezei” programoktól. Ilyen jellemzők például az autonóm vezérlés felügyelte cselekvés, a környezet észlelése, a hosszabb idejű tartós létezés, a változásokhoz történő adaptáció és mások céljainak az átvétele. Egy racionális ágens (rational agent) a legjobb kimenetel érdekében vagy – bizonytalanság jelenlétében – a legjobb várható kimenetel érdekében cselekszik.

A „gondolkodás törvénye” megközelítésben a hangsúly teljes egészében a korrekt következtetéseken volt. Korrekt következtetések meghozatala egyes esetekben a racionális ágensek részét képezi, hiszen a racionális cselekvés egyik módja, hogy logikusan következtetve olyan következményekre jutunk, hogy adott cselekvés a céljaink elérését biztosítja. A korrekt következtetés azonban nem egésze a racionalitásnak, mert gyakran megesik, hogy akkor is cselekedni kell, amikor bizonyíthatóan korrekt cselekvés nem létezik. A racionális cselekvésnek olyan esetei is vannak, amikor következtetésnek nyoma sincs. Így például a forró kályhától a kezet elrántó reflexszerű cselekvés sikeresebb, mint a tudatos megfontolásból adódó lassabb mozdulat.

A Turing-teszthez szükséges minden képesség lényeges a racionális cselekvés megvalósítása szempontjából. A tudásreprezentálás és a következtetés képessége szükséges ahhoz, hogy a helyzetek széles spektrumában helyes döntésre juthassunk. Természetes nyelven megfogalmazott érthető szövegek kimondásával egy komplex társadalomban is elboldogulunk. Tanulásra nem a műveltség kedvéért van szükség. A világ működéséről alkotott jobb elképzelések hatékonyabb stratégiákhoz vezethetnek a környezetünkkel való kapcsolat kialakításában. A vizuális érzékelés nem azért szükséges, mert látni szórakoztató dolog, hanem mert így jobb elképzelésünk lesz arról, hogy egy cselekvéssel mit érhetünk el. Egy ízletes falat látványa például segít abban, hogy tudatosan érte nyúljunk.

Emiatt az MI-nek mint racionális ágensek tervezésének a tanulmányozása két előnyt jelent. Először is ez a megközelítés a „gondolkodás törvénye” megközelítésnél általánosabb, hiszen a korrekt következtetés csupán egyike a racionalitást biztosító mechanizmusoknak. Másodszor, tudományosan jobban is kezelhető, mint azok a megközelítések, amelyek az emberi viselkedésen vagy emberi gondolkodáson alapulnak, mert a racionalitás mértéke jól definiált és teljesen általános. Az emberi viselkedés viszont egy bizonyos specifikus környezethez jól adaptálódott, és részben egy olyan bonyolult, zömében nem ismert evolúciós folyamat eredménye, amely valószínűleg még messze áll a tökéletességtől. Könyvünk tehát a racionális ágensek általános elveire és a létrehozásukhoz szükséges komponensekre koncentrálódik. Látni fogjuk, hogy a problémamegfogalmazás látszólagos egyszerűsége ellenére, hihetetlen sok következménnyel kell szembenéznünk, ha megkíséreljük a problémát megoldani.

Egy fontos dologról nem szabad elfeledkezni: rövidesen meglátjuk, hogy összetett környezetben a tökéletes racionalitást – mindig helyesen cselekedni – lehetetlen elérni. A számítási szükségletek egyszerűen túl nagyok. A könyv nagyobb részében azonban azzal a munkahipotézissel fogunk élni, hogy a tökéletes döntéshozatal megértése jó kiindulópont. A probléma így egyszerűbbé válik, és megfelelő keretet nyújt a területhez tartozó alapozó anyag többségéhez. A korlátozott racionalitással (limited rationality) – azaz megfelelően cselekedni, miközben az összes kívánt számítás elvégzésére nincs elegendő idő.

A mesterséges intelligencia története

A mesterséges intelligencia érlelődése (1943–1955)

Az első olyan eredményt, amit ma általánosan MI-eredménynek ismernek el, Warren McCulloch és Walter Pitts érte el (McCulloch és Pitts, 1943). Három forrásból merítettek: az alapszintű fiziológiai és az agyi neuronok működésére vonatkozó ismeretekből, az ítéletkalkulus Russell és Whitehead-féle formális elemzéséből és Turing számításelméletéből. Egy mesterséges neuron modellt javasoltak, ahol minden neuron vagy „bekapcsolt”, vagy „kikapcsolt” állapotban lehet, és ahol az átkapcsolás „be” állapotba akkor történik, amikor a neuront kellő számú szomszédos neuron stimulálja. A neuron állapotáról azt tartották, hogy „ténylegesen azzal a logikai állítással ekvivalens, amely a megfelelő ingert kiváltotta”. Kimutatták például, hogy összekapcsolt neuronok valamilyen hálózatával minden kiszámítható függvény előállítható, és hogy egyszerű hálóstruktúrákkal az összes logikai műveletet (ÉS, VAGY, NEM stb.) is elő lehet állítani. McCulloch és Pitts azt is felvetette, hogy egy megfelelően kialakított háló képes lehet tanulni is. Donald Hebb egy olyan egyszerű értékfrissítő szabályt mutatott be a neuronok közötti összeköttetések erősségének módosítására, amely lehetővé teszi a tanulást (Hebb, 1949). Tanulási szabálya, amit Hebb-tanulásnak (Hebbian learning) nevezünk, máig érvényes hatású modellnek bizonyult.

1951-ben a Princeton Egyetem matematika tanszékén két végzős hallgató – Marvin Minsky és Dean Edmonds – megépítette az első neurális számítógépet. A Snarc-nak elnevezett gépben 3000 elektroncső és a B–24 bombázó automatapilóta mechanizmusa egy 40 neuronból álló hálózatot szimulált. Minsky PhD-bizottsága szkeptikus volt, vajon egy ilyen munkát matematikának lehet-e nevezni, de Neumann János (aki tagja volt a bizottságnak) állítólag úgy nyilatkozott, hogy „ha ez nem is matematika most, valamikor az lesz”. Minsky volt később az, aki nagy hatású tételeivel kimutatta a neuronhálós kutatás korlátait.

Sok kezdeti eredményt lehetne MI-nek nevezni, azonban egy teljes elképzelést az MI-ről 1950-ben Alan Turing fogalmazott meg a Computing Machinery and Intelligence c. cikkében. Itt vezette be a Turing-teszt, a gépi tanulás, a genetikus algoritmusok és a megerősítéses tanulás fogalmakat.

A mesterséges intelligencia megszületése (1956)

Princeton volt az otthona az MI egy másik befolyásos személyiségének, John McCarthynak. Az egyetem befejezése után McCarthy a Dartmouth College-ba került, ami a témakör hivatalos szülőhelye lett. McCarthy meggyőzte Minskyt, Claude Shannont és Nathaniel Rochestert, hogy segítsenek neki azokat az amerikai kutatókat összehozni, akik érdekeltek az automataelméletben, a neurális hálókban és az intelligencia kutatásában. 1956 nyarán egy két hónapos munkatalálkozót szerveztek Dartmouthban. Összesen tíz résztvevő gyűlt össze, beleértve Trenchard More-t Princetonból, Arthur Samuelt az IBM-től, valamint Ray Solomonoffot és Oliver Selfridge-et az MIT-ből.

A pálmát a Carnegie Tech. két kutatója, Allen Newell és Herbert Simon vitte el. Bár másoknak is voltak ötletei, és néhány esetben konkrét alkalmazásra – dámajátékra – voltak programjaik is, Newell és Simon már egy következtető programmal, a Logic Theorist (LT)-vel rendelkezett. Erről Simon azt állította, hogy „egy olyan programot találtunk fel, amely képes nemnumerikusan gondolkodni, és ezzel meg is oldottuk a tiszteletre méltó anyag-szellem viszony problémáját”. Nem sokkal a munkatalálkozó után a program képes volt bebizonyítani a Russell és Whitehead Principia Mathematica c. művének 2. fejezetében foglalt tételek többségét. Azt mondják, Russell el volt ragadtatva, amikor Simon megmutatta neki, hogy az egyik tétel esetén a program rövidebb bizonyítással állt elő, mint amit a Principiában közöltek. A Journal of Symbolic Logic szerkesztőit kevésbé hatotta meg a dolog. A Newell, Simon és a Logic Theorist szerzői hármastól származó cikket elutasították.

A dartmouthi munkatalálkozó új áttöréshez ugyan nem vezetett, de a fontos személyiségek bemutatkoztak egymásnak. A következő húsz évben ők, továbbá hallgatóik és kollégáik az MIT-n, a CMU-n, a Stanfordon és az IBM-nél lesznek azok, akik meghatározó szerepet töltenek be az MI területén. A munkatalálkozó talán legtartósabb eredménye az volt, hogy elfogadták a terület McCarthy által kreált új nevét, azaz a mesterséges intelligenciát (artificial intelligence). A „számítási racionalitás” talán jobb név lett volna, de az „MI” név azóta is megmaradt.

Ha bepillantunk a dartmouthi munkatalálkozót javasló anyagba (McCarthy és társai, 1955), látjuk, miért volt szükségszerű, hogy az MI egy külön területté váljon. De miért nem lehetett az MI-kutatást az irányításelmélet, az operációkutatás vagy a döntéselmélet keretein belül tartani, amikor ráadásul ezek célkitűzései nagyon hasonlók az MI célkitűzéseihez? Vagy az MI miért nem lett a matematika egyik ága? Az első válasz az, hogy az MI a kezdetek óta sajátjának tekintette az olyan emberi képességek duplikálását, mint a kreativitás, az önfejlesztés és a nyelv használata. Ezekkel a kérdésekkel semmilyen más terület nem foglalkozott. A másik válasz a módszertanban rejlik. Az említett területek közül tisztán csak az MI tekinthető a számítógépes tudományok egy ágának (bár az operációkutatás szintén súlyt helyez a számítógépes szimulációkra). Az MI az egyetlen olyan terület, ahol bonyolult, változó környezetben autonóm módon működő gépek építése a cél.

Korai lelkesedés, nagy elvárások (1952–1969)

Az MI korai évei – bizonyos kereteken belül – bővelkedtek a sikerekben. Ha figyelembe vesszük azoknak az időknek a primitív számítógépeit és programozási eszközeit, továbbá azt, hogy még néhány évvel korábban is csupán aritmetikai feladatok elvégzésére tartották alkalmasnak a számítógépet, megdöbbentő volt, hogy a számítógép akár csak távolról is okosnak tűnő dologra lehet képes. Értelmiségi körökben, összességében, inkább azt szerették volna hinni, hogy „a gép X-re soha nem lesz képes” (az X-ek, Turing által kigyűjtött hosszú listája a 26. fejezetben található). Az MI kutatói természetesen erre azzal válaszoltak, hogy egymás után demonstrálták az X-eket. A modern MI-kutatók közül néhányan úgy említik ezt az időszakot, mint a „Nézze uram, biz’ isten, magától megy!” idejét.

Newell és Simon kezdeti sikerét az általános problémamegoldó program, a General Problem Solver, GPS követte. A Logic Theoristtal ellentétben ezt a programot eleve úgy tervezték, hogy az emberi problémamegoldás protokolljait imitálja. Az derült ki, hogy a program által kezelhető feladványok osztályán belül, a részcélok és a lehetséges cselekvések megfontolásának sorrendje tényleg hasonlított ahhoz, mint ahogy a hasonló problémákon dolgozó emberek cselekszenek. Így, a GPS volt talán az első, az „emberi módon gondolkodni” megközelítést megtestesítő program. A GPS és az azt követő programok sikere arra késztette Newellt és Simont (Newell és Simon, 1976), hogy megfogalmazzák híres fizikai szimbólumrendszer hipotézisüket (physical symbol system), amely azt állítja, hogy „a fizikai szimbólumrendszerek az általános intelligens cselekvés szükséges és elégséges eszközeivel rendelkeznek”. Arra gondoltak, hogy minden, intelligenciát felmutató rendszernek (legyen az ember vagy gép) képesnek kell lennie arra, hogy szimbólumokból álló adatstruktúrákat manipuláljon. Később látni fogjuk, hogy e hipotézist több irányból is megtámadták.

Az első néhány MI-programot az IBM-nél Nathaniel Rochester és kollégái fejlesztették ki. Herbert Gelernter egy olyan geometriai tételbizonyító programot (Geometry Theorem Prover, Gelernter, 1959) írt, mely sok matematikus hallgató által trükkösnek talált tételt tudott bebizonyítani. 1952-től kezdve Arthur Samuel dámajátékot játszó programokat írt, amelyek végül megtanultak egy erős amatőr versenyzői szinten játszani. Eközben sikerült megcáfolnia, hogy a számítógép csak arra képes, amire utasítják, hiszen programja gyorsan megtanult nála is jobban játszani. A program tv-bemutatása 1956 februárjában igen nagy hatást keltett. Turinghoz hasonlóan Samuelnek is csak nehezen sikerült gépidőt szereznie. Éjszaka dolgozott, az IBM számítógépes üzemében végtesztelésre váró gépeket használva.

John McCarthy Dartmouth-ból átment az MIT-re, és ott egyetlen év alatt, a történelminek nevezhető 1958-as évben, három kulcsfontosságú eredményt ért el. Az 1. számú MIT AI Lab Memóban definiálta a Lispet, amely elsődleges MI-programozási nyelvvé nőtte ki magát. A Lisp a második legrégebbi nyelv, amely még használatban van, a Fortrannál csak egy évvel fiatalabb. A Lisp esetén McCarthy rendelkezett már a szükséges eszközzel, de a ritka és drága számítógépes erőforrásokhoz való hozzáférés számára is komoly problémát jelentett. Így aztán az MIT-n McCarthy és mások kitalálták az időosztást. Szintén 1958-ban McCarthy Programs with Common Sense címen cikket publikált, amelyben az Advice Takert írta le. Ez egy hipotetikus program, amit az első teljes MI-rendszernek tekinthetünk. A Logic Theoristhez és a Geometry Theorem Proverhez hasonlóan McCarthy programja is tudást használt fel egy probléma megoldásának megtalálásához. Azonban másokkal ellentétben, ennek a programnak a világra vonatkozó általános tudással kellett rendelkeznie. McCarthy megmutatta például, hogy néhány egyszerű axióma elegendő ahhoz, hogy programja képes legyen terveket generálni arra vonatkozóan, hogyan kell a repülőtérre kimenni ahhoz, hogy a repülőgépet le ne késsük. A programot úgy tervezte, hogy képes legyen normális működés közben új axiómákat is elfogadni, és ennek eredményeként átprogramozás nélkül új területeken is kompetenciát mutatni. Az Advice Taker ily módon a tudásreprezentáció és a következtetés leglényegesebb elveit testesítette meg, miszerint hasznos, ha rendelkezünk a világot és az ágens cselekvéseinek eredményét leíró explicit és formális reprezentációval, és képesek vagyunk ezt a reprezentációt deduktív módon manipulálni. Figyelemre méltó, hogy 35 év múltával még mennyire releváns maradt az 1958-as cikk.

1958 volt az az év is, amikor Marvin Minsky az MIT-re ment át. Kezdeti együttműködése McCarthyval nem tartott sokáig. McCarthy a reprezentációra és a formális logikai következtetésre tette a hangsúlyt, Minskyt inkább az érdekelte, hogy a programok működőképesek legyenek, majd végül logikaellenes álláspontra helyezkedett. 1963-ban McCarthy a Stanfordon megalakította az ottani MI-labort. Kutatási programja – amely arra irányult, hogy a logikát felhasználja a legvégső Advice Taker építésében – lökést kapott, amikor J. A. Robinson felfedezte a rezolúciót, az elsőrendű logika teljes bizonyítási eljárását. A Stanfordon a kutatás hangsúlyozottan a logikai következtetés általános módszereire irányult. A logika alkalmazásaihoz tartoztak Cordellnek a Green kérdését megválaszoló és tervkészítő rendszerei (Green, 1969b), továbbá Shakey robotikus projektje az új Stanfordi Kutatóintézetben (Stanford Research Institute, SRI). Ez a projekt volt az első, amely a logikai következtetést és a fizikai aktivitást teljes egészében integrálta.

Minsky a hallgatók egész sorát irányította, akik a megoldásokhoz láthatóan intelligenciát igénylő, korlátos problémákkal foglalkoztak. Ezeket a korlátos problématerületeket később mikrovilágoknak (microworlds) nevezték el. James Slagle SAINT nevű programja (Slagle, 1963a) képes volt az elsőéves analízis tanfolyamra jellemző, zárt alakra hozható integrálszámítási feladatokat megoldani. Tom Evans ANALOGY programja (Evans, 1968) az IQ-tesztekben előforduló geometriai analógia jellegű problémákat oldotta meg.

A mikrovilágok legismertebbike a kockavilág lett, amely egy asztalra (vagy gyakrabban egy szimulált asztalra) helyezett tömör geometriai testekből áll (lásd 1.5. ábra). Az ilyen világban értelmezett feladat a kockák egy bizonyos átrendezése egy olyan robotkar segítségével, amely egyszerre egyetlenegy kockát képes megfogni. A kockavilág otthont adott David Huffman gépi látási projektjének (Huffman, 1971), David Waltz gépi látási és kényszerterjesztés-kutatásának (Waltz, 1975), Patrick Winston tanulási elméletének (Winston, 1970), Terry Winograd természetes nyelvfeldolgozási programjának (Winograd, 1972) és Scott Fahlman tervkészítő programjának (Fahlman, 1974).

A McCulloch és Pitts neurális hálóin alapuló kezdeti kutatás szintén virágzott. Winograd és Cowan eredményei megmutatták, hogy a nagyszámú elem hogyan képes együttesen egy egyedi fogalmat reprezentálni, miközben növeli a párhuzamosságot és a robusztusságot (Winograd és Cowan, 1963). Hebb tanulási módszereit Bernie Widrow (Widrow és Hoff, 1960; Widrow, 1962) fejlesztette tovább, aki a hálózatait adaline-oknak nevezte, továbbá Frank Rosenblatt, aki a perceptronokat vezette be (Rosenblatt, 1962). Rosenblatt bebizonyította perceptron konvergencia tételét (perceptron convergence theorem), kimutatva ezzel, hogy tanulási algoritmusa képes a perceptron súlyait úgy módosítani, hogy az tetszőleges bemeneti adatokhoz illeszkedjen, feltéve, hogy ilyen illeszkedés egyáltalán lehetséges.

Egy adag realitás (1966–1973)

Az MI kutatói már a kezdetekben sem voltak szégyenlősek a várható sikereiket illetően. Gyakran idézik Herbert Simonnak a következő, 1957-ből származó kijelentését: Sem meglepni, sem sokkolni senkit nem célom – de a legegyszerűbben összefoglalva azt mondhatom, hogy a világban léteznek ma már gondolkodó, tanuló és kreatív gépek. E képességük rohamosan fog fejlődni, és – a közeljövőben – az általuk feldolgozott problémák köre összemérhető lesz azokkal a problémákkal, amelyekkel az emberi elme eddig megküzdött.

Bár vitatható, hogy „közeljövőnek” mi tekinthető, Simon néhány más előrejelzése konkrétabb volt. Megjósolta, hogy tíz éven belül a számítógép sakkvilágbajnok lesz, és hogy a gép fontos új matematikai tételeket fog bebizonyítani. Ezek a jóslatok, ha nem is tíz, hanem inkább negyven év múltával (közelítőleg vagy teljesen), de beigazolódtak. Simon magabiztossága a korai MI-programok egyszerű példaproblémákon felmutatott sikereiből táplálkozott. Ezek a korai rendszerek azonban majdnem minden esetben szánalmasan csődöt mondtak, ha szélesebb körben vagy netán nehezebb problémákra akarták őket bevetni.

A nehézség egyik forrása az volt, hogy a korai programok az általuk kezelt problémákról sokszor kevés vagy szinte semmi tudást nem tartalmaztak, és csupán egyszerű szintaktikai manipulálással értek el sikereket. Egy tipikusnak mondható történet a korai gépi fordítással kapcsolatos. A gépi fordítást a Nemzeti Kutatási Alap (National Research Council) bőkezűen finanszírozta azért, hogy a Szputnyik 1957-es kilövését követően meggyorsítsák az orosz tudományos cikkek fordítását. Kezdetben azt vélték, hogy az angol és az orosz nyelvtanra alapozó egyszerű szintaktikai transzformációk és az elektronikus szótárra alapozó szóbehelyettesítés elegendő lesz a mondat pontos értelmének átadásához. Valójában a fordításhoz a téma általános ismerete szükséges, hogy feloldhassuk a kétértelműségeket, és a mondat jelentését megállapítsuk. „A szellem készséges, de a test gyenge” („the spirit is willing but the flesh is weak”) híres visszafordítása „a vodka jó, de a hús romlott”-ra („the vodka is good but the meat is rotten”) a tapasztalt nehézségeket világosan érzékeltette. Egy tanácsadó bizottság 1966-os jelentése azt állapította meg, hogy az „általános tudományos szöveg fordítása még nem megoldott, és a közeljövőben e téren gyors előrehaladás nem is várható”. Az egyetemi gépi fordítási projekteknek a kormány általi finanszírozását Amerikában teljesen megszüntették. Manapság a gépi fordítás egy nem tökéletes, ám széles körben alkalmazott eszköz műszaki, kereskedelmi, kormányzati és internetdokumentumok esetében.

A másik nehézséget az jelentette, hogy sok olyan probléma, amelyeket az MI által kíséreltek megoldani, kezelhetetlen volt. A korai MI-programok többsége úgy dolgozott, hogy a problémára vonatkozó alapvető tényeket gépen reprezentálva, megoldó lépésszekvenciákat próbáltak ki, a különféle lépéskombinációkkal addig kísérletezve, amíg nem leltek rá a helyesre. A korai programok azért voltak használhatók, mert a mikrovilágok csak kevés objektumot, és ebből adódóan nagyon kevés lehetséges cselekvést és nagyon rövid megoldási sorozatokat tartalmaztak. Az NP-teljesség elméletének megfogalmazása előtt általában azt tartották, hogy a nagyobb problémákra „felskálázni” csupán gyorsabb hardver és nagyobb memória kérdése. A rezolúciós tételbizonyítás kifejlesztését kísérő optimizmus például hamarosan lelohadt, amikor a néhány tucat ténynél többet igénylő tételeket nem sikerült bebizonyítani. Az a tény, hogy egy program egy megoldás megtalálására elvben alkalmas, nem jelenti azt, hogy a program bármi olyan mechanizmust is tartalmaz, amely a megoldás gyakorlati megvalósításához szükséges.

A korlátlan számítási kapacitás illúziója nem csak a problémamegoldó programokra korlátozódott. A gépi evolúció (machine evolution), amelyet most genetikus algoritmusoknak (genetic algorithms) nevezünk (Friedberg, 1958; Friedberg és társai, 1959), területén végzett korai kísérletek azon a kétségtelenül helyes feltevésen alapultak, amely szerint ha egy gépi kódú programot megfelelően kicsi mutációk révén változtatunk, tetszőleges, egyszerű feladatot jól megoldó programhoz juthatunk el. Az ötlet tehát az volt, hogy véletlen mutációkkal próbálkozva, a program viselkedését javító mutációkat tartsuk meg. Azonban ezernyi óra gépidő ellenére sem sikerült szinte semmilyen előrehaladást kimutatni. A korszerű genetikus algoritmusok jobb reprezentációkat használnak, és több sikerre is vitték.

Az volt az MI ellen irányuló legfontosabb kritika a Lighthill-tanulmányban (Lighthill, 1973), hogy nem képes leküzdeni a „kombinatorikus robbanást”. A tanulmány alapján a brit kormány, kettő kivételével az összes egyetemen minden MI-kutatási támogatást visszavont (a szóbeszéd kissé más és színesebb képet fest a nyomdafestéket nem tűrő politikai ambíciókról és a személyes ellenségeskedésről).

A harmadik nehézség forrását az intelligens viselkedés generálásához használt alapvető struktúrák fundamentális korlátai jelentették. Minsky és Papert Perceptrons c. könyve (Minsky és Papert, 1969) például azt bizonyította be, hogy bár a perceptron (a neurális háló egy egyszerű formája) megtanulhat mindent, amit képes reprezentálni, vajmi keveset képes reprezentálni. Így például a két bemenetű perceptront nem lehet megtanítani arra, hogy a bemeneteinek különbözőségét felismerje. És bár a szerzők eredményei bonyolultabb, többrétegű hálókra nem vonatkoztak, a neurális hálók kutatásának finanszírozása rövidesen majdnem nullára esett vissza. A sors iróniája, hogy a többrétegű neurális hálók későbbi, az 1980-as években történő óriási feltámadását hozó új visszaterjesztéses tanuló algoritmust éppen 1969-ben fedezték fel először (Bryson és Ho, 1969).

Tudásalapú rendszerek: a hatalom kulcsa? (1969–1979)

A problémamegoldásnak az a képe, amely az MI-kutatás első évtizedében alakult ki, egy olyan általános célú kereső mechanizmus volt, amely a teljes megoldás megtalálásának érdekében szekvenciába fűzte az elemi következtetési lépéseket. Az ilyen megközelítéseket gyenge módszereknek (weak methods) nevezték, mert annak ellenére, hogy általánosak, a problémák nagy vagy nehéz példányaira nem skálázhatók fel. A gyenge módszerek alternatívája az erőteljesebb, területspecifikus tudás használata, amely lehetővé teszi a nagyobb granuláltságú következtetési lépések megvalósítását, és szűkebb szakértői tárgyterületeken a tipikus konkrét problémák megoldását. Ahhoz, hogy egy nehéz problémát megoldjunk, mondhatni majdnem kész válasszal kellene rendelkeznünk.

E megközelítés egyik korai példája a DENDRAL program volt (Buchanan és társai, 1969). A programot a Stanfordon fejlesztették ki, ahol Ed Feigenbaum (Herbert Simon volt hallgatója), Bruce Buchanan (a számítógépes szakemberből lett filozófus) és Joshua Lederberg (Nobel-díjas genetikus) összefogtak, hogy a tömegspektrométer által szolgáltatott adatokból a molekuláris struktúra kinyerésének problémáját megoldják. A program bemeneti adatai a molekula alapképlete (például C6H13NO2) és a tömegspektrum voltak. A spektrum megadta a molekula bizonyos részeinek a tömegét, amikor a molekulát elektronsugárral bombázták. A tömegspektrum tartalmazhatott például m = 15-nél egy csúcsot, amit a metil (CH3) molekularésszel lehetett azonosítani.

A program naiv verziója a molekula képletével konzisztens minden lehetséges struktúrát előállított. Ezt követően minden egyes struktúrához megjósolta a megfelelő megfigyelhető tömegspektrumot, és ezt hasonlította össze az aktuálisan megfigyelt spektrummal. Ahogy várható volt, nagyobb molekulák esetén az eljárás gyorsan kezelhetetlenné vált. A DENDRAL kutatói analitikus vegyészekhez fordultak segítségért. Azt találták, hogy a vegyészek a spektrumban a molekulában található elterjedt részstruktúrákra utaló, jól ismert csúcsmintákat keresik. Így például a keton (C = O) alcsoport (amely 28 súlyú) felismeréséhez az alábbi szabály volt használatos: ha két olyan csúcs, x1 és x2 létezik, hogy

  1. x1 + x2 = M + 28 (M a teljes molekula tömege);
  2. x1 – 28 egy magas csúcs;
  3. x2 – 28 egy magas csúcs;
  4. x1 és x2 közül legalább egy csúcs magas, akkor ketoncsoport van jelen.

Azzal, hogy felismerjük, hogy egy konkrét részstruktúra a molekula része, a lehetséges struktúrajelöltek száma nagyon nagy mértékben csökken. A DENDRAL-rendszer hatékony volt, mert: Az ilyen problémák megoldásához szükséges összes elméleti tudást sikerült (a rendszer spektrumjósló komponensében) leképezni az általános formáról („elsődleges ismeretek”) egy hatékony speciális formára („szakácskönyv”).

A DENDRAL fontossága abban rejlik, hogy vitathatatlanul ez volt az első sikeres tudásintenzív rendszer. Szakértelmét a nagyszámú speciális rendeltetésű szabály biztosította. A későbbi rendszerekben szintén megjelent a McCarthy-féle Advice Taker egyik fő gondolata – a (szabályformájú) tudás és a következtető komponens határozott elkülönítése.

Okulva az ilyen leckén, Feigenbaum és mások a Stanfordon belekezdtek a heurisztikus programozási projektbe (Heuristic Programming Project, HPP) azzal a céllal, hogy megvizsgálják, a szakértőrendszereknek (expert systems) ez az új módszertana milyen mértékben alkalmazható az emberi szakértelem más területein. A következő komoly erőfeszítés az orvosi diagnózis területén született meg. Feigenbaum, Buchanan és dr. Edward Shortliffe vérrel kapcsolatos fertőzések diagnosztizálására fejlesztették ki a MYCIN-rendszert. 450 szabályával a MYCIN elérte az egyes szakértők hatékonyságát és a kezdő orvosoknál lényegesen jobb teljesítményt nyújtott. A MYCIN két fő vonatkozásban különbözött a DENDRAL-tól. Először is, a DENDRAL szabályaival ellentétben, a MYCIN-szabályok származtatásához nem létezett semmilyen általános elméleti modell. A szabályokat a szakértők kiterjedt kikérdezése révén kellett beszerezni, akik viszont a szabályokat könyvekből, más szakértőktől és közvetlen tapasztalatokból merítették. A másik különbség abból eredt, hogy a szabályoknak tükrözniük kellett az orvosi ismeret bizonytalanságát. A MYCIN-ben bizonyossági tényezőknek (certainty factors) (lásd 14. fejezet) nevezett bizonytalanságkezelő mechanizmust alkalmaztak, amelyről akkortájt úgy tűnt, jól tükrözi a tényállás diagnózisra gyakorolt hatásának orvosi megítélését.

A tárgytartomány ismeretének fontossága nyilvánvaló volt a természetes nyelvfelismerés területen is. Bár Winograd természetes nyelvfelismerő rendszere, a SHRDLU igen élénk érdeklődést keltett, a szintaktikai elemzéstől való függősége néhány, a kezdeti gépi fordításban már tapasztalt problémához vezetett. A program képes volt a kétértelműségen felülkerekedni, és a névmási szerkezeteket megérteni. Ez azonban azért volt lehetséges, mert a programot kifejezetten egy adott tárgytartományhoz – a kockavilághoz – fejlesztették ki. Néhány kutató, köztük Eugene Charniak, Winograd végzős társa az MIT-ről, felvetette, hogy a természetes nyelv robusztus felismerése a világról szóló általános ismereteket és ezen ismeretek általános felhasználási módszereit igényli.

A Yale-en, Roger Schank, a nyelvésszé lett MI-kutató, ezt a nézetet még jobban hangsúlyozta, azt állítván, hogy „olyan dolog, mint a szintaxis pedig nincs”, ami ugyan sok nyelvészt felháborított, de egyben egy hasznos eszmecserét is elindított. Schank és hallgatói a természetes nyelvet felismerő programok egész sorát építették meg (Schank és Abelson, 1977; Wilensky, 1978; Schank és Riesbeck, 1981; Dyer, 1983). A hangsúlyt azonban kevésbé magára a nyelvre, sokkal inkább a nyelv megértéséhez szükséges tudás reprezentálására és a vele való következtetésre helyezték. E problémakörbe tartozott a sztereotip helyzetek reprezentálása (Cullingford, 1981), az emberi memória szervezésének leírása (Rieger, 1976; Kolodner, 1983) és a célok, tervek megértése (Wilensky, 1983).

A valós alkalmazások széles körű elterjedése a működőképes tudásreprezentációs sémák iránti igények növekedéséhez vezetett. Számos különböző reprezentációs és következtető nyelvet fejlesztettek ki. Egyes megoldások a logikán alapultak – például a Prolog nyelv, amely Európában, és a PLANNER nyelvcsalád, amely az Egyesült Államokban lett népszerű. Mások, a Minsky által bevezetett keretek (frames) (Minsky, 1975) ötletét követve, inkább strukturált megközelítést választottak. Egybegyűjtöttek bizonyos eseménytípusokra vagy objektumokra jellemző tényeket, majd azokat a biológiai taxonómiára hasonlító nagy taxonomikus típushierarchiákba rendezték.

Az MI iparrá válik (1980-tól napjainkig)

Az első üzletileg sikeres szakértőrendszert, az R1-et a Digital Equipment Corporationnél (McDermott, 1982) alkalmazták. A rendszer az új számítógépes rendszerek megrendeléseit segítette konfigurálni, és 1986-ra évi mintegy 40 millió dollár megtakarítást jelentett a cégnek. 1988-ra a DEC MI-csoportja már 40 szakértőrendszert állított üzembe, és több ilyen rendszer üzembe állítása folyamatban volt. A DuPont cégnél 100 ilyen rendszer üzemelt, és folyamatban volt további 500 rendszer fejlesztése. Az ezekből származó becsült megtakarítás elérte az évi 10 millió dollárt. Majdnem minden nagyobb amerikai cég saját MI-csoporttal rendelkezett, és vagy használta, vagy tanulmányozta a szakértőrendszer technológiát.

1981-ben a japánok meghirdették az „ötödik generációs” (Fifth Generation) projektjüket – egy 10 éves tervet a Prolog nyelvet gépi kódként használó, intelligens számítógépes rendszerek építésére. Válaszul az Egyesült Államokban létrehozták az MCC (Microelectronics and Computer Technology Corporation) kutatótársulatot, amelynek célja a nemzeti versenyképesség biztosítása volt. Mindkét esetben az MI egy olyan általánosabb erőfeszítés része lett, amely a chiptervezésre és az ember–gép interfész kutatására is irányult. Az MCC és az Ötödik Generáció MI-komponensei azonban az ambiciózus célkitűzéseket mégsem tudták elérni. Nagy-Britanniában az Alvey-jelentés visszaállította a Lighthill-jelentés következtében leállított finanszírozást.

Mindent egybevéve az MI-iparnak az 1980-as néhány millió dolláros forgalma 1988-ra 2 milliárd dollárra nőtt. Rövidesen ezután az „MI tele” periódus következett be, amikor sok cég belebukott abba, hogy extravagáns ígéreteit nem tudta teljesíteni.

A neurális hálók visszatérése (1986-tól napjainkig)

Bár a számítógép-tudomány az 1970-es évek végén a neurális hálók témakörről megfeledkezett, a kutatás más területeken folytatódott. A fizikusok, mint például Hopfield, a statisztikus mechanika módszereit használták, hogy a hálók tárolási és optimalizálási tulajdonságait elemezzék (Hopfield, 1982), úgy kezelve az egyszerű neuronok együttesét, mint atomok együttesét. A pszichológusok, David Rumelhartot és Geoff Hintont is beleértve, folytatták a memória neurális hálós modelljének kutatását. Mint ezt a 20. fejezetben megmutatjuk, az igazi lökés az 1980-as évek derekán történt, amikor legalább négy különböző kutatócsoport újra feltalálta a visszaterjesztéses tanuló algoritmust, azt az algoritmust, amit először Bryson és Ho írtak le 1969-ben. Az algoritmust számos tanulóproblémára alkalmazták mind a számítógépes tudományokban, mind a pszichológiában. Az eredmények széles körű bemutatására a nagy érdeklődést keltő Parallel Distributed Processing c. (Rumelhart és McClelland, 1986) gyűjteményes kötetben került sor.

Az intelligens rendszereknek ilyen, ún. konnekcionista (connectionist) modelljeit egyesek a Newell és Simon javasolta szimbolikus modellek, valamint a McCarthy és mások által alkalmazott logicista megközelítés közvetlen versenytársának vélték (Smolensky, 1988). Hogy egy bizonyos szinten az ember szimbólumokkal operál, nyilvánvalónak tűnhet. Sőt Terrence Deakon The Symbolic Species c. művében (Deakon, 1997) ezt a képességet az embereket definiáló jellemzőnek javasolja. A legmegrögzöttebb konnekcionisták azonban kérdőre vonták a tekintetben, hogy a kognitív folyamatok részletes modelljében a szimbolikus manipulációnak van-e egyáltalán valamilyen valós magyarázó szerepe. Ez a kérdés megválaszolatlan maradt, és a jelenlegi álláspont az, hogy a konnekcionista és a szimbolikus megközelítések egymás kiegészítői, nem pedig versenytársak.

Az MI tudománnyá válik (1987-től napjainkig)

A legutóbbi években az MI-kutatásnak mind tartalmában, mind módszertanában lényeges változások álltak be. Mostanság inkább megszokott létező elméletekre építeni, mint teljesen újakat javasolni, az állításokat az intuíció helyett inkább szigorúan vett tételekre, illetve komoly kísérleti bizonyítékokra alapozni, továbbá a lényeges eredményeket nem játékproblémákon, hanem valós feladatokon bemutatni.

Az MI-t részben a létező kutatási területek – mint az irányításelmélet és a statisztika – korlátaival szembeni kitörési vágyból alapították meg. Most azonban az MI ezeket a területeket igyekszik magában foglalni. David McAllester szavaival: Az MI korai szakaszában plauzíbilisnak tűnt, hogy a szimbolikus számítások új formái, például a keretek és szemantikus hálók, a klasszikus elméletek nagyobb részét elavulttá tették. Ez egyfajta elszigetelődéshez vezetett, ahol az MI a számítási tudomány többségétől el lett választva. Ezzel az izolacionizmussal most szakítunk. Fel kell ismerni, hogy a gépi tanulást nem szabad elszigetelni az információelmélettől, hogy a bizonytalanság melletti következtetést nem szabad elszigetelni a sztochasztikus modellezéstől, hogy a keresést nem szabad elszigetelni a klasszikus optimalizálástól és szabályozástól, és hogy az automatikus következtetést nem szabad elszigetelni a formális módszerektől és a statikus elemzéstől.

Módszertanát tekintve az MI-ben végre a tudományos megközelítés uralkodott el. Hogy egy hipotézist elfogadhassunk, szigorú empirikus kísérleteknek kell alávetni, és az eredmények relevanciáját statisztikailag kell verifikálni (Cohen, 1995). Manapság a kísérletek reprodukálhatóságát az internet és a megosztott tesztadat- és programkódtárak szavatolják.

Ez a folyamat a beszédfelismerés területén jól látható. Az 1970-es években igen sok különböző architektúrát és megközelítést próbáltak ki. Ezek közül sok ad hoc jellegű és gyenge volt, amelyek működését csupán néhány, erre a célra megválasztott példán demonstrálták. A legutóbbi években a rejtett Markov-modelleken (hidden Markov models, HMM) alapuló megközelítések uralják e területet. A HMM-ek két aspektusa lényeges. Először is szigorú matematikai elméleten alapulnak. Ez lehetővé tette, hogy a beszédkutatók a más területeken kifejlesztett több évtizedes matematikai eredményekre építsenek. Másodszor, e modelleket valós és nagyméretű beszédgyűjteményt felhasználó tanulási folyamat során hozzák létre. Ez biztosítja robusztus működésüket. A szigorú vaktesztek a rejtett Markov-modellek folyamatos javulását mutatják. A beszédtechnológia és a vele rokon kézírás-felismerés útban van a széles körű ipari és fogyasztói alkalmazások felé.

Ez a trend a neurális hálókra is igaz. Az 1980-as években a kutatás többsége arra irányult, hogy kitapasztalják, a hálókkal meddig mehetnek el, és hogy megtanulják, a hálók a „hagyományos” technikáktól miben különböznek. A jobb módszertan és az elméleti háttér révén eljutottak ahhoz, hogy most a hálókat össze lehet hasonlítani a megfelelő statisztikai, alakfelismerési és gépi tanulási technikákkal, és az adott alkalmazáshoz meg lehet választani a leginkább sikerrel kecsegtetőt. Az ilyen fejlődés eredményeképpen az adatbányászat (data mining) technológia virágzó új iparrá nőtte ki magát.

Judea Pearl Probabilistic Reasoning in Intelligent Systems c. műve a valószínűség- és a döntéselmélet MI-n belüli újbóli elfogadását jelezte (Pearl, 1988). Mindez azt követően történt, hogy Peter Cheeseman In Defense of Probability cikkében összefoglalta az érdeklődés újraéledését (Cheeseman, 1985). A Bayes-hálók (Bayesian networks) formalizmusát a bizonytalan tények hatékony ábrázolására és a velük történő szabatos következtetés céljára találták ki. Ez a megközelítés a valószínűségi következtető rendszerek 1960-as és 1970-es években tapasztalt problémáit nagyrészt megoldotta, és ma uralja a bizonytalan következtetésre és a szakértőrendszerekre irányuló MI-kutatásokat. Ez a megközelítés teszi lehetővé a tapasztalatból való tanulást és ez kapcsolja össze a klasszikus MI és a neurális hálók legfontosabb eredményeit. Judea Pearl, továbbá Eric Horvitz és David Heckerman munkája támogatta a normatív szakértőrendszer gondolatát, azaz egy olyan rendszerét, amely a döntéselméleti törvényeknek megfelelően racionálisan cselekszik, és nem kísérli meg az emberi szakértőket imitálni (Pearl, 1982a; Horvitz és Heckerman, 1986; Horvitz és társai, 1986). A Windows™ operációs rendszer tartalmaz néhány normatív szakértőrendszert a felmerülő hibák javítására.

Hasonló szelíd forradalom következett be a robotika, a gépi látás és a tudásreprezentációk területén. A problémák és bonyolultságuk jobb megértése, a növekvő matematikai háttérrel összefonódva, robusztusabb módszerekhez és megvalósítható kutatási menetrendekhez vezetett. Sok esetben a formalizálás és a speciálizálódás felaprózódást eredményezett. Az olyan témák, mint a látás és a robotika az MI fő vonalától egyre jobban elszigetelődnek. Az MI-nek a racionális ágensben megtestesült egységesítő képe egy olyan megközelítés, amely e divergáló területeken újra egységet teremthet.

Az intelligens ágensek kialakulása (1995-től napjainkig)

Valószínűleg az MI részproblémáiban elért sikereken felbátorodva a kutatók elővették a „teljes ágens” problémakörét. A teljes ágensarchitektúra legismertebb esete a SOAR, Allen Newell, John Laird és Paul Rosenbloom munkája (Newell, 1990; Laird és társai, 1987). Az ún. beágyazott mozgalom célul tűzte ki a valós környezetbe ágyazott, folytonos szenzorikus adatokat fogadó ágensek működésének a megértését. Az intelligens ágensek szempontjából az egyik legfontosabb környezet az internet. A világhálós alkalmazásokban az MI-rendszerek annyira mindennaposak lettek, hogy a „-bot” szóvégződés már a mindennapi nyelvbe is beépült. Ráadásul az MI-technológiák sok olyan internetes eszköznek képezik az alapját, amilyenek a keresőgépek, az ajánló rendszerek és a weboldalszerkesztő rendszerek.

E könyv első kiadása (Russell és Norvig, 1995) mellett más kurrens könyv is átvette az ágensperspektívát (Poole és társai, 1998; Nilsson, 1998). A teljes ágenstervezés egyik következménye, hogy fel kell ismerni, az MI eddig elszigetelt területeit minden bizonnyal valamelyest át kell szervezni, ha az eredményeiket össze akarjuk kapcsolni. Ma már széles körben elfogadott, hogy az érzékelő rendszerek (látás, szonár, beszédfelismerés stb.) nem képesek a környezetről tökéletesen megbízható információt szolgáltatni. A következtetésnek és a tervkészítésnek így fel kell készülnie a bizonytalanság kezelésére. Az ágensperspektíva másik lényegi következménye, hogy az MI az ágensekkel foglalkozó más területekkel, például az irányításelmélettel és a gazdaságtannal, sokkal közelebbi kontaktusba került.

A mesterséges intelligencia jelenlegi helyzete

Mit tehet az MI manapság? Nehéz erre tömör választ adni, mert annyi minden történt, és olyan sok a művelt részterület. Az alábbiakban bemutatunk néhány alkalmazást, másokról a könyv további részeiben szó lesz.

Autonóm tervkészítés és ütemezés: Több száz millió mérföldre a Földtől a NASA Remote Agent programja lett az első fedélzeti autonóm tervkészítő program, amely egy űrhajó műveleteinek ütemezését felügyelte (Jonsson és társai, 2000). A Remote Agent a terveit a Földről küldött magas szintű célokból generálta, és a tervek végrehajtása közben monitorozta az űrhajó működését, hibákat detektált, diagnosztizált, és visszaállította a helyes működést, ha problémák léptek fel.

Kétszemélyes játékok: Az IBM Deep Blue rendszere lett az első számítógépes sakkprogram, amely legyőzte a világbajnokot, amikor egy bemutató mérkőzésen 3,5 : 2,5 arányban győzedelmeskedett Garri Kaszparov felett (Goodman és Keene, 1997). Kaszparov nyilatkozata szerint egy „újfajta intelligenciát” érzett a sakktábla mögött. A Newsweek újság a mérkőzést az „agy utolsó védelmi vonalának” titulálta. Az IBM részvényei 18 milliárd dollárral emelkedtek.

Autonóm szabályozás: Az ALVINN számítógépes látórendszert arra tanították, hogy egy gépkocsit egy közlekedési sávot követve vezessen. A rendszert a CMU NAVLAB számítógép-vezérelt kis tehergépkocsijára helyezték, és arra használták, hogy az Egyesült Államokon keresztül elnavigáljon. A 2850 mérföldes távból a rendszer az idő 98%-ban vezetett. A maradó 2%-ért, főleg a sztrádalejáratokon, az ember vállalta felelősséget. A NAVLAB videokamerákkal rendelkezik, amelyek az ALVINN számára közvetítik az út képeit. A tanulóutakból szerzett tapasztalatok felhasználásával az ALVINN számítja ki a kormánykerék legjobb beállítását.

Diagnózis: Valószínűségi elemzésen alapuló orvosi diagnosztizáló rendszerek az orvosi tudományok több területén szakértő orvosok szintjén voltak képesek helytállni. Heckerman (Heckerman, 1991) leír egy esetet, amikor a nyirokcsomó-patológia egyik vezető szakembere gúnyolódó megjegyzést tesz egy pokolian nehéz esetet diagnosztizáló program javaslatára. A rendszer fejlesztője azt javasolja, hogy kérdezze meg a rendszertől a diagnózis magyarázatát.

A gép rámutatott a döntését befolyásoló fő tényezőkre, és megmagyarázta az adott esetben jelentkező tünetek bonyolult kölcsönhatását. A szakember végül egyetértett a programmal.

Logisztikai tervkészítés: 1991-ben, az Öböl-válság idején az amerikai haderő automatikus logisztikai tervkészítésre és a szállítás ütemezésére egy DART – Dynamic Analysis and Replanning Tool – nevű rendszert alkalmazott. A rendszer működése egyidejűleg 50 ezer (teher- és személyszállító-) járműre terjedt ki, figyelembe vette a kiindulási és célállomásokat, útvonalakat és az összes paraméter közötti konfliktusfeloldást is. MI-technikák révén a terv órák alatt kész volt, szemben a heteket igénylő korábbi megoldásokkal. A Védelmi Kutatási Ügynökség (Defense Advanced Research Project Agency, DARPA) közleménye szerint, csupán ezen egyetlen alkalmazás kapcsán megtérült a DARPA által 30 éven keresztül az MI-re fordított befektetés.

Robotika: A mikrosebészetben manapság sok sebész robotsegédekre támaszkodik. A HipNav rendszer, miután számítógépes látási technikák segítségével létrehozta a páciens belső anatómiájának háromdimenziós modelljét, robotszabályozással irányítja a csípőprotézis behelyezését (DiGioia és társai, 1996).

Nyelvmegértés és problémamegoldás: A PROVERB rendszer a legtöbb embernél jobb keresztrejtvényfejtő (Littman és társai, 1999). Ehhez rendelkezik a lehetséges megfejtő szavakra vonatkozó korlátozásokkal, a régebbi keresztrejtvények nagy adatbázisával és sokféle információs forrással, szótárakat és az olyan online adatbázisokat is beleértve, mint mozicímlisták a bennük szereplő színészekkel. Így például képes megállapítani, hogy a „Nice Story” meghatározás megoldása „ETAGE”, mert az adatbázisában „Story in France/ETAGE” meghatározás/megoldás pár szerepel, és felismeri, hogy a „Nice X” és „X in France” mintáknak sokszor azonos a megoldása. A program természetesen nem tudta, hogy Nice egy város Franciaországban, a keresztrejtvényt mégis képes volt megoldani.

Fentiek csupán példák a ma létező mesterséges intelligencia rendszerekre. Nem mágia vagy sci-fi – inkább tudomány, technika és matematika.

Összefoglalás

  • Az egyes emberek különböző módon vélekednek az MI-ről. A két fontos felteendő kérdés az, hogy: a gondolkodás vagy a viselkedés az, ami Önt érdekli? Embereket akar modellezni, vagy egy idealizált megközelítést választ?
  • Mi azt a nézetet fogadjuk el, hogy az intelligencia lényegében a racionális cselekvéssel kapcsolatos. Egy intelligens ágens, ideális esetben, az adott szituációban a legjobb cselekvéshez folyamodik. Az ilyen értelemben vett intelligens ágensek építési problémáit  kell tanulmányozni.
  • A filozófusok (i. e. 400-ig visszamenőleg) tették lehetővé az MI kialakulását azáltal, hogy felvetették: az elme bizonyos értelemben gépszerű, hogy valamilyen belső nyelvezetben kódolt tudásanyagon operál, és hogy a gondolat a helyes cselekvés megválasztásának eszköze.
  • A matematikusok megadták a logikailag biztos, valamint a bizonytalan valószínűségi állítások manipulálásának eszközét. Megadták annak az alapjait is, hogy megértsük a számításokat és az algoritmusokról következtethessünk.
  • A közgazdászok formalizálták a döntéshozatal folyamatát, hogy a döntéshozónak maximális várható hasznot biztosítson.
  • A pszichológusok megerősítették azt a gondolatot, hogy az ember és az állatok információprocesszáló gépezetnek tekinthetők. A nyelvészek azt mutatták ki, hogy a nyelvhasználat ezzel a modellel összhangban van.
  • A számítógép-technika biztosította az MI alkalmazását lehetővé tevő „műterméket”. Az MI-programok nagyok, a működésük lehetetlen lenne a memóriának és a sebességnek a számítógépes ipar biztosította nagyfokú fejlődése nélkül.
  • Az MI történetében voltak sikeres időszakok, de megtalálhatók a téves optimizmus és a lelkesedés, valamint a finanszírozás elapadása következtében beálló hanyatlás ciklusai is. Voltak időszakok, amelyek során új kreatív megközelítések bevezetése és a legjobb ötletek szisztematikus finomítása történt meg.
  • Az MI fejlődése az utolsó évtizedben a tudományos módszereknek a kísérletezésben és a megközelítések összehasonlításában való szélesebb körű alkalmazása következtében felgyorsult.
  • Az intelligencia elméleti alapjainak megértésében bekövetkezett jelenlegi fejlődés kéz a kézben együtt járt a valós rendszerek képességeinek javulásával. Az MI egyes részterületei jobban integrálódtak, és az MI és más tudományágak megtalálták a közös alapjukat.
  • Kedves VÍRUSNAPLÓ olvasó, ha a bejegyzés olvasásával eddig jutottál, szerkesztőségünk címedre egy értékes könyvet küld karácsonyra. Jelentkezési idő: 2022. December 3.

A MESTERSÉGES INTELLIGENCIA SEGÍTSÉGÉVEL AKÁRKI LEHET ZENESZERZŐ ÉS MEGNYERHETI AZ EURÓAVIZÓ DALÁT

A mesterséges intelligencia egyik lehetséges felhasználása, amiről több elemző is írt már, a zenekészítés megnyitása a nem professzionális közönség számára. Ezt csinálja a 2021-ben indult Starmony app is. A felhasználónak mindössze a vokált kell felénekelnie, és ehhez a mesterséges intelligencia illeszti hozzá a kíséretet.

Első körben a hangfelvétel elemzése alapján három lehetőséget ajánl fel, aztán a kiválasztott kíséretet felhasználva egy teljes dalt generál. Ezután még van lehetőség a változtatásra, kiegészítésre: a “stúdió módban” fel lehet venni intrót, verzéket, refréneket és outrót. A vokált lehet vágni és néhány effektet is rá lehet rakni, pl. zengetést, AutoTune-t.

Az app által elkészített mix ellenőrzése után akár a stream szolgáltatókhoz is fel lehet tölteni az elkészült dalt, a szükséges metaadatok megadásával.

A Starmony sajtóanyaga ugyan olyasmiket ír, hogy az app “demokratizálja a zenekészítést”, és “az előadók következő generációja számára ugyanazokat a lehetőségeket biztosítja, mint a hagyományos lemezcégek”, egyéb kommunikációjuk realistább: elsősorban arról van szó, hogy a kész dalt a közösségi oldalakon megoszthatjuk ismerőseinkkel, felhasználhatjuk TikTok-videókban.

A svéd cégnek a producerek számára is van ajánlata. Mint azt az alábbi videó elmagyarázza, a honlapon itt feliratkozva fel lehet tölteni zenei alapokat, és ha egy felhasználó a mi zenénkre írja meg a maga dalát, akkor jogdíj is érkezhet. (Egy-egy zene több dalba is bekerülhet.) A közös jogkezelőknek is jelentett felhasználások utáni jogdíj 50%-át tartja meg a Starmony a zene elkészítésében, terjesztésében, adminisztrációjában játszott szerepéért; 25% jár az énekesnek / felhasználónak, 25% a producernek.

A cég elsősorban azt ajánlja a producereknek, hogy a gépükön amúgy is megtalálható, meg nem jelent alapokat töltsék fel. Nemrég egy nagynevű producer zenéi is bekerültek a rendszerbe – emiatt szerepelt most a Starmony a hírekben -: BricksDaMane a hiphop olyan sztárjaival dolgozott már, mint Drake, Lil Wayne és a Migos.

ILLUSZTRÁCIÓKÉNT PÁR MI DAL:

Kategóriák