A felderítés-kiaknázás dilemma

Hogyan dönti el egy állat, hogy mikor érdemes új erőforrások után nézni, és mikor érdemes az ismert erőforrásokat kiaknázni? Ez a felderítés-kiaknázás dilemma. Az eddigi vizsgálatokból annyi már kiderült, hogy a dilemma feloldása a homloklebeny prefrontális kéregnek nevezett régiójához köthető. Egy új vizsgálat eredményei azonban a folyamat részleteire is rávilágítanak, és azt sugallják, hogy a felderítés-kiaknázás dilemma feloldása is egy általános jelentőségűnek tartott információfeldolgozási stratégián múlik.

A felderítés-kiaknázás dilemma

A felderítés-kiaknázás dilemma nagyon sokrétű, rengeteg kontextusban felmerülhet. Hogyan kivitelezzük a klinikai gyógyszervizsgálatokat, hogy a lehető legtöbb pácienst megmenthessük? Hogyan minimalizáljuk egy hálózatban az információáramlás késedelmeit? Milyen részvényeket vásároljunk, hogy maximalizáljuk a nyereségünket? Ezek mind a felderítés-kiaknázás probléma speciális esetei, de a probléma az agykutatásban is érdekes: hogyan alakítsa az idegrendszer az állat viselkedését úgy, hogy az a lehető legnagyobb valószínűséggel éljen túl?

Egy ilyen összetett problémát érdemes leegyszerűsíteni, hogy megtalálhassuk a megoldást. A felderítés-kiaknázás probléma esetében két opciónk van: vagy kihasználunk egy erőforrást, vagy újat keresünk. Ha a két opcióhoz társítani tudunk egy-egy értéket, akkor már csak azt kell meghatározni, melyik nagyobb. Egy egyszerű modell tehát képes lehet hatékonyan megoldani a felderítés-kiaknázás problémát, ha ismert az erőforrás értéke, és ismert a felderítés értéke is, amit úgy tudunk számszerűsíteni, ha a környezetben lévő más erőforrások értéke és megtalálásuknak valószínűsége is ismert. Ennyi információ azonban a legtöbb valós helyzetben, ami felderítés-kiaknázás problémának tekinthető, egész egyszerűen nem áll rendelkezésre.

A döntéshozás idegi alapjait vizsgáló kutatók azonban ettől érdekesebb modelleket is alkottak a felderítés-kiaknázás probléma megoldására. Ezek egy típusa például a megerősítéses tanulás alapjaira épít, melynek lényege, hogy egy akció értékét az akció kivitelezése után kialakuló helyzet alapján határozza meg, majd a jövőben ennek megfelelően értékeli, így dönt a lehetőségei között. A megerősítéses tanuláson alapuló modellnek kell még egy határérték, ami alatt már nem igyekszik kiaknázni egy erőforrást, hanem új után néz. Ez a modell már képes megtanulni egy környezet erőforrásainak eloszlását, értékét és optimálisan felhasználni ezeket, ráadásul akkor is, ha a környezet változó, vagyis a benne lévő erőforrások helye és értéke változik.

A felderítés-kiaknázás probléma algoritmikus megoldásának szemléltetésére a Science oldalain a következő példát adta két szakértő. Tegyük fel, hogy egy hajós a kikötő felé tart. Egyenesen halad a célja felé, hiszen ez a legegyszerűbb módja az odajutásnak, vagyis a lehetőségei közül ennek van a legnagyobb értéke, tehát éppen kiaknázza ezt az „erőforrást”. A hajós viszont viharfelhőket vesz észre maga előtt a horizonton, így az egyenes út értéke lecsökken, a határérték alá, ami felfedezésre sarkallja. Ekkor a hajós elkezdi megvizsgálni az alternatíváit, felméri a lehetséges útvonalak értékét, majd, amikor egynek a becsült értéke a megszabott határérték fölé ér, akkor elkezdi azt kiaknázni, vagyis irányt vált, megkerüli a vihart. A hajós agyának tehát le kell képeznie az aktuálisan kiaknázott opció értékét, és valamilyen mechanizmussal képesnek kell lennie felhagyni ezzel a stratégiával, ha az értéke túl alacsonyra csökken. Ez a megerősítéses tanuláson alapuló algoritmus korább vizsgálatok eredményei alapján jól képes reprodukálni a kísérleti személyek döntéseit több olyan feladatban is, melyek felderítés-kiaknázás problémával állítják szembe a résztvevőket. A korábbi eredmények alapján azt is tudni lehet, hogy a prefrontális kéreg ventromediális területén (vmPFC) mérhető aktivitás összefüggésben van a döntések várható értékével, míg a dorzomediális területén (dmPFC) akkor mérhető jelentős aktivitásnövekedés, amikor a kísérleti személyek elhatározzák magukat a felderítésre.

A felderítés-kiaknázás dilemma megoldásához folyamatosan el kell bírálni a stratégiánk megbízhatóságát, értékét, és ha az nem kielégítő, újak keresésébe kell kezdeni (Forrás: Steixner-Kumar és Gläscher, 2020 – Science).

Prediktív kódolás a dilemma megoldásában

Hogy pontosan hogyan oldja meg az agy a felderítés-kiaknázás dilemmát, az továbbra is kérdéses, ennek feltárására tett kísérletet egy francia kutatócsoport. A vizsgálatban olyan epilepsziás betegek vettek részt, akik állapotában gyógyszerekkel nem lehetett változást elérni. A betegeknél emiatt az sebészileg kellett eltávolítani az epileptikus gócot, ennek lokalizálásához az agykéregre helyezett elektródákkal figyelték az agy elektrofiziológiai aktivitását. A prefrontális kéreg területén a két félteke közötti, mediális felszínhez is helyeztek elektródákat, ezért lehetséges volt a ventromediális és a dorzomediális prefrontális kéreg monitorozása is. A betegeknél egyébként halántéklebenyi és fali lebenyi gócokat találtak, a frontális lebenyben nem figyeltek meg működési zavart.

A kísérlet résztvevői egy egyszerű feladatot végeztek el számítógépen. A feladat során négy egyforma szám jelent meg egymás mellett cellákban, a résztvevőknek pedig gombnyomással révén kellett választani egyet a cellák közül. A válasz után a résztvevő visszajelzést kapott arról, hogy helyes volt-e a döntése. A feladat során tehát a résztvevőknek alkalmuk nyílt kitapasztalni az egyes ingerekhez tartozó válaszok értékét, viszont ezek a kontingenciák 33-57 próbánként megváltoztak. A résztvevők tehát eleinte felfedezésre kényszerültek, ki kellett ismerniük a megfelelő válaszok mibenlétét, aztán az ez alapján formált stratégiájukat alkalmazva a helyes válaszokkal kiaknázták a további próbákat.

Az új eredmények szerint a felfedezésre való váltást megelőző próbák végén már egyedi aktivitás jelent meg a vmPFC területén, amit a kimenet után azonnal követett a dmPFC csak ezekre a próbákra jellemző aktivitása (Forrás: Domenech et al., 2020 – Science).

A kutatók ezúttal is azt tapasztalták, hogy a kísérleti személyek és az általuk létrehozott modell döntései nagyon hasonlóak voltak, és a modell segítségével azonosították is azokat a próbákat, amik a résztvevőket újra felderítésre ösztönözték. Ezek a próbák mindig a kontingenciaváltást követő 2. és 8. próba közé estek. Az eredmények szerint a vmPFC-ben az 50 Hz-nél gyorsabb, gamma frekvenciájú aktivitás összefüggést mutatott az épp aktuális stratégia megbízhatóságával. Emellett a felderítésre való átállást megelőző próbák során azt tapasztalták, hogy a vmPFC-ben a béta tartományba (13-30 Hz) eső aktivitás jelentősen megnőtt a döntés meghozása után, majd a kimenet megfigyelését követően lecsökkent a dmPFC théta frekvenciába (4-8 Hz) eső aktivitása. Ezekből a kutatók arra következtettek, hogy a ventromediális prefrontális kéreg kódolja az akciótervek megbízhatóságát, ám amikor a megbízhatóság lecsökken, akkor jelet küld a dorzomediális prefrontális kéregbe és így a következő kimenet már nem csak az adott akcióterv megbízhatóságának frissítését szolgálja, hanem a felfedezésre való váltást is. A dmPFC tehát a vmPFC előzetes jelzése alapján felkészül a jelenleg kiaknázott terv legátlására, és amennyiben a kimenet alapján erre tényleg szükség van, felderítésbe kapcsolja át a rendszert.

Ezt a feldolgozási stratégiát prediktív kódolásnak nevezik, a lényege a jövőben várható események leképezése. A vmPFC az adott akció várható megbízhatóságának fényében készíti fel a dmPFC-t a váltás szükségességére. A prediktív kódolás az utóbbi időkben egyre nagyobb figyelmet kap az idegtudományban, egyesek szerint az idegrendszer által általánosan alkalmazott információfeldolgozási stratégia, aminek így minden idegrendszeri folyamatban fontos szerepe lenne. Ez az eredmény is támogatja ezt a nézetet, bár az általános elfogadásához még minden bizonnyal sok kísérleti eredményre lesz szükség, noha a prediktív kódolás alapgondolata már nagyjából 150 évvel ezelőtt megjelent.

Ez a cikkem az Élet és Tudomány 2020/41. számában jelent meg.

Források

Neural mechanisms resolving exploitation-exploration dilemmas in the medial prefrontal cortex | Science

Strategies for navigating a dynamic world | Science