oldal_banner

hír

A Nagy Nyelvi Modell (LLM) képes meggyőző cikkeket írni gyors szavak alapján, sikeres szakmai vizsgákat tenni, valamint betegbarát és empatikus információkat írni. Az LLM-ben rejlő fikció, törékenység és pontatlan tények jól ismert kockázatai mellett azonban más megoldatlan kérdések is fokozatosan a figyelem középpontjába kerülnek, például a mesterséges intelligencia modelljei, amelyek létrehozásuk és használatuk során potenciálisan diszkriminatív „emberi értékeket” tartalmaznak, és még ha az LLM már nem gyárt tartalmat és nem szünteti meg az egyértelműen káros kimeneti eredményeket, az „LLM értékek” továbbra is eltérhetnek az emberi értékektől.

 

Számtalan példa illusztrálja, hogyan kódolják az MI-modellek betanításához használt adatok az egyéni és társadalmi értékeket, amelyek megszilárdulhatnak a modellen belül. Ezek a példák számos alkalmazást tartalmaznak, beleértve a mellkasröntgen automatikus értelmezését, a bőrbetegségek osztályozását és az orvosi erőforrások elosztásával kapcsolatos algoritmikus döntéshozatalt. Ahogyan azt folyóiratunkban nemrég megjelent cikk is megállapította, az elfogult betanítási adatok felerősíthetik és feltárhatják a társadalomban jelen lévő értékeket és elfogultságokat. Épp ellenkezőleg, a kutatások azt is kimutatták, hogy a MI felhasználható az elfogultság csökkentésére. Például a kutatók mélytanulási modelleket alkalmaztak térdröntgenfelvételeken, és olyan tényezőket fedeztek fel a térdízületben, amelyeket a standard súlyossági mutatók (radiológusok által osztályozott) nem vettek észre, ezáltal csökkentve a megmagyarázhatatlan fájdalomkülönbségeket a fekete és fehér betegek között.

Bár egyre többen felismerik a mesterséges intelligencia modellekben rejlő torzítást, különösen a betanítási adatok tekintetében, az emberi értékek számos más belépési pontja nem kap kellő figyelmet a mesterséges intelligencia modellek fejlesztési és telepítési folyamatában. Az orvosi mesterséges intelligencia a közelmúltban lenyűgöző eredményeket ért el, de nagyrészt nem vette figyelembe explicit módon az emberi értékeket és azok kölcsönhatását a kockázatértékeléssel és a valószínűségi érveléssel, és nem is modellezte.

 

Ezen elvont fogalmak konkretizálása érdekében képzeljük el, hogy endokrinológusként rekombináns humán növekedési hormont kell felírnia egy 8 éves, 3. percentilis alatti fiúnak. A fiú stimulált humán növekedési hormon szintje 2 ng/ml alatt van (referenciaérték >10 ng/ml, az Egyesült Államokon kívüli számos országban a referenciaérték >7 ng/ml), és a humán növekedési hormont kódoló génjében ritka inaktivációs mutációkat észleltünk. Úgy véljük, hogy a humán növekedési hormon terápia alkalmazása ebben a klinikai környezetben nyilvánvaló és vitathatatlan.

A humán növekedési hormon terápia alkalmazása a következő esetekben vitákat válthat ki: egy 14 éves fiú magassága mindig is társai 10. percentilisében volt, és a stimuláció utáni humán növekedési hormon csúcsértéke 8 ng/ml. Nincsenek ismert funkcionális mutációk, amelyek befolyásolhatnák a magasságot, és az alacsony termet más ismert okai sem ismertek, és csontkora 15 év (azaz nincs fejlődési késés). A vita csak részben magyarázható a szakértők által a humán növekedési hormon szintjével kapcsolatos, izolált növekedési hormonhiány diagnosztizálására használt tucatnyi tanulmány alapján meghatározott küszöbértékek közötti különbségekkel. Legalább ugyanennyi vita ered a humán növekedési hormon terápia alkalmazásának kockázat-haszon arányából a betegek, a beteg szülei, az egészségügyi szakemberek, a gyógyszeripari vállalatok és a finanszírozók szemszögéből. A gyermek endokrinológusok a 2 éven át tartó napi növekedési hormon injekciók ritka mellékhatásait mérlegelhetik azzal a valószínűséggel, hogy a felnőttkori testméret a jelenlegihez képest nem vagy csak minimálisan növekszik. A fiúk úgy gondolhatják, hogy még ha a magasságuk csak 2 cm-rel is nő, megéri növekedési hormont injekciózni, de a finanszírozó és a gyógyszeripari vállalat eltérő nézeteket vallhat.

 

Példaként a kreatinin-alapú eGFR-t vesszük, amely egy széles körben használt vesefunkciós indikátor a krónikus vesebetegség diagnosztizálására és stádiumbeosztására, a veseátültetés vagy donoráció feltételeinek meghatározására, valamint számos vényköteles gyógyszer csökkentési kritériumainak és ellenjavallatainak meghatározására. Az EGFR egy egyszerű regressziós egyenlet, amelyet a mért glomeruláris filtrációs ráta (mGFR) becslésére használnak, amely egy referencia standard, de az értékelési módszer viszonylag nehézkes. Ez a regressziós egyenlet nem tekinthető mesterséges intelligencia modellnek, de számos elvet illusztrál az emberi értékekkel és a valószínűségi gondolkodással kapcsolatban.

Az emberi értékek eGFR-be való bekerülésének első lépése az egyenletek illesztéséhez szükséges adatok kiválasztása. Az eGFR-képlet tervezéséhez használt eredeti várakozási sor többnyire fekete és fehér résztvevőkből állt, és számos más etnikai csoportra való alkalmazhatósága nem egyértelmű. Az emberi értékek képletbe való bekerülésének további lépései a következők: az mGFR pontosságának kiválasztása a vesefunkció értékelésének elsődleges céljaként, mi az elfogadható pontossági szint, hogyan kell mérni a pontosságot, és az eGFR használata küszöbértékként a klinikai döntéshozatal kiváltásához (például a veseátültetés feltételeinek meghatározásához vagy a gyógyszerek felírásához). Végül, a bemeneti modell tartalmának kiválasztásakor az emberi értékek is bekerülnek ebbe a képletbe.

Például 2021 előtt az irányelvek azt javasolták, hogy az eGFR-képletben a kreatininszintet a beteg életkora, neme és rassza alapján módosítsák (csak fekete vagy nem fekete egyénekként besorolva). A rasszon alapuló kiigazítás célja az mGFR-képlet pontosságának javítása, de 2020-ban a nagyobb kórházak elkezdték megkérdőjelezni a rasszalapú eGFR használatát, olyan okokra hivatkozva, mint a beteg transzplantációra való jogosultságának késleltetése és a rassz biológiai fogalomként való konkretizálása. A kutatások kimutatták, hogy az eGFR-modellek rassz szerinti tervezése mélyreható és változó hatással lehet a pontosságra és a klinikai eredményekre; ezért a pontosságra való szelektív összpontosítás vagy az eredmények egy részére való összpontosítás értékítéleteket tükröz, és elfedheti az átlátható döntéshozatalt. Végül a nemzeti munkacsoport egy új képletet javasolt, amelyet a rassz figyelembevétele nélkül módosítottak, hogy egyensúlyt teremtsenek a teljesítmény és a méltányosság kérdéseiben. Ez a példa azt szemlélteti, hogy még egy egyszerű klinikai képletnek is számos belépési pontja van az emberi értékekhez.

Orvos virtuális valósággal a kórház műtőjében. Sebész elemzi a beteg szívvizsgálatának eredményét és az emberi anatómiát technológiai digitális futurisztikus virtuális felületen, digitális holografikus, innovatív tudományos és orvosi koncepción.

A csak kis számú prediktív indikátort tartalmazó klinikai képletekhez képest az LLM több milliárdtól több száz milliárdig vagy még több paraméterből (modellsúlyból) állhat, ami megnehezíti a megértését. Azért mondjuk, hogy „nehéz megérteni”, mert a legtöbb LLM-ben a kérdések révén a válaszok kiváltásának pontos módja nem feltérképezhető. A GPT-4 paramétereinek számát még nem jelentették be; elődje, a GPT-3 175 milliárd paraméterrel rendelkezett. A több paraméter nem feltétlenül jelent erősebb képességeket, mivel a kisebb modellek, amelyek több számítási ciklust tartalmaznak (mint például az LLaMA [Large Language Model Meta AI] modellsorozat), vagy az emberi visszajelzések alapján finomhangolt modellek jobban fognak teljesíteni, mint a nagyobb modellek. Például emberi értékelők szerint az InstrumentGPT modell (egy 1,3 milliárd paraméterrel rendelkező modell) felülmúlja a GPT-3-at a modell kimeneti eredményeinek optimalizálásában.

A GPT-4 konkrét betanítási részleteit még nem hozták nyilvánosságra, de a korábbi generációs modellek, köztük a GPT-3, az InstrumentGPT és számos más nyílt forráskódú LLM részleteit már nyilvánosságra hozták. Manapság számos MI-modellhez modellkártyák tartoznak; A GPT-4 kiértékelési és biztonsági adatait egy hasonló rendszerkártyán tették közzé, amelyet az OpenAI modellkészítő cég biztosított. Az LLM létrehozása nagyjából két szakaszra osztható: a kezdeti betanítás előtti szakaszra és a finomhangolási szakaszra, amelynek célja a modell kimeneti eredményeinek optimalizálása. Az előtanítási szakaszban a modell egy nagyméretű korpusszal rendelkezik, amely tartalmazza az eredeti internetes szöveget, hogy betanítsák a következő szó előrejelzésére. Ez a látszólag egyszerű „automatikus kiegészítési” folyamat egy hatékony alapmodellt hoz létre, de káros viselkedéshez is vezethet. Az emberi értékek lépnek be az előtanítási szakaszba, beleértve a GPT-4 előtti betanítási adatok kiválasztását és a nem megfelelő tartalom, például a pornográf tartalom eltávolítását az előtanítási adatokból. Ezen erőfeszítések ellenére az alapmodell továbbra sem biztos, hogy hasznos, és nem is képes a káros kimeneti eredmények tárolására. A finomhangolás következő szakaszában számos hasznos és ártalmatlan viselkedés fog megjelenni.

A finomhangolási szakaszban a nyelvi modellek viselkedése gyakran mélyrehatóan megváltozik a felügyelt finomhangolás és az emberi visszajelzéseken alapuló megerősítéses tanulás révén. A felügyelt finomhangolási szakaszban a felbérelt vállalkozói személyzet válaszpéldákat ír a prompt szavakra, és közvetlenül betanítja a modellt. Az emberi visszajelzéseken alapuló megerősítéses tanulási szakaszban az emberi értékelők a modell kimeneti eredményeit bemeneti tartalompéldákként rendezik. Ezután a fenti összehasonlítási eredményeket alkalmazzák a „jutalmazási modell” megismerésére és a modell további fejlesztésére a megerősítéses tanulás révén. Elképesztően alacsony szintű emberi részvétellel finomhangolhatók ezek a nagy modellek. Például az InstrumentGPT modell körülbelül 40 fős vállalkozói csapatot használt, akiket közösségi forrásokból származó weboldalakról toboroztak, és sikeresen átmentek egy szűrőteszten, amelynek célja egy olyan annotátorok csoportjának kiválasztása volt, akik érzékenyek a különböző populációs csoportok preferenciáira.

Ahogy ez a két szélsőséges példa, nevezetesen az egyszerű klinikai képlet [eGFR] és a hatékony LLM [GPT-4] is mutatja, az emberi döntéshozatal és az emberi értékek nélkülözhetetlen szerepet játszanak a modell kimeneti eredményeinek alakításában. Vajon ezek a mesterséges intelligencia modellek képesek megragadni a betegek és az orvosok sokszínű értékeit? Hogyan lehet nyilvánosan irányítani a mesterséges intelligencia alkalmazását az orvostudományban? Amint azt alább említettük, az orvosi döntéselemzés újragondolása elvi megoldást kínálhat ezekre a kérdésekre.

 

Az orvosi döntéselemzés nem sok klinikus számára ismerős, de különbséget tud tenni a valószínűségi érvelés (a döntéshozatallal kapcsolatos bizonytalan kimenetelek, például az 1. ábrán látható vitatott klinikai forgatókönyvben az emberi növekedési hormon adagolása) és a mérlegelési tényezők (az ezekhez a kimenetelekhez kapcsolódó szubjektív értékek, amelyek értékét „hasznosságként” számszerűsítik, például a férfi magasság 2 cm-es növekedésének értéke) között, szisztematikus megoldásokat kínálva összetett orvosi döntésekre. A döntéselemzés során a klinikusoknak először meg kell határozniuk az egyes kimenetelekhez kapcsolódó összes lehetséges döntést és valószínűséget, majd be kell építeniük az egyes kimenetelekhez kapcsolódó beteg (vagy más fél) hasznosságát a legmegfelelőbb opció kiválasztásához. Ezért a döntéselemzés érvényessége attól függ, hogy az eredménybeállítás átfogó-e, valamint hogy a hasznosság mérése és a valószínűség becslése pontos-e. Ideális esetben ez a megközelítés segít biztosítani, hogy a döntések bizonyítékokon alapuljanak és összhangban legyenek a betegek preferenciáival, ezáltal csökkentve az objektív adatok és a személyes értékek közötti szakadékot. Ezt a módszert évtizedekkel ezelőtt vezették be az orvosi területre, és az egyéni betegek döntéshozatalára és a lakosság egészségének felmérésére alkalmazták, például a vastagbélrák szűrésére vonatkozó ajánlások megfogalmazására az általános lakosság számára.

 

Az orvosi döntéselemzésben különféle módszereket fejlesztettek ki a hasznosság meghatározására. A legtöbb hagyományos módszer közvetlenül az egyes betegektől származtatja az értéket. A legegyszerűbb módszer egy értékelő skála használata, ahol a betegek egy digitális skálán (például egy 1-től 10-ig terjedő lineáris skálán) értékelik egy adott kimenetel iránti preferenciaszintjüket, a legszélsőségesebb egészségügyi kimeneteleket (például a teljes egészséget és a halált) a két végén helyezve el. Az időcsere módszere egy másik gyakran használt módszer. Ebben a módszerben a betegeknek dönteniük kell arról, hogy mennyi egészséges időt hajlandóak eltölteni egy rossz egészségi állapotért cserébe. A standard szerencsejáték módszere egy másik gyakran használt módszer a hasznosság meghatározására. Ebben a módszerben a betegektől megkérdezik, hogy a két lehetőség közül melyiket részesítik előnyben: vagy egy bizonyos számú évet élnek normál egészségben egy adott valószínűséggel (p) (t), vagy viselik a halál kockázatát 1 p valószínűséggel; vagy gondoskodnak arról, hogy t évig éljenek kereszt-egészségügyi feltételek mellett. Kérdezzék meg a betegeket többször különböző p-értékeken, amíg egyetlen lehetőség iránt sem mutatnak preferenciát, így a hasznosság a betegek válaszai alapján kiszámítható.
Az egyéni betegpreferenciák feltárására használt módszerek mellett olyan módszereket is kidolgoztak, amelyek a betegpopuláció számára hasznosak. Különösen a fókuszcsoportos megbeszélések (amelyek során a betegek közösen megvitatják konkrét tapasztalataikat) segíthetnek megérteni nézőpontjaikat. A csoporthasznosság hatékony összesítése érdekében különféle strukturált csoportbeszélgetési technikákat javasoltak.
A gyakorlatban a hasznosság közvetlen bevezetése a klinikai diagnosztikai és kezelési folyamatba nagyon időigényes. Megoldásként általában kérdőíveket osztanak szét véletlenszerűen kiválasztott populációk között, hogy hasznossági pontszámokat kapjanak a populáció szintjén. Néhány példa: az EuroQol 5 dimenziós kérdőív, a 6 dimenziós hasznossági súlyozású rövid űrlap, az Egészségügyi Utility Index és a Cancer Specific European Cancer Research and Treatment Organization Quality of Life Questionnaire Core 30 eszköz.


Közzététel ideje: 2024. június 1.