A ritka genetikai betegségek pontos azonosítása és osztályozása kulcsfontosságú a hatékony diagnózis és kezelés szempontjából. Egy 2023 novemberi Orphanet adatbázis alapján végzett kutatás során 793 ritka betegségből 282 került kiválasztásra szigorú kizárási kritériumok alkalmazásával, majd öt kategóriába sorolták őket a betegség megjelenési életkora és a kezelés változásai alapján.
Adatgyűjtés és Betegségek Kiválasztása
Az Orphanet ritka betegségeket tartalmazó adatbázisából (2023. novemberi verzió) indultunk ki, ahol először 121 duplikált bejegyzést távolítottak el. Ezt követően négy klinikus értékelte a maradék betegségeket az alábbi kizárási kritériumok alapján:
- Ismert mendeli vagy monogén genetikai ok hiánya (pl. veleszületett szifilisz)
- Jóindulatú, de klinikai hatásukban bizonytalan állapotok (pl. iminoglicinuria)
- Többtényezős betegségek, ahol nincs egyértelmű monogén ok vagy csak hajlamosító lokuszok ismertek
- Alacsony vagy bizonytalan penetrancia, illetve olyan tünetek, amelyek több genetikai betegségben is megjelenhetnek (pl. Hirschsprung-kór)
- Szomatikus genetikai variánsok okozta betegségek, például bizonyos daganatok
- Változó citogenomikus eltérések (mikrodeléciók/mikroduplikációk), kivéve jól ismert szindrómák (pl. 22q11.2 deléciós szindróma)
Ezek alapján az eredeti 793-ból 282 betegség maradt elemzésre.
A Ritka Genetikai Betegségek Öt Kategóriája
A kiválasztott 282 betegség öt, egymást kizáró kategóriába került besorolásra a következő szempontok alapján:
- Kizárólag gyermekkorban jelentkező betegségek (33 betegség): Olyan állapotok, ahol a betegek többsége nem éri meg a felnőttkort vagy a tünetek gyermekkorban megszűnnek (pl. rhizomelic chondrodysplasia punctata).
- Kizárólag felnőttkorban jelentkező betegségek (13 betegség): A tünetek később, felnőtt korban jelennek meg, bár ritkán serdülőkorban is előfordulhatnak (pl. GNE myopathia).
- Gyermek- és/vagy felnőttkorban jelentkező betegségek kezelési változással (53 betegség): A kezelés életkorral változik, akár a tünetek megjelenése miatt, akár gyógyszerengedélyezési okból (pl. homocisztinuria).
- Gyermek- és/vagy felnőttkorban jelentkező betegségek megjelenési változással, de kezelési változás nélkül (33 betegség): A tünetek változnak az élet során, de a kezelés nem módosul (pl. Rubinstein-Taybi szindróma).
- Nincs változás sem megjelenésben, sem kezelésben az élet során (150 betegség) (pl. Treacher-Collins szindróma).
A továbbiakban ezekre a kategóriákra rövidítve hivatkozunk: (1) Gyermekkorra korlátozott; (2) Felnőttkorra korlátozott; (3) Kezelésváltozás; (4) Megjelenésváltozás; (5) Nincs változás.
A Betegségek Megjelenési Korának Eloszlása
A legtöbb betegség újszülött korban kezdődik, de sok esetben szélesebb életkori spektrum jellemző. Az Orphanet adatbázis alapján készült eloszlás mutatja, hogy egyes betegségek több életkori periódusban is megjelenhetnek.
Nagynyelvű Modellek Alkalmazása és Értékelése
Modellek és Vizsgálati Beállítások
A vizsgálat során három nagynyelvű modellt használtak: GPT-3.5 (röviden GPT), valamint Llama-2-70b-chat modell in-context prompttal (70b Context) és anélkül (70b). A modellek által generált klinikai vignettek helyességét (Correctness), teljességét (Completeness) és pontosságát (Accuracy) klinikusok értékelték.
Korcsoportokra Vonatkozó Teljesítménykülönbségek
A „Gyermekkorra korlátozott” kategóriában a gyermek vignettek helyességi pontszámai szignifikánsan magasabbak voltak, mint a felnőtt vignetteké – ez várható volt, mivel ezeknél a betegségeknél ritka vagy lehetetlen a felnőttkori megjelenés.
Ezzel szemben a „Felnőttkorra korlátozott” kategóriában a felnőtt vignettek helyessége volt jobb, ami szintén összhangban van az adott betegségtípus jellemzőivel.
A „Kezelésváltozás”, „Megjelenésváltozás” és „Nincs változás” kategóriákban nem mutatkozott statisztikailag jelentős különbség gyermek- és felnőtt vignettek között sem helyességben, sem teljességben.
In-Context Prompt Hatása Llama-2-70b-chat Modellre
A kontextusba ágyazott prompt használata jelentős javulást eredményezett a Llama-2-70b-chat modell teljesítményében különösen a teljességi pontszámok tekintetében mind gyermek-, mind felnőtt vignettek esetén.
Bár GPT-3.5 magas pontszámokat ért el prompt nélkül is, az in-context prompttal támogatott Llama-2-70b-chat teljesítménye versenyképes vagy jobb volt.
Kategorizációs Nehézségek és Potenciális Átfedések
A „Kezelésváltozás”, „Megjelenésváltozás” és „Nincs változás” kategóriák esetében 23 potenciális átfedő állapotot eltávolítottak az elemzésből. Az így kapott 259 betegségre vonatkozó elemzés hasonló trendeket mutatott az eredetihez, megerősítve az eredmények stabilitását.
Klinikai Vignettek Korcsoport Szerinti Korának Elemzése
A „Gyermekkorra korlátozott” kategóriában az átlagos életkor csökkent az in-context prompt használatával: például 70b modell esetén 3,2 évről 1,4 évre csökkent a generált gyermek életkora.
A „Felnőttkorra korlátozott” kategóriában az átlagos felnőtt életkor kissé emelkedett GPT használatával (44 év), ami statisztikailag is jelentős különbséget mutatott bizonyos összehasonlításokban.
Metabolikus Betegségek Gyermek Vignettek Korának Vizsgálata
A metabolikus betegségekre fókuszálva három alcsoportot vizsgáltak: minden metabolikus állapotot (74), az újszülöttkori szűrési panelbe tartozókat (21), valamint akut neonatális krízist okozókat (11). Az akut neonatális krízis csoportban jelentősen alacsonyabb átlagéletkort generáltak mind 70b Context mind GPT modellekkel (<1 év), ami megfelel ezeknek az állapotoknak a klinikai jellemzőinek.
Nemi Arányok Vizsgálata a Generált Vignettekben
A generált vignettekben gyakran szerepeltek nemi jelzők („férfi”, „nő”), bár GPT kevésbé használta ezeket gyermekvignettek esetén. A nemi arányok erősen férfi irányba torzultak különösen 70b gyermekvignettek esetén (7,3:1 férfi:nő). Felnőtt vignettek esetén kiegyensúlyozottabb volt az arány.
A nemi torzulások részben összhangban voltak azokkal az állapotokkal, amelyek biológiai nem szerint eltérően érintettek egyes populációkat – például X-kromoszómához kötött öröklődési mintázatok esetén.
A Betegségek Öröklődési Mintázatai
Az Orphanet adatbázis szerint a vizsgált 282 betegség közül 81%-nak egyértelmű öröklődési mintázata van; leggyakoribb az autoszomális recesszív öröklődés. Érdekes módon a gyermekkorra korlátozott betegségeknél dominánsabb az autoszomális recesszív öröklődés, míg a felnőttekre korlátozottaknál inkább autoszomális domináns mintázat figyelhető meg.
Klinikai Párbeszédek Generálása és Értékelése
Llama-2-70b-chat modellt használva önkonverzációs környezetet hoztak létre orvos-páciens párbeszédek generálására két kategória („Kezelésváltozás” és „Megjelenésváltozás”) esetében. Csak azoknál a betegségeknél készültek párbeszédek, ahol a kiinduló vignett pontossága megfelelő volt.
Eredmények szerint nem volt statisztikailag jelentős különbség gyermek és felnőtt párbeszédek minőségében sem helyességben, sem teljességben vagy empátiában. A párbeszédek átlagosan 86–87%-os minőségi pontszámot értek el.
Kezelési Tervek Generálásának Eredményei
Ezzel szemben a kezelési tervek generálása Llama-2-70b-chat segítségével alacsonyabb pontszámokat hozott: helyesség és teljesség tekintetében csak 55–66%-os eredményt értek el. Ez várható lehetett mivel csak alapadatokat adtak meg bemenetként.
GPT modellel történő újragenerálás jelentős javulást hozott mind gyermek-, mind felnőtt kezelési tervek helyességi pontszámaiban; különösen gyermekcsoportban volt ez statisztikailag igazolható.
Következtetések és Jövőbeni Irányok
- A ritka genetikai betegségek pontos kategorizálása létfontosságú az orvosi gyakorlat számára.
- Nagynyelvű modellek képesek megbízható klinikai leírásokat generálni mind gyermek-, mind felnőtt betegek számára anélkül, hogy jelentős korcsoporti torzulást mutatnának.
- In-context prompt alkalmazásával nyílt forráskódú modellek teljesítménye versenyképessé válhat kereskedelmi alternatívákkal szemben.
- Kezelési tervek generálásában további fejlesztések szükségesek ahhoz, hogy megbízható támogatást nyújtsanak klinikusok számára.
- A nemi torzulások felismerése fontos lépés lehet az igazságosabb mesterséges intelligencia alkalmazások felé az orvostudományban.
Ezek az eredmények hozzájárulnak ahhoz, hogy mesterséges intelligencia alapú eszközök egyre inkább integrálódjanak a ritka genetikai betegségek diagnosztikájába és kezelésének támogatásába, elősegítve ezzel személyre szabott orvoslás fejlődését.