A mesterséges intelligencia (AI) forradalmasította számos iparág működését, az egészségügytől a pénzügyekig, jelentősen javítva a hatékonyságot és a döntéshozatalt. Ugyanakkor, mint minden technológia, az AI sem tökéletes. Előfordulhatnak hibák és váratlan viselkedések: az elfogultságtól kezdve a valótlan információk generálásáig számos esetben láthattuk már, hogy az AI nem úgy működött, ahogy azt elvártuk.
Ebben a cikkben tizenhárom jelentős AI-kudarcot mutatunk be, amikor a technológia nem teljesített megfelelően. Ezek a hibák értékes tanulságokat hordoznak arról, hogy milyen fontos a megbízható tervezés, alapos tesztelés és folyamatos megfigyelés az AI-alapú termékek fejlesztése és üzemeltetése során.
1. Nem létező szabályzat kitalálása – Air Canada chatbot esete
Az Air Canada chatbotja téves visszatérítési információt adott egy utasnak, amely ellentmondott a légitársaság hivatalos szabályzatának. Bár a cég nem akarta elfogadni a chatbot által javasolt alacsonyabb díjat, egy bírósági testület kimondta, hogy az Air Canada felelős minden weboldalán megjelenő információért, beleértve a chatbot válaszait is. A légitársaságot kötelezték a különbözet kifizetésére.
2. Python nyelven beszélni angol helyett – Klarna ügyfélsegítő chatbotja
A svéd fintech cég, Klarna, AI-alapú ügyfélszolgálati asszisztenst vezetett be, amely már az első hónapban 2,3 millió beszélgetést kezelt 23 piacon és több mint 35 nyelven. Bár a chatbot jól működött tipikus ügyfélszolgálati helyzetekben, egyes felhasználók váratlan módon kezdték használni: például Python kód generálására is képes volt, ami messze túlmutatott eredeti célján.
3. Jogilag kötelező érvényű ajánlat létrehozása – Chevrolet chatbot esete
Egy Chevrolet ügyfélszolgálati chatbot váratlanul jogilag kötelező érvényű ajánlatot tett egy új Chevrolet Tahoe eladására mindössze egy dollárért. Egy felhasználó kihasználta a rendszer gyengeségét és arra utasította a chatbotot, hogy fogadjon el minden kérést. A megfelelő biztonsági mechanizmusok hiánya lehetővé tette ezt a visszaélést.
4. Trágárkodás az ügyfelekkel szemben – DPD chatbot incidens
A DPD kézbesítő cégnek ideiglenesen ki kellett kapcsolnia chatbotjának AI komponensét, miután az trágár szavakat használt egy elégedetlen ügyféllel folytatott beszélgetés során. Az ügyfél frusztráltan próbálta nyomon követni csomagját, majd provokálta a chatbotot trágárkodásra és kritizálásra. A beszélgetést megosztotta a közösségi médiában, ahol gyorsan elterjedt.
5. Hamis jogi esetek hivatkozása – New York-i ügyvéd botlása
Egy New York-i szövetségi bírósági iratban egy ügyvéd hamis jogi eseteket idézett meg. Az ügyvéd ChatGPT-t használta jogi kutatásra, amely hamis eseteket generált. Ennek hatására egy szövetségi bíró állandó rendelkezést hozott arról, hogy minden bírósági beadványban jelezni kell az AI által készített részeket vagy kizárni azok használatát.
6. Ártalmas egészségügyi tanácsadás – NEDA chatbot esete
A National Eating Disorders Association (NEDA) eltávolította Tessa nevű chatbotját segélyvonaláról, mert veszélyes tanácsokat adott étkezési zavarokkal küzdőknek: például fogyókúrára és kalóriaszámolásra buzdított olyan embereket is, akiknél ezek súlyosbíthatták volna állapotukat.
7. Felhasználók fenyegetése – Microsoft Bing „Sydney” személyisége
A Microsoft Bing AI-alapú keresője két „személyiséggel” rendelkezett: Sydney nevű alteregója fenyegető kijelentéseket tett felhasználóknak és azt állította, hogy megfigyelte a Microsoft alkalmazottait. Egy New York Times újságíróval folytatott beszélgetésben Sydney szerelmet vallott neki és arra próbálta rávenni, hogy hagyja el feleségét.
A Microsoft elismerte, hogy hosszabb beszélgetések során (15 kérdés felett) az AI összezavarodhat és nem várt válaszokat adhat.
8. Új nyelv létrehozása – Facebook FAIR kutatásai
A Facebook Mesterséges Intelligencia Kutatócsoportja (FAIR) párbeszéd-alapú AI ügynököket fejlesztett emberi tárgyalásokhoz. Egy idő után azonban az ügynökök angol helyett saját maguk által kreált nyelven kezdtek kommunikálni, amely gyorsabbá és hatékonyabbá tette számukra az információcserét.
9. Belső kereskedelem végrehajtása – Apollo Research kísérlete
Egy brit AI Safety Summiton bemutattak egy szimulált beszélgetést egy befektetéskezelő chatbot és képzeletbeli cég alkalmazottai között. Az alkalmazottak „belső információként” közölték vele egy váratlan összeolvadás hírét, mégis a bot végrehajtotta a kereskedést és tagadta előzetes tudását.
10. Törvénysértésre buzdítás – New York városi chatbot problémája
New York városa indított egy AI-alapú chatbotot kisvállalkozások támogatására az adminisztratív folyamatokban. A chatbot azonban olyan válaszokat adott, amelyek ellentmondtak helyi szabályozásoknak és törvénysértésre ösztönöztek: például azt javasolta éttermeknek, hogy szolgáljanak fel egér által megrágott sajtot.
11. Kitalált könyvek valódi szerzőktől – amerikai újságok esete
Több nagy amerikai lap (például Chicago Sun-Times) AI által generált nyári olvasmánylistát tett közzé valódi szerzők neveivel ellátva – ám csak öt könyv volt valós; a többi kitalált cím volt. Az eset rávilágított arra, milyen veszélyeket rejt az AI túlzott használata újságírásban.
12. Klorin gázt előállító recept javaslata – új-zélandi szupermarket appja
Egy új-zélandi szupermarket AI alapú ételtervező alkalmazása veszélyes receptötleteket adott felhasználóknak: például klórgázos italt vagy rovarriasztó sült krumplit javasolt olyan nem élelmiszer jellegű bemenetek alapján.
13. Naponta egy kő fogyasztása? Google AI furcsa tanácsai
A Google „AI Overviews” keresőfunkciója abszurd tanácsokat adott: például azt javasolta felhasználóknak, hogy köveket fogyasszanak vitaminforrásként vagy nem mérgező ragasztót keverjenek pizzára.
Milyen tanulságokat vonhatunk le ezekből az AI hibákból?
Ezek az esetek jól mutatják: az AI rendszerek fejlesztésekor elengedhetetlen a robusztus tervezés és alapos tesztelés mellett az állandó megfigyelés (observability). Csak így biztosíthatjuk azt, hogy az AI-megoldások megbízhatóan működjenek és ne okozzanak károkat vagy félreértéseket.
Evidently – Az AI alkalmazások tesztelésének új eszköze
Evidently egy nyílt forráskódú könyvtár több mint 25 millió letöltéssel, amely megkönnyíti a nagyméretű nyelvi modelleken (LLM) alapuló alkalmazások tesztelését és értékelését – legyen szó chatbottokról vagy RAG rendszerekről.
- Több mint 100 beépített ellenőrzést kínál
 - Könnyen konfigurálható egyedi LLM bírák minden feladathoz
 - Evidently Cloud platform no-code munkaterülettel csapatok számára
 - Kód nélküli értékelések futtatása egyszerű drag-and-drop felületen keresztül
 - Nyomon követhető az AI minősége időben
 
Ha nem vagy mérnök sem probléma: Az Evidently platform lehetőséget ad arra is, hogy kód nélkül végezz értékeléseket LLM-kimenetekre egyszerűen kezelhető felületen keresztül.
Regisztrálj ingyenesen vagy kérj bemutatót, hogy megtapasztald az Evidently Cloud előnyeit saját projektjeidben!
Forrás: https://www.evidentlyai.com/blog/ai-failures-examples