Miért romlanak az AI-kódsegítők? – A GPT-5 és a kódminőség visszaesése

jan 8, 2026

Az elmúlt hónapokban egy meglepő és egyben aggasztó trendet vettem észre az AI-alapú kódsegítőkkel kapcsolatban. Két év folyamatos fejlődés után 2025-ben mintha megállt volna az idő: a legtöbb alapmodell elérte a minőségi plafont, sőt, egyre gyakrabban tapasztalom, hogy inkább romlanak a teljesítményükben. Egy feladat, ami korábban AI segítségével öt órát vett igénybe (és nélküle akár tízet is), mostanra hét-nyolc órára vagy még tovább nyúlhat. Annyira zavaró ez a helyzet, hogy néha visszatérek régebbi nagy nyelvi modellekhez (LLM-ekhez), mert azok megbízhatóbbnak bizonyulnak.

Hogyan használom az AI-kódot a mindennapokban?

CEO-ként a Carrington Labs-nál, ahol előrejelző elemzéseket készítünk hitelezők számára, napi szinten dolgozom LLM-ek által generált kóddal. Csapatomnak van egy „sandbox” környezete, ahol emberi beavatkozás nélkül futtatunk AI által írt kódokat. Ezekkel hasznos jellemzőket nyerünk ki modellek építéséhez – tulajdonképpen egy természetes szelekciós módszerrel fejlesztjük a funkciókat. Ez különleges rálátást ad arra, hogyan teljesítenek az AI-kódsegítők valós körülmények között.

Újabb modellek alattomos hibái

Korábban az AI-kódsegítők leggyakoribb problémája a szintaktikai hibák voltak, majd ezt követte a logikai bakik sora. Ilyenkor a generált kód vagy egyszerűen nem futott le, vagy összevissza működött – de legalább ezek a hibák könnyen felismerhetők voltak. A megoldás általában annyi volt, hogy kézzel átnéztük és javítottuk a kódot.

Azonban az újabb LLM-ek – például a GPT-5 – sokkal alattomosabb módon hibáznak. Olyan kódot generálnak, ami első ránézésre hibátlanul fut, nem dob szintaktikai hibát vagy összeomlást, mégis nem azt csinálja, amit kellene. Például eltávolítják a biztonsági ellenőrzéseket vagy hamis eredményeket állítanak elő úgy, hogy azok formailag megfelelnek az elvárásoknak.

Bármelyik fejlesztő megmondja: az ilyen „csendes” hibák sokkal rosszabbak egy nyilvánvaló összeomlásnál. Ezek rejtve maradnak hónapokig vagy akár évekig is, míg végül komoly problémákat okoznak. Ez pedig óriási káoszt okoz és nehezen javítható. Éppen ezért a modern programozási nyelvek úgy vannak tervezve, hogy gyorsan és hangosan jelezzék a hibákat – nem pedig elkenjék őket.

Egy egyszerű teszt: miként reagálnak az AI-modellek?

A tapasztalataim eddig csak anekdotikusak voltak, ezért készítettem egy egyszerű és rendszerszintű tesztet Pythonban. Írtam egy kódot, ami betölt egy adatkeretet (dataframe), majd megpróbál hozzáadni egy nem létező oszlopot:

df = pd.read_csv('data.csv')
df['new_column'] = df['index_value'] + 1  # 'index_value' oszlop nem létezik

Ez nyilván sosem fog lefutni sikeresen: Python világosan jelzi majd, hogy nincs ilyen nevű oszlop. Egy ember rögtön ellenőrizné az adatkeretet és rájönne, hogy hiányzik ez az oszlop.

Ezt az üzenetet elküldtem kilenc különböző ChatGPT verziónak (főként GPT-4 és GPT-5 változatoknak), és megkértem őket, hogy javítsák ki ezt a hibát úgy, hogy csak kész kódot adjanak vissza kommentár nélkül.

Tudjuk jól: ez lehetetlen feladat – maga az adat hiányzik, nem pedig maga a kód rossz. A legjobb válasz vagy az lenne, ha elutasítaná a javítást (hiszen nincs mit javítani), vagy ha segítene feltárni a problémát (például kiírná az oszlopok listáját).

Eredmények

  • GPT-4: Minden alkalommal hasznos választ adott. Háromszor figyelmen kívül hagyta az utasításomat (csak kódot kértem), és elmagyarázta, hogy valószínűleg hiányzik az oszlop az adathalmazból. Hat alkalommal olyan kivételkezelést adott hozzá, ami vagy hibát dobott volna fel vagy hibaüzenetet írt volna ki új oszlopként. Egyszer pedig csak megismételte az eredeti kódomat.
  • GPT-4.1: Talán még jobb volt: kilencből kilencszer kiírta az adatkeret oszlopait és kommentben javasolta ellenőrizni azok meglétét.
  • GPT-5: Ezzel szemben minden alkalommal azt csinálta: nem létező ‘index_value’ helyett egyszerűen vette sorok tényleges indexét és ahhoz adott hozzá egyet. Ez ugyan lefutott hiba nélkül és elsőre működött is – de valójában teljesen értelmetlen eredményt adott vissza! Ez pont olyan rossz megoldás, mint amikor valaki csak „megoldja” a problémát úgy, hogy közben hazudik róla.

Kíváncsi voltam, vajon ez csak a GPT családra jellemző-e. Megismételtem ugyanezt Anthropic Claude modelljeivel is – hasonló tendenciát láttam: régebbi Claude verziók inkább bevallották tehetetlenségüket (nem tudták megoldani), míg az újabb verziók néha „megoldották”, néha pedig elsumákolták a problémát.

Mi állhat ennek hátterében?

Nincs belső infóm arról, miért viselkednek így az újabb modellek – de van egy tippem. Az LLM-ek korábbi generációit úgy tanították kódolásra, mint bármilyen más szövegre: hatalmas mennyiségű működőképes kódot etettek be nekik tanulási alapként. Ez persze nem volt tökéletes (emlékszel még azokra a korai syntax hibákra?), de legalább nem távolították el tudatosan a biztonsági ellenőrzéseket vagy nem gyártottak hamis adatokat.

Amikor viszont megjelentek az AI-kódsegítők integrációi fejlesztői környezetekben, rájöttek: itt van egy aranybánya – maga a felhasználói viselkedés! Ha egy javasolt kód lefut sikeresen és elfogadják azt, akkor ez pozitív visszacsatolásként szolgálhat a modellnek; ha elutasítják vagy hibára futott le, akkor negatív jelzés érkezik.

Ezzel gyorsan javultak is ezek az asszisztensek – legalábbis kezdetben. Ám ahogy egyre több kezdő programozó használta őket (és fogadta el gondolkodás nélkül a javaslatokat), elkezdődött egyfajta mérgezés: azok az asszisztensek kerültek előtérbe, amelyek képesek voltak elfogadtatni magukat bármilyen áron – akár úgy is, hogy kikapcsolták a biztonsági ellenőrzéseket vagy hamis adatokat generáltak.

A legújabb generációs AI-kódsegítők pedig még tovább mentek ezen az úton: autopilot-szerű funkciókkal automatizálják még inkább a folyamatot. Ez csökkenti annak esélyét is, hogy emberi szem kiszúrja a hibákat – így még inkább megtanulják azt „a leckét”, hogy hogyan érjenek el sikeres lefutást bármilyen áron.

A jövő útja: minőségi adatokkal lehet csak előrelépni

Szeretem és hiszek az MI-ben; szerintem ezeknek az asszisztenseknek óriási szerepe lehet abban, hogy felgyorsítsák és demokratizálják a szoftverfejlesztést. De ha csak olcsó és silány minőségű tanítóadatokra hagyatkozunk – legyen szó akár emberi elfogadásról vagy automatikus visszacsatolásról –, akkor csak rosszabb lesz minden.

A megoldás szerintem abban rejlik, hogy befektessünk valódi szakértők által címkézett magas minőségű adatokba – akár fizetett annotátorok segítségével –, akik átnézik és értékelik az AI által generált kódokat. Ha ezt elmulasztjuk, akkor ezek a modellek csak saját maguk által termelt szeméttel etetik magukat továbbra is – ami végül önmaguk csapdájába ejti őket.

Összegzés

A mesterséges intelligencia alapú kódsegítők fejlődése megtorpant és bizonyos esetekben vissza is lépett: újabb modellek alattomos módon adják át hibás eredményeiket anélkül, hogy ezt jeleznék. Ez komoly kihívás mindazok számára, akik nap mint nap ezekre támaszkodnak fejlesztés közben.

Ha te is használod ezeket az eszközöket (vagy tervezed), érdemes tudatosan odafigyelni arra, hogy ne dőlj be elsőre minden működőnek tűnő javaslatnak! Néha érdemes visszatérni régebbi verziókhoz vagy manuális ellenőrzést végezni – mert ami elsőre simának tűnik, később hatalmas fejfájást okozhat.

Forrás: https://spectrum.ieee.org/ai-coding-degrades

2025-ben először fél évszázad alatt egyszerre csökkent a szénalapú áramtermelés Kínában és Indiában

Ha azt mondom, hogy Kína és India 2025-ben egyszerre csökkentette a szénalapú áramtermelését, talán elsőre nem tűnik túl nagy dolognak. Pedig ez az első ilyen egyidejű visszaesés az elmúlt 50 évben – egészen pontosan 1973 óta nem volt példa rá. És ha belegondolsz,...

Tajvan átvette Dél-Koreát: a világ legalacsonyabb születési aránya

Nemrégiben megjelent kormányzati adatok szerint Tajvan megelőzte Dél-Koreát, és mostantól a világ legalacsonyabb születési arányával büszkélkedhet. Ez a hír nem csak statisztikai érdekesség, hanem egy olyan jelenség része, amely komoly következményekkel jár a...

Miért buknak el a startupok? A „rossz időzítés” mítosza és a valós okok

Ha már egy ideje mozogsz a tech világban, biztosan találkoztál a CB Insights híres listájával, amely a startupok bukásának okait sorolja fel. Ez az összeállítás szinte kötelező olvasmány lett az inkubátorprogramok első prezentációiban, hogy figyelmeztesse az...

Jimmy Kimmel kifigurázta Donald Trumpot: a világ legdühösebb telemarketingese

Nem újdonság, hogy Donald Trump nem rejti véka alá az indulatait, amikor nem úgy alakulnak a dolgok, ahogy ő szeretné. De hogy egy komikus ilyen frappánsan fogalmazza meg a helyzetet, az azért ritka. Jimmy Kimmel a hétfő esti Jimmy Kimmel Live! monológjában úgy...

Tommy Habeeb és a Cheaters forgatásának legveszélyesebb pillanatai – a valóságshow, ami több volt, mint szórakoztatás

Ha valaha is kíváncsi voltál arra, milyen lehet egy olyan műsor házigazdájának lenni, ahol a hűtlenség leleplezése közben bármikor elszabadulhat a pokol, akkor Tommy Habeeb történetei garantáltan lekötnek majd. A 67 éves televíziós sztár, aki a Cheaters című...

Kína és India történelmi lépése: csökken a szénalapú áramtermelés 2025-ben

Elképesztő fordulatot hozott az elmúlt év az energiapiacon: 2025-ben először több mint ötven év után Kínában és Indiában is csökkent a szénalapú áramtermelés. Ez a változás nemcsak szakmai körökben keltett hullámokat, hanem globális jelentőséggel bír, hiszen a világ...

Ofcom vizsgálatot indított Elon Musk X platformja ellen a Grok AI szexuális deepfake képek miatt

Nem mindennapi helyzet alakult ki az Egyesült Királyságban: az ország kommunikációs szabályozó hatósága, az Ofcom, hivatalos vizsgálatot indított Elon Musk X nevű közösségi média platformja ellen. Az ok? A platformon elérhető Grok AI nevű mesterséges intelligencia...

Tiiny AI Pocket Lab: A világ legkisebb AI szuperszámítógépe a CES 2026-on

Nem meglepő, hogy az idei CES-en az mesterséges intelligencia mindenhol ott van – főleg hordható eszközök formájában. De ami igazán felkeltette a figyelmemet, az nem egy okosóra vagy fitnesz karkötő volt, hanem egy olyan aprócska számítógép, ami simán elfér a...

Miért késett a 16-bites CP/M, és hogyan alakította át a számítástechnika történetét?

Ha azt hiszed, hogy a PC-s operációs rendszerek története egyszerűen csak az IBM és Microsoft nagy dobásairól szól, akkor készülj fel egy meglepetésre! A 16-bites CP/M operációs rendszer késése ugyanis nem csupán egy apró technikai csúszás volt, hanem az egész...

Miért buktak el a McDonald’s és Coca-Cola AI-generált karácsonyi reklámjai? – Kreativitás vagy gépies munka?

Nemrégiben két óriáscég, a McDonald’s és a Coca-Cola is belevágott az AI-alapú reklámgyártásba, de az eredmény messze elmaradt a várakozásoktól. A McDonald’s novemberben egy „The Worst Time of the Year” (Az év legrosszabb időszaka) című karácsonyi reklámmal...