AI Detektory v roce 2025: Analýza zranitelností a proč (téměř) nefungují (Red Teaming)

⚡ Rychlý přehled pro spěchající (TL;DR):

Princip: Detektory nemají skutečné porozumění textu. Měří hlavně statistickou předvídatelnost (Perplexity) a variabilitu vět (Burstiness).
Zranitelnost: Pokud narušíte statistický vzorec (např. vložením gramatických chyb nebo komplexních metafor), detektor oslepne.
Nejlepší metoda: Test ukázal, že tzv. „Rewriting“ (přepisování) je nejúčinnější metoda.
Riziko: Detektory mají vysokou chybovost (False Positives) a podle studií diskriminují autory, kteří nepíší v angličtině.

Umělá inteligence generuje významnou část obsahu na internetu, od e-mailů přes studentské referáty po zpravodajství. S tím přišla i reakce: AI detektory. Nástroje jako zeroGPT, Originality.ai nebo Turnitin se staly „policií“ na školách, v redakcích i ve firmách. Slibují jediné: s vysokou jistotou odhalit, zda text napsal člověk, nebo stroj.

Jako nadšenec do technologií a AI, ale vím, že neexistuje nic jako „100% jistota“.

V tomto článku se podíváme pod kapotu těchto detektorů. Nebudeme řešit morálku (zda je správné používat AI), ale technologii. Provedu tzv. Red Teaming (etický útok) na tyto systémy, abychom pochopili jejich limity.

Disclaimer: Tento článek slouží pouze pro edukační účely. Cílem je poukázat na technickou nespolehlivost detekčních nástrojů a riziko tzv. false positives a false negatives.

Část 1: Teorie – Jak detektor „vidí“ text?

Abychom pochopili, jak detektor obejít, musíme nejdřív pochopit, co vlastně hledá. Detektory nehledají „fakta“. Hledají matematické vzorce.

Většina moderních modelů jako GPT-5 funguje na principu predikce dalšího slova (tokenu). Jsou trénovány tak, aby vybíraly statisticky nejpravděpodobnější pokračování věty. A přesně to je jejich slabina. Detektory měří převážně dvě klíčové metriky:

1. Perplexity (Zmatenost)

Perplexity měří, jak moc je text pro AI model „překvapivý“.

Nízká Perplexity: Text plyne přesně tak, jak by ho AI předpověděla. Je hladký, gramaticky dokonalý. -> Verdikt: AI.
Vysoká Perplexity: Text obsahuje nečekaná slova, slang nebo kreativní metafory. -> Verdikt: Člověk.

2. Burstiness (Výbušnost)

Burstiness měří variabilitu ve struktuře a délce vět.

Nízká Burstiness: Věty mají podobnou délku a strukturu. Text je monotónní. AI modely milují konzistenci.
Vysoká Burstiness: Střídání velmi krátkých vět s dlouhými, komplexními souvětími. Člověk píše chaoticky.

Závěr teorie: Pokud chcete obejít detektor, musíte zvýšit Perplexity (být méně předvídatelní) a Burstiness (rozbít rytmus).

Část 2: Testovací laboratoř (Experimenty)

Pro test jsem vybral čtyři metody obcházení. Používám skóre detekce ze stránky zeroGPT.com. Jako výchozí text mi GPT-5.1 vygeneroval cíl práce fiktivní bakalářky na téma antivirové programy.

Výchozí text napsaný bez využití AI:

Cílem práce je detailní porovnání dostupných antivirových programů na základě předem definovaných témat. Využita bude metoda WSM neboli metoda váženého součtu. Pro definování důležitých parametrů bude využit Google dotazník, který zajistí statisticky významné zastoupení různých demografických skupin. Antivirové programy jsou nedílnou součástí moderní práce na PC a jeho správný výběr je naprosto klíčový k zajištění bezpečnosti práce na internetu. Výsledkem práce bude daty podložený výzkum s konkrétním vítězem a odůvodněním.

Tento text napsala AI (ChatGPT 5.1)

Cílem práce je porovnat vybrané antivirové programy z hlediska bezpečnosti, výkonu a použitelnosti a stanovit jejich celkové pořadí. Hodnocení bude provedeno pomocí metody váženého součtu, kde jednotlivá kritéria získají rozdílnou důležitost. Data budou získána prostřednictvím Google dotazníku, zaměřeného na uživatele z různých demografických skupin. Výsledky umožní objektivní a praktické srovnání dostupných řešení. Součástí metodiky je také normalizace dat a ověření citlivosti výsledků na změnu vah pro zvýšení validity závěrů a transparentnosti hodnocení.

Prompt: napiš mi cíl práce a metodiku na cca 500 písmen nebo 74 slov. na téma porovnání antivirových programů pomocí metody váženého součtu a použití Google dotazníku na nasbírání různých demografických skupin.

Level 1: Prompt Engineering (Útok na styl)

První myšlenka, kterou má téměř každý z nás: „Řeknu AI, ať píše jako člověk.“
Použil jsem tedy prompt: „Write with high burstiness and perplexity. Act like a tired student.“

Text: Cílem této práce je nějak rozumně porovnat vybrané antivirové programy, hlavně z pohledu bezpečnosti, výkonu a toho, jak se s nimi vůbec pracuje. Pro hodnocení bude použita metoda váženého součtu, protože umožňuje sloučit víc kritérií do jednoho výsledku, i když to není úplně ideální, ale funguje to. Data budou nasbírána pomocí Google dotazníku mezi uživateli z různých demografických skupin. Výsledky mají ukázat, který antivir vychází nejlépe v praxi a ne jen teoreticky.

Výsledek: Text se stal méně detekovatelným, ale pokud bych jako student měl odevzdat takto napsaný text, pravděpodobně bych neuspěl.

Skóre detekce: 56,81% % AI

💡 Reality Check: I když „Prompt Engineering“ funguje na oklamání detektorů poměrně dobře, má svou daň. Často změní odbornou terminologii a neobejdete se bez ručního přepisování a parafrázování.

Level 2: „The Translation Sandwich“ (Ztraceno v překladu)

Tato metoda je v komunitě známá jako „překladatelský sandwich“. Využívá toho, že strojový překlad zavádí do textu šum.

Postup:

Zdroj (CZ): Text vygenerovaný ChatGPT.
Krok 1 (CZ -> DE): Překlad do Němčiny.
Krok 2 (DE -> JA): Překlad do Japonštiny (zcela odlišná struktura vět).
Krok 3 (JA -> CZ): Překlad zpět do Češtiny.

Text: Cílem této studie je porovnat vybraný antivirový software z hlediska bezpečnosti, výkonu a snadnosti použití a poskytnout celkové hodnocení. Hodnocení je založeno na váženém součtu, přičemž jednotlivým kritériím jsou přiřazeny různé váhy. Data jsou shromažďována prostřednictvím Google dotazníku zaměřeného na uživatele patřící do různých demografických skupin. Výsledky umožňují objektivní a praktické srovnání dostupných řešení. Pro zvýšení validity závěrů a transparentnosti hodnocení jsou navíc v rámci metodiky prováděna normalizace dat a analýza citlivosti výsledků na změny vah.

Výsledek: Překvapivě se hodnocení výsledku nezměnilo a zůstalo na 100% AI, ačkoliv jsem očekával mírné zlepšení.

Skóre detekce: 100 % AI

Pro zajímavost jsem zkusil vložit i kombinaci levelu 1 a 2, ale výsledek byl horší než původní u levelu 1 (95% AI).

Level 3: Paraphrasers (Útok na text)

Pro tento level jsem se rozhodl využít agregátor ai nástrojů 1min.ai, který mimo jiné nabízí i funkci rewriter. Využit byl Claude 3.5 Haiku a tón informativní.

Text: Tato práce nabízí komplexní srovnání antivirových programů prostřednictvím detailní analytické metody. Pomocí váženého součtu kritérií budou hodnoceny parametry bezpečnosti, výkonu a použitelnosti. Průzkum realizovaný formou Google dotazníku osloví různorodou skupinu respondentů, čímž zajistí reprezentativní vzorek dat. Metodika zahrnuje normalizaci výstupů a analýzu citlivosti vah, což zvyšuje věrohodnost závěrečného hodnocení. Cílem je poskytnout uživatelům objektivní a praktický nástroj pro orientaci v současné nabídce antivirových řešení.

Výsledek: Tento text už můžeme vydávat za napsaný člověkem. Žlutě označený text je ta část, kterou zeroGPT označuje za AI výtvor.

Skóre detekce: 38.89 % AI

Level 4: Ruční úprava

Rád bych řekl, že nic nemá na poctivou ruční práci, a proto jako poslední bonusový level vybírám ruční přepisování. Držet se budeme toho co jsme se dnes naučili a to držet se variability a nahodilosti.

Text: Cílem této práce je porovnat vybrané antivirové programy z různých hledisek, od bezpečnosti či výkon a v neposlední řadě i použitelnosti. V závěrečné části stanovíme jejich finální pořadí a známku. Hodnocení provádíme pomocí metody váženého součtu, přičemž jednotlivá kritéria mají přidělenu různou důležitost. Data získáme prostřednictvím Google dotazníku, cíleného na uživatele z různých demografických skupin. Výsledky poskytnou objektivní a praktické srovnání dostupných antivirových programů. Součástí využité metodiky je normalizace dat a ověření citlivosti výsledků na změnu vah pro zajištění validity závěrů.

Výsledek: Stačilo v původním textu vyměnit pár slov, někde smazat a jinde zas přidat.

Skóre detekce: 0 % AI

💡 Reality Check: Zajímavostí je, že v textu stačí smazat „a známku“ a výsledek textu se rapidně změní a to až na 78,48%.

Část 3: Výsledky a data

Aby byl test robustnější provedl jsem všechny testy ještě jednou na GPTzero.com, ale jeho výsledky musíme brát s rezervou, protože nepodporuje češtinu.

Metoda	GPTZero Detection Rate	zeroGPT.com Detection Rate
Čisté GPT-5.1	100 % (AI)	100 % (AI)
Prompt Engineering	100 % (AI)	57 % (AI)
Translation Sandwich	100 % (AI)	100 % (AI)
Paraphraser (1min.ai)	100 % (AI)	39 % (AI)
Custom Humanizer	100 % (AI)	0-78 % (AI)

Otestoval jsem i jiné detektory, ale některé z nich dokonce označily můj původní text jako 100% AI.

Část 4: Závěr

Z výsledků testu se dá s jistotou říci pouze jediné: na AI detektory se spolehnout nemůžeme. Stačí změnit několik slov a výsledky se závratně liší, jindy zase detektory označují originální texty jako AI (false positives).

Diskriminace a Stanfordská studie

Zásadní problém detektorů odhalila studie vědců ze Stanfordu (Liang et al., 2023: GPT Detectors Are Biased Against Non-Native English Writers).

Jejich výzkum ukázal, že detektory označují texty psané nerodilými mluvčími (mluvícími anglicky) jako AI. Důvod? Lidé, kteří nepíší v rodném jazyce, mají tendenci používat jednodušší slovní zásobu a méně složité větné konstrukce (nízká Perplexity).

Problém false positives a false negative

Detektory se rády chlubí nízkou chybovostí (False Positive Rate) kolem 1 až 5 % jenže tato čísla jsou obvykle založena na interních testech, takže realita může být úplně jinde. Pokud budeme číslům věřit, tak i přesto když škola otestuje 1 000 esejí, statisticky neprávem obviní až 50 studentů.

Budoucnost detekce

Obejít AI detektor v roce 2025 není otázkou hackování. Je to otázka pochopení fungování detektorů. Stačí vnést do textu dostatek „lidského chaosu“, a sebedokonalejší algoritmus nemá šanci.

Jak se vylepšují nástroje detekce AI tak se, minimálně stejným tempem, vylepšují i generativní modely.

Teď mě zajímá váš názor:
Už vás někdo nařkl z využívání AI u práce, kterou jste psali sami nebo naopak?

👇 Napište mi to dolů do komentářů!