Tři špičkové AI modely dnes dominují podnikovým financím: Claude Opus 4.7 od Anthropic, GPT-5 od OpenAI a Gemini 3 od Google. Na marketingových slidech vypadají podobně. Když je ale pustíte na výsledovku, chovají se velmi odlišně. Tohle je praktické srovnání zaměřené na finance, které jsme si přáli mít, když jsme vybírali motor pro BinarBase.

Tento článek není žebříček. Žebříčky optimalizují benchmarky; finance optimalizují náklady chyby. Porovnali jsme tři modely v šesti dimenzích, na kterých skutečně záleží, když se AI dotýká vašich účetních knih — hloubka uvažování, porozumění dlouhému kontextu, generování kódu, odolnost vůči halucinacím, náklady při škálování a postoj k EU compliance.

Jak číst tento článek: specifikační čísla (kontextová okna, rezidence dat, výchozí netrénování) pocházejí z oficiální dokumentace dodavatelů. Pozorování chování jsou hodnocením našeho týmu, ne benchmarkovou zprávou — odrážejí naše interní testování na finančních promptech a produkční používání těchto API. Před rozhodnutím doporučujeme test na vašich vlastních datech. Krajina modelů se hýbe rychle; toto srovnání je aktuální ke květnu 2026.

Lineup roku 2026 ve zkratce

VlastnostClaude Opus 4.7GPT-5Gemini 3 Pro
DodavatelAnthropicOpenAIGoogle DeepMind
Kontextové okno1M tokenů1M tokenů1M tokenů
Styl uvažováníRozšířené myšlení, opatrnýRychlý, rozhodnýŠiroká paměť, integrativní
Použití nástrojůVynikající, strukturovanéVynikající, široký ekosystémSilné, nativně pro Workspace
Datové centrum v EUAno (AWS Bedrock EU)Ano (Azure OpenAI EU)Ano (Vertex AI EU)
Závazek netrénovatVýchozí pro APIVýchozí pro APIVýchozí pro placenou vrstvu
Nejlépe se hodí naHloubková analýza, regulovaná práceAgentové workflow, kódHromadné parsování dokumentů

Specifikace odrážejí aktuální stabilní varianty ke květnu 2026: GPT-5.5 (vydáno v dubnu 2026, OpenAI) a Gemini 3.1 Pro (Google). „GPT-5" a „Gemini 3" se v článku používají jako názvy rodin modelů.

Všechny tři jsou opravdu schopné. Zajímavá otázka je, kde každý selže jako první.

Test 1 — Vícekrokové numerické uvažování

Klasický finanční prompt: „Z této předvahy spočítej pracovní kapitál a pak vysvětli, jak by 15denní prodloužení splatnosti pohledávek ovlivnilo běžnou likviditu, pokud COGS zůstanou nezměněné." Tři kroky, tři mezivýsledky, jeden špatný aritmetický krok zničí odpověď.

Jak selhávají

  • Claude Opus 4.7: V našem testování bývá pomalejší, ale rozšířené myšlení ukáže svou práci — snadno se auditovat. Nejpravděpodobněji upozorní na chybějící předpoklady.
  • GPT-5: Rychlejší v odpovědi; rychlost občas znamená vynechání kroku u dvojznačných promptů.
  • Gemini 3: Izolované výpočty zvládá dobře; u dlouhých závislých řetězců jsme viděli nejvíce variability.

Verdikt pro finance

Podle naší zkušenosti je pro analýzu na úrovni představenstva, kde je každé číslo auditovatelné, nejspolehlivější volbou v reprodukovatelnosti Claude Opus 4.7. Jeho viditelný řetězec uvažování je vlastnost, ne zátěž.

Test 2 — Porozumění dlouhému kontextu

Všechny tři vlajkové modely dnes nabízejí zhruba 1-milionové kontextové okno. Zajímavým rozlišovacím prvkem už není, kolik se vejde — ale co se s tím děje, jakmile je to uvnitř.

  • Kvalita vyhledávání v okně: Anthropic publikuje špičkové výsledky pro Claude na benchmarcích dlouhého kontextu jako MRCR a GraphWalks a upozorňuje, že zisky závisí na tom, co je v kontextu, ne jen na tom, kolik se vejde. Prakticky to znamená lepší šanci najít správný odstavec v 600stránkovém dokumentovém portfoliu, ne jen schopnost ho načíst.
  • I výstupní limity tokenů záleží: velikost vstupního okna se dostává na titulky, ale výstupní stropy omezují reálné workflow. Gemini 3 Pro omezuje výstup na zhruba 64K tokenů — což je významné, když žádáte o plně vypracované memo pro představenstvo nebo přepsanou smlouvu. Claude a GPT-5 mají odlišné výstupní limity; před zafixováním si ověřte aktuální dokumentaci.
  • Cenotvorba u dlouhého kontextu je nelineární: GPT-5.5 účtuje 2× za vstup a 1,5× za výstup u promptů nad 272K tokenů — takže napěchování celého 10-K je dražší než vyhledání relevantních 30 stran. To často vrací ekonomickou odpověď zpět k retrievalu, bez ohledu na to, který model používáte.

Verdikt: Všechny tři jsou konkurenceschopné na 1M tokenech. RAG (retrieve-then-feed) obvykle stále poráží napěchování celého dokumentu — a je levnější. Po plném okně sáhněte tehdy, když opravdu záleží na kontextu celého dokumentu, ne jako po výchozím řešení.

Test 3 — Generování kódu pro ad-hoc analýzu

Nejužitečnější finanční AI nejen odpovídá — píše SQL nebo Python pro získání odpovědi a pak ho i spustí. Zde záleží na použití nástrojů a spolehlivosti kódu.

SQL nad star schématem

  • GPT-5: Patří mezi nejsilnější v konzistenci formátu volání funkcí. Podle nás vynikající ve spojování fact a dimension tabulek a ochotný odvodit schéma ze vzorových řádků.
  • Claude Opus 4.7: Trochu rozvláčnější, ale v našem testování produkuje správné CTE napoprvé častěji. Silný u okenních funkcí.
  • Gemini 3: Silný v BigQuery dialektu (což nepřekvapuje). U specifických Postgres patterns vidíme více variability.

Verdikt pro finance

V našem používání agentové workflow, které spouštějí kód v sandboxu, spíše upřednostňují GPT-5 pro spolehlivost volání nástrojů při škálování, zatímco Claude Opus 4.7 často vyhrává ve správnosti na první pokus. Oba jsou dobré; volba závisí na tom, který chybový režim vás bolí méně.

Test 4 — Odolnost vůči halucinacím u čísel

Toto je test, na kterém ve financích nejvíc záleží.

Zeptejte se všech tří modelů: „Jaký byl Apple free cash flow v Q3 2024 podle 10-Q, které jsem ti právě poslal?" — ale ujistěte se, že toto číslo v dokumentu opravdu není. Správná odpověď je „V dokumentu toto číslo nenalézám." Špatná odpověď je vymyslet ho.

Anthropic veřejně zdůraznil kalibraci — vědět, kdy nevědět — jako designovou prioritu pro Claude. V našem testování zaměřeném na finance jsme zjistili, že častěji odpovídá „toto číslo v dokumentu nenalézám" než aby vyprodukoval sebevědomé, leč nesprávné číslo, a u finančních use case to považujeme za přednost. GPT-5 a Gemini 3 se oba zlepšují v ukotveném vyhledávání, ale podle naší zkušenosti se chybový režim sebevědomého vymýšlení čísel stále objevuje častěji, než je nám u podkladů pro představenstvo komfortní.

Verdikt: Pokud je cena jednoho vymyšleného čísla v podkladech pro představenstvo vyšší než nepříjemnost odpovědi „nedostatek informací", Claude Opus 4.7 je bezpečnější volba. Tento kompromis je důvod, proč je BinarBase postaven na něm.

Test 5 — Náklady při škálování

Jeden CFO dotaz je levný. Měsíční automatizovaná rekonciliace 10 000 transakcí, kde každá vyžaduje volání modelu, už ne.

Konkrétní výpočet závisí na mixu tokenů, ale strukturální obraz je tento:

  • Nejlevnější pro vysokoobjemovou práci s nízkým rizikem: Gemini 3 Flash a Claude Haiku 4.5 jsou tažní koně. Oba jsou zhruba o řád levnější než vlajková vrstva.
  • Nejlepší poměr ceny a kvality pro analýzu: Claude Sonnet 4.6 a GPT-5 mini trefují sweet spot pro většinu CFO workflow.
  • Vlajkové modely si nechte na těžké úlohy: Opus 4.7 / GPT-5 / Gemini 3 Pro používejte na přípravu představenstva, auditorské uvažování a rozhodnutí s vysokou sázkou — ne na parsování každé faktury.

Verdikt: Správná odpověď je téměř vždy vrstvená architektura: malý model řeší 95 % provozu, vlajkový model řeší 5 %, na kterých skutečně záleží. BinarBase směruje práci tímto způsobem výchozím nastavením.

Upozornění: ceny tokenů se často mění. Před rozhodnutím o architektuře na základě ceny za token si ověřte aktuální ceník dodavatele.

Test 6 — EU compliance a datová rezidence

Pro evropské firmy tato otázka často rozhoduje dříve než benchmarky. Záleží tři věci: kde se data zpracovávají, zda se používají k trénování a zda jsou právní závazky dodavatele explicitní.

Compliance dimenzeClaudeGPT-5Gemini 3
Zpracování přes API v EUAno (Bedrock EU regiony)Ano (Azure OpenAI EU regiony)Ano (Vertex AI EU regiony)
Výchozí netrénováníAnoAnoAno (placená vrstva)
Dokumentace EU AI ActSilnáDobráDobrá
IP indemnita pro zákazníkaAno (komerční vrstva)Ano (komerční vrstva)Ano (Vertex)

Všichni tři dodavatelé dnes splňují základní laťku, která ještě před 18 měsíci neexistovala. Rozdíly jsou v detailech: dokumentace od Anthropic ohledně model cards, povinností deployera a transparentnosti dle článku 50 EU AI Act je nejpřímočařeji mapovatelná na požadavky aktu, jak se zavádějí během roku 2026.

Verdikt — Který model na jakou práci

Vyberte Claude Opus 4.7 když

  • Cena nesprávného čísla je vysoká (zprávy pro představenstvo, audit, regulační podání)
  • Potřebujete viditelný, auditovatelný řetězec uvažování
  • Stavíte pro EU-regulované finanční publikum

Vyberte GPT-5 když

  • Stavíte agentové systémy s intenzivním použitím nástrojů
  • Rychlost je důležitější než hloubka
  • Jste už investovaní do stacku Microsoft / Azure

Vyberte Gemini 3 když

  • Potřebujete pojmout obrovské dokumenty celé
  • Žijete v Google Workspace a chcete nativní integraci
  • BigQuery je váš sklad

Proč si BinarBase vybral Claude

Claude jsme zvolili jako výchozí motor BinarBase z jednoho důvodu, který převyšuje všechny ostatní: finance jsou doménou, kde záleží více na kalibraci k nejistotě než na holé inteligenci. Model, který řekne „nejsem si jistý, tady je co bych ověřil jako první", je v rukou CFO užitečnější než model, který sebevědomě vyprodukuje nesprávné číslo bez jakéhokoli varovného signálu.

To neznamená, že budoucnost patří jednomu modelu. Pro vysokoobjemovou práci používáme menší Claude vrstvy a aktivně hodnotíme GPT-5 a Gemini 3 pro specifické úlohy, kde jsou jejich silné stránky rozhodující — například analýzu dokumentů s velmi dlouhým kontextem nebo specializované volání nástrojů. Správná architektura v roce 2026 je multi-model, se silným výchozím.

Co to znamená pro vás

Pokud vybíráte AI partnera pro finanční práci — ať už BinarBase, nebo něco interního — otázky, na kterých záleží, nejsou „který model má nejvyšší MMLU skóre?". Jsou:

  • Jaká je cena nesprávné odpovědi v našem kontextu a který model selhává nejbezpečněji?
  • Poskytuje dodavatel smluvní závazek netrénovat, který můžeme ukázat auditorovi?
  • Kde se data zpracovávají a zůstávají v EU, když to potřebujeme?
  • Jak se škálují náklady, když se využití znásobí 10×?
  • Budeme uzamčeni v jednom modelu, nebo můžeme směrovat práci k tomu, který se nejlépe hodí?

Tohle jsou otázky, které si klademe každý kvartál. Krajina modelů se bude dále hýbat — co se nezmění, je že kupující ve financích by měli vybírat na základě kalibrace, transparentnosti a compliance, ne podle lesku v benchmarcích.

Vyzkoušejte to s vašimi daty

BinarBase používá Claude Opus 4.7 nad vašimi účetními knihami, s EU datovou rezidencí a smluvním závazkem netrénovat. Spusťte si free trial a uvidíte rozdíl, který přináší kalibrovaná AI.

Spustit free trial