GPT-4o vs. Gemini: Benchmarking AI-modeller med en fysik simulations test

GPT-4o vs. Gemini: AI-modeller testet med fysiksimulation

Hvor godt løser AI-modeller komplekse kodningsopgaver? Vi testede GPT-4o, GPT-4o-mini, Gemini 2.0 og Gemini 1.5 Flash på en Multi-Ball Physics Simulation. Flagship-modellerne udmærkede sig, mens lettere versioner fremhævede afvejninger mellem hastighed og præcision. Læs videre for indsigt i deres præstation og evner.

Sprogmodeller som OpenAI’s GPT-4o og Googles Gemini er blevet essentielle værktøjer til kodning, problemløsning og automatisering af komplekse opgaver. Til denne test fokuserede vi på deres bredt anvendte standardmodeller—GPT-4o, GPT-4o-mini, Gemini 2.0 og Gemini 1.5 Flash—frem for deres flagskibsversioner. Disse standardmodeller er hurtigere, mere omkostningseffektive og mere praktiske til virkelige anvendelser, hvor hastighed og skalerbarhed ofte vejer tungere end behovet for banebrydende kompleksitet.

Opgaven: Multi-Ball Hexagonal Simulation

Modellerne blev bedt om at generere Python-kode til en fysiksimulation, der involverede tre kugler af forskellige størrelser og vægte inde i en statisk hexagonal arena. Hver kugle startede med den samme hastighed i tilfældige retninger.

Prompt til test: Skriv et Python-script til at simulere bevægelsen af tre bolde (rød, grøn og blå) inde i en statisk hexagonal arena, hvor hver væg af hexagonen er 200 pixels lang. Hver bold skal have en forskellig størrelse, som svarer til dens vægt i fysiksimuleringen. Alle tre bolde skal starte med den samme hastighed, men i tilfældige retninger. Scriptet skal håndtere realistisk fysik for boldbevægelse, herunder kollisiondetektion med væggene og mellem boldene, med hastighedsopdateringer baseret på deres størrelse og vægt. Brug Pillow-biblioteket til at gengive den hexagonale arena og boldene. Gem hvert trin af simuleringen som et billede i en mappe, så rammerne senere kan samles til en video.

Denne udfordring testede modellerne i kodning, fysik og problemløsning, hvor en struktureret tilgang som kæde-af-tanker prompting—at skitsere trin før løsning—kan være særligt nyttig. Ved at opfordre modellerne til at fokusere på nøgleudfordringer og potentielle fejl, kan selv standardmodeller levere stærke resultater.

The o1 Advantage

OpenAIs flagskibs o1-modeller er trænet til at løse komplekse opgaver ved hjælp af detaljeret intern ræsonnering, hvilket ofte resulterer i en tankegang, før de svarer. Selvom de er kraftfulde, er de langsommere og dyrere end standardmodeller. For mange virkelige applikationer tilbyder målrettet prompting med hurtigere modeller sammenlignelig ydeevne til lavere omkostninger.

Model Showdown: Test af Problemløsningskapaciteter

Følgende er resultaterne af, hvordan GPT-4o, GPT-4o-mini, Gemini 2.0 og Gemini 1.5 Flash tacklede Multi-Ball Hexagonal Simulation-opgaven. Hver model blev evalueret for sin evne til at generere Python-kode, der håndterede kollisiondetektion, bevare momentum og præcis visuel gengivelse, alt sammen inden for rammerne af en hexagonal arena.

GPT-4o:

OpenAI's alsidige flagskibsmodel udmærker sig ved strukturerede output, hvilket muliggør præcis opgaveløsning og integration med anden software.

Koden håndterede den hexagonale arena geometri nøjagtigt, men viste bolde grafisk større end deres fysiske grænser, hvilket forårsagede visuel overlapning under kollisioner.
Impulsen blev forkert beregnet, idet den blå bold bevægede sig for meget efter kollisioner.
Generelt var simuleringen funktionel, men manglede fysisk præcision.

GPT-4o-mini:

En mindre, hurtigere version af GPT-4o, ideel til enklere opgaver og omkostningseffektiv brug.

Præsterede dårligt, med defekte arena grænser og forkert kollisionshåndtering for både bolde og vægge.
Genereret kode manglede den præcision, der kræves for pålidelige simulationer.

Gemini 2.0 Flash:

Googles avancerede model, designet til kompleks ræsonnering og forbedret ydeevne.

Leverede de bedste resultater med nøjagtige arena grænser, korrekte boldkollisioner og præcis bevarelsen af momentum.
Den visuelle gengivelse og fysikberegningerne var fejlfri, hvilket viser modellens overlegne evne i denne opgave.

Gemini 1.5 Flash:

En hurtig og responsiv model optimeret til effektivitet i hverdagens opgaver.

Selvom arenaens geometri var forkert, blev boldkollisioner og bevarelsen af momentum beregnet nøjagtigt.
Modellen håndterede fysik bedre end GPT-4o-mini, men var stadig begrænset af fejl i arenaimplementeringen.

Konklusion

De standardmodeller, der kommer fra OpenAI og Google, viste stærke problemløsningsevner, hvor Gemini 2.0 præsterede bedst samlet set. Mens de lette versioner (GPT-4o-mini og Gemini 1.5 Flash) tilbød hurtigere resultater, fremhæver deres begrænsninger i præcision de kompromiser, der findes mellem hastighed og nøjagtighed i virkelige applikationer.

Strukturerede output – En nøglefordel ved GPT-4o modeller

En af de fremtrædende funktioner ved GPT-4o og GPT-4o-mini er deres evne til at producere strukturerede output såsom JSON. Denne kapabilitet sikrer pålidelig formatering, hvilket gør det lettere for modellerne at integrere med softwaresystemer eller udføre flertrinsprocesser nøjagtigt. For opgaver, der kræver samarbejde med API'er, internetbaserede forespørgsler eller præcis kontrol over resultater, muliggør strukturerede output problemfri interaktion og præcis opgaveudførelse. Denne funktion er især kritisk for komplekse arbejdsgange, hvor konsistens og pålidelighed er essentielle.

Benchmarking GPT-4o vs. Gemini

Menu

Prædiktiv ordreprognose

GPT Prompt Optimizer

Ressourcer