GPT-4o vs. Gemini: Benchmarking AI-modeller med en fysik simulerings test

GPT-4o vs. Gemini: AI-modeller testet med fysikksimulering

Hvor godt løser AI-modeller komplekse kodeoppgaver? Vi testet GPT-4o, GPT-4o-mini, Gemini 2.0 og Gemini 1.5 Flash på en Multi-Ball fysikksimulering. Flagship-modellene utmerket seg, mens lettere versjoner fremhevet avveininger mellom hastighet og presisjon. Les videre for innsikt i deres ytelse og kapabiliteter.

Språkmodeller som OpenAIs GPT-4o og Googles Gemini har blitt essensielle verktøy for koding, problemløsning og automatisering av komplekse oppgaver. For denne testen fokuserte vi på deres mye brukte standardmodeller—GPT-4o, GPT-4o-mini, Gemini 2.0, og Gemini 1.5 Flash—i stedet for deres flaggskipversjoner. Disse standardmodellene er raskere, mer kostnadseffektive og mer praktiske for virkelige applikasjoner der hastighet og skalerbarhet ofte veier tyngre enn behovet for banebrytende kompleksitet.

Oppgaven: Multi-Ball Hexagonal Simulering

Modellene ble bedt om å generere Python-kode for en fysikksimulering som involverte tre baller av forskjellige størrelser og vekter inne i en statisk sekskantet arena. Hver ball startet med samme hastighet i tilfeldige retninger.

Prompt for testing: Skriv et Python-skript for å simulere bevegelsen til tre baller (rød, grønn og blå) inne i en statisk heksagonal arena, der hver vegg av heksagonet er 200 piksler lang. Hver ball skal ha en forskjellig størrelse, som tilsvarer vekten i fysikk-simuleringen. Alle tre baller skal starte med samme hastighet, men i tilfeldige retninger. Skriptet må håndtere realistisk fysikk for ballbevegelse, inkludert kollisjonsdeteksjon med veggene og mellom ballene, med hastighetsoppdateringer basert på størrelse og vekt. Bruk Pillow-biblioteket for å gjengi den heksagonale arenaen og ballene. Lagre hvert steg av simuleringen som et bilde i en mappe, slik at bildene senere kan settes sammen til en video.

Denne utfordringen testet modellens koding, fysikk og problemløsningsferdigheter, der en strukturert tilnærming som kjede-av-tanker prompting—som skisserer trinn før man løser—kan være spesielt nyttig. Ved å oppmuntre modellene til å fokusere på nøkkelutfordringer og potensielle feil, kan selv standardmodeller levere sterke resultater.

O1-fordelen

OpenAIs flaggskip o1-modeller er trent til å løse komplekse oppgaver ved hjelp av detaljert intern resonnement, og produserer ofte en tankerekke før de svarer. Selv om de er kraftige, er de tregere og dyrere enn standardmodeller. For mange virkelige applikasjoner gir målrettet prompting med raskere modeller sammenlignbar ytelse til lavere kostnader.

Modellkonkurranse: Testing av problemløsningsevner

Følgende er resultatene av hvordan GPT-4o, GPT-4o-mini, Gemini 2.0 og Gemini 1.5 Flash håndterte Multi-Ball Hexagonal Simulation-oppgaven. Hver modell ble evaluert for sin evne til å generere Python-kode som håndterte kollisjonsdeteksjon, bevaringen av momentum og nøyaktig visuell gjengivelse, alt innenfor rammene av en heksagonal arena.

GPT-4o:

OpenAIs allsidige flaggskipmodell utmerker seg i strukturerte utdata, noe som muliggjør presis oppgaveløsning og integrering med annen programvare.

Koden håndterte den hexagonale arena-geometrien nøyaktig, men viste baller grafisk større enn deres fysiske grenser, noe som forårsaket visuell overlapping under kollisjoner.
Bevaringen av momentum ble feilberegnet, med den blå ballen som beveget seg for mye etter kollisjoner.
Generelt var simuleringen funksjonell, men manglet fysisk presisjon.

GPT-4o-mini:

En mindre, raskere versjon av GPT-4o, ideell for enklere oppgaver og kostnadseffektiv bruk.

Presterte dårlig, med feilaktige arena grenser og feil håndtering av kollisjoner for både baller og vegger.
Generert kode manglet den presisjonen som kreves for pålitelige simuleringer.

Gemini 2.0 Flash:

Googles avanserte modell, designet for kompleks resonnement og forbedret ytelse.

Leverte de beste resultatene, med nøyaktige arena grenser, korrekte ballkollisjoner, og presis bevaringslov for bevegelse.
Den visuelle gjengivelsen og fysikkberegningene var feilfrie, og viste modellens overlegne evne i denne oppgaven.

Gemini 1.5 Flash:

En rask og responsiv modell optimalisert for effektivitet i hverdagsoppgaver.

Selv om arena geometrien var feil, ble ballkollisjonene og bevaringen av momentum beregnet nøyaktig.
Modellen håndterte fysikk bedre enn GPT-4o-mini, men var fortsatt begrenset av feil i arenaimplementeringen.

Konklusjon

De standardmodellene fra OpenAI og Google viste sterke problemløsningsevner, med Gemini 2.0 som presterte best totalt sett. Mens de lette versjonene (GPT-4o-mini og Gemini 1.5 Flash) tilbød raskere resultater, fremhever deres begrensninger i presisjon avveiningene mellom hastighet og nøyaktighet i virkelige applikasjoner.

Strukturerte utdata – En nøkkelfordel med GPT-4o-modeller

En av de fremtredende funksjonene til GPT-4o og GPT-4o-mini er deres evne til å produsere strukturerte utdata som JSON. Denne kapasiteten sikrer pålitelig formatering, noe som gjør det enklere for modellene å integrere med programvaresystemer eller utføre flertrinnsprosesser nøyaktig. For oppgaver som krever samarbeid med API-er, internettbaserte forespørsel eller presis kontroll over resultater, tillater strukturerte utdata sømløs interaksjon og presis oppgaveutførelse. Denne funksjonen er spesielt kritisk for komplekse arbeidsflyter der konsistens og pålitelighet er avgjørende.

Benchmarking GPT-4o vs. Gemini

Meny

Swiftron

AI Chatbot for ditt nettsted

Tilpasset AI som tar betalt per bruk

GPT Prompt Optimalisator

AI Nettstedsanalyseverktøy