Den nye modellen er basert på Gemini 2.5 Pro-teknologier og er designet for å fungere med agenter som kan samhandle med brukergrensesnitt. Den nye modellen er basert på Gemini 2.5 Pro-teknologier og er designet for å fungere med agenter som kan samhandle med brukergrensesnitt.
Den nye modellen er basert på Gemini 2.5 Pro-teknologier og er designet for å fungere med agenter som kan samhandle med brukergrensesnitt.

Google lanserer Gemini 2.5 Computer Use: AI-modellen som kan bruke datamaskinen din

Annonse

Google har tatt et stort steg videre i utviklingen av generative AI-agenter med lanseringen av Gemini 2.5 Computer Use – en ny spesialisert språkmodell bygget på den avanserte visuelle persepsjons- og resonneringsteknologien fra Gemini 2.5 Pro.
Modellen lar kunstig intelligens samhandle direkte med brukergrensesnitt, ikke bare gjennom API-er, men på samme måte som et menneske bruker en datamaskin: ved å klikke, skrive, bla og navigere.

Et nytt nivå av interaktiv AI

Tradisjonelt har AI-systemer hatt begrensninger når de skal håndtere oppgaver som krever visuell eller manuell interaksjon. Selv om de kan koble seg til API-er, krever mange virkelige prosesser tilgang til et faktisk grafisk grensesnitt — som å fylle ut skjemaer, logge inn på nettsider, eller navigere gjennom komplekse apper.

Med Gemini 2.5 Computer Use introduserer Google en modell som oppfører seg som et menneske på skjermnivå. Den kan:

  • klikke på knapper

  • skrive inn tekst og passord

  • bla gjennom sider

  • bruke rullegardinmenyer

  • og til og med be om bekreftelse før den utfører kritiske handlinger, som kjøp eller innlogginger.

Dette markerer ifølge Google neste steg mot virkelig autonome AI-agenter – intelligente assistenter som ikke bare kan svare på spørsmål, men faktisk utføre oppgaver i digitale miljøer.

Selv om AI allerede kan samhandle med programmer via API-er, krever mange prosesser direkte samhandling med et grafisk grensesnitt, for eksempel å fylle ut skjemaer eller navigere på nettsteder.
Selv om AI allerede kan samhandle med programmer via API-er, krever mange prosesser direkte samhandling med et grafisk grensesnitt, for eksempel å fylle ut skjemaer eller navigere på nettsteder.

Hvordan fungerer det?

Kjernefunksjonaliteten er bygget rundt verktøyet computer_use i Gemini-API-et.
Prosessen skjer i gjentatte sykluser:

  1. Brukeren gir en forespørsel, sammen med et skjermbilde av gjeldende miljø og historikken over tidligere handlinger.

  2. Modellen analyserer skjermbildet, tolker konteksten og foreslår neste steg – for eksempel å klikke på en knapp eller skrive inn tekst.

  3. Etter hver handling oppdateres skjermbildet, og modellen starter en ny syklus til oppgaven er fullført.

Utviklere kan også angi hvilke grensesnitt-elementer som skal være tilgjengelige eller utelukkes, slik at AI-en opererer innenfor trygge rammer.

Ytelse og sikkerhet

Gemini 2.5 Computer Use er i første omgang optimalisert for nettlesere, men viser allerede imponerende resultater i mobilgrensesnitt. Støtte for stasjonære applikasjoner kommer senere.

Gemini 2.5 Computer Use er optimalisert for nettlesere, men viser allerede sterk ytelse i mobile grensesnitt.
Gemini 2.5 Computer Use er optimalisert for nettlesere, men viser allerede sterk ytelse i mobile grensesnitt.

I interne tester har modellen overgått konkurrenter i flere kategorier, blant annet nøyaktighet, reaksjonstid og stabilitet.
For å minimere risiko har Google bygget sikkerhetsmekanismer direkte inn i modellen. Dette inkluderer kontroller som hindrer AI-en i å utføre potensielt skadelige eller uautoriserte handlinger, som å sende sensitiv informasjon eller foreta kjøp uten bekreftelse.

Tilgjengelig for utviklere

Utviklere får nå tilgang til Gemini 2.5 Computer Use gjennom Gemini API i Google AI Studio og Vertex AI, der de kan eksperimentere med automatisering, testing og grensesnittstyring.

 Støtte for stasjonære datamaskiner er ikke tilgjengelig ennå. Modellen viser høy ytelse i flere benchmark-tester og overgår konkurrentene på flere målinger.
Støtte for stasjonære datamaskiner er ikke tilgjengelig ennå. Modellen viser høy ytelse i flere benchmark-tester og overgår konkurrentene på flere målinger.

Med denne lanseringen beveger Google seg enda nærmere visjonen om fullt operative digitale assistenter – AI-agenter som ikke bare forstår verden, men faktisk kan handle i den.

Vis kommentarer

Hva mener du?

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *