Open AI Sora

**my03** · 2024-02-24, 17:55

Någon som har mer information om när Open AIs "Sora" kan tänkas släppas fritt (i någon form)? Skulle vara helt outstanding att använda till att göra någon form av videos till ens musik.

(kika på exempel här (scrolla ner lite): https://openai.com/sora)

**Ambulansen** · 2024-02-24, 21:11

Ja det kan ju faktiskt vara kul att helt enkelt bara ge den låttexten, typ en vers i taget.

**_Peter_** · 2024-02-24, 21:24

Undrar vilken GPU som krävs för att kunna köra Sora?

**The Introvert** · 2024-02-24, 21:40

Gissningsvis kommer de inte att släppa det för lokal körning då det inte är open source så du kör nog mot deras servrar. De verkar vara försiktiga med hur det kommer att släppas till allmänheten, det är mycket debatt nu kring vad som händer om "alla" får tillgång till möjligheten att fejka godtyckliga videoklipp med godtyckliga människor.

(Och ja, det är ett större problem som man kommer att behöva hantera mycket snart när öppna källkodsalternativ kommer hack i häl)

**geminister** · 2024-02-25, 13:38

Tror inte dom begränsar tillgången främst pga vad konsekvenserna skulle kunna vara utan för det är extremt resursintensivt. Krävs enorma investeringar i infrastruktur för att kunna ge många användare tillgång.

**Katzenjammer** · 2024-02-25, 13:56

Det finns redan ett flertal AI-tjänster för video som är tillgängliga nu. Möjligen att kvalitén inte är lika bra som Sora. T ex Runway Gen-2. Med gratisversionen kan du dock enbart generera 3-4 sek åt gången. Dock går det sedan utöka klippet med 4 sekunder åt gången.

**Ulven** · 2024-02-25, 14:01

Ursprungligen postat av Katzenjammer

This quote is hidden because you are ignoring this member.

Det finns redan ett flertal AI-tjänster för video som är tillgängliga nu. Möjligen att kvalitén inte är lika bra som Sora. T ex Runway Gen-2. Med gratisversionen kan du dock enbart generera 3-4 sek åt gången. Dock går det sedan utöka klippet med 4 sekunder åt gången.

Dessvärre så bildas en helt oacceptabel "glitch" som ser skrattretande illa ut när du förlänger videon (om de inte har förbättrat det senaste månaden men det har jag inte hört något om) så i praktiken är det 4 sekunder. Och det är 4 sekunder som gäller även med betalversionerna.

Edit: nu pratar jag alltså om Runway Gen2. Jag använder både Runway och Pika men tycker fortfarande resultatet är helt oacceptabelt för professionellt bruk. Visst kan man göra roande produkter á la "Will Smith äter spagetti" men då är det ju just glitcharna som är intressanta och de försöker de ju städa bort mer och mer.

Sora är något helt annat, ett helt nytt steg i kvalité. Men det lär inte vara gratis.

**Katzenjammer** · 2024-02-25, 14:08

Har inte testat Gen-2 på länge. Loggade precis in och genererade först ett 4 sekunders klipp som jag sedan förlängde med 4 sekunder. Fick ingen glitch här i alla fall.

**Ulven** · 2024-02-25, 14:14

Ursprungligen postat av Katzenjammer

This quote is hidden because you are ignoring this member.

Har inte testat Gen-2 på länge. Loggade precis in och genererade först ett 4 sekunders klipp som jag sedan förlängde med 4 sekunder. Fick ingen glitch här i alla fall.

Ok! Körde du text to video eller image to video? Jag använder bara image to video och då blir det alltid en synlig "skarv" med någon tydlig bieffekt där videon förlängs.

**Katzenjammer** · 2024-02-25, 14:34

Ursprungligen postat av Ulven

This quote is hidden because you are ignoring this member.

Ok! Körde du text to video eller image to video? Jag använder bara image to video och då blir det alltid en synlig "skarv" med någon tydlig bieffekt där videon förlängs.

Jag använde text till video. Sen beror det så klart vad man vill generera. Testade med bild till video nu. Fick inget tydligt hack i övergången. Sen att den generar något helt galet är en annan sak. Den håller sig dock till temat tycker jag. Men realistiska videos är enormt svårt att få längre sammanhängande. Så är det.

Här är ett 12 sek klipp och originalbilden jag använde (bilden är genererad med SDXL) https://www.dropbox.com/scl/fo/x53jn...txs047yfb&dl=0

**Lackan** · 2024-02-25, 16:29

Ursprungligen postat av Ulven

This quote is hidden because you are ignoring this member.

men tycker fortfarande resultatet är helt oacceptabelt för professionellt bruk.

Visst är det så, dessutom verkar det finnas en viss "AI estetik" som ser lite dataspelsaktig ut. Ungefär som man på 80-talet direkt såg när något var airbrushat och det i sig fick ett eget uttryck. Det är något utsmetat över det mesta AI man genererar tycker jag. Ser ut som "fingerpaint" i Photoshop liksom.

Men framför allt så är det ju 99% happy-accidents; skriver du in "red car driving on highway" får du ju olika resultat varje gång du genererar - allt från att det faktiskt ser rätt snyggt ut till att bilen kör baklänges på en enfilig motorväg - och allt däremellan.

Ursprungligen postat av Katzenjammer

This quote is hidden because you are ignoring this member.

Fick inget tydligt hack i övergången

Samma där, ibland blir det bra och ibland mindre bra...

**Katzenjammer** · 2024-02-25, 17:16

Ja. Än så länge är det lite hit eller miss med video.

**Lackan** · 2024-02-25, 17:42

Även med bilder upplever jag det som. Nu har jag iofs bara testat Adobes verktyg - både inne i Photoshop och med Firefly - där jag har försökt att göra specifika bilder som t.ex "kungliga slottet med snö på taket" och det funkar inte alls. Men det kanske finns bättre bildverktyg?

Dessutom har ju Adobe sin vana trogen begränsat det hela så om du försöker göra "soldier with gunshot wound" får du nej på detta då de inte gör bilder som kan väcka anstöt.

**Katzenjammer** · 2024-02-25, 18:04

Bilder går att styra mycket bättre med hjälp av olika models, LORAs, control nets och refiners. Adobes är ok för viss utfyllnad men i övrigt inte så bra i mitt tycke.

Lokalt använder jag DrawThings med olika models och LORAs för att forma det jag är ute efter.

**Ulven** · 2024-02-25, 18:57

Ursprungligen postat av Katzenjammer

This quote is hidden because you are ignoring this member.

Jag använde text till video. Sen beror det så klart vad man vill generera. Testade med bild till video nu. Fick inget tydligt hack i övergången. Sen att den generar något helt galet är en annan sak. Den håller sig dock till temat tycker jag. Men realistiska videos är enormt svårt att få längre sammanhängande. Så är det.

Här är ett 12 sek klipp och originalbilden jag använde (bilden är genererad med SDXL) https://www.dropbox.com/scl/fo/x53jn...txs047yfb&dl=0

Ok, jag inser att jag borde använt ett annat ord än "glitch". Det är alltså inte fråga om något hack eller störning. "Deformering i korsövertoningen" är kanske mer beskrivande. Och jag ser det i ditt videoexepmpel, speciellt vid första förlängningen vid 4 sekunder. Tydligast när den där planeten i mitten plötsligt förvandlas till någon slags asteroid med en annan planet bakom.

Det funkar såklart när det är lite mer konstnärliga motiv som i det här fallet, men försöker man zooma in på t ex ett ansikte eller ett träd så ser man den här deformerade övergången väldigt tydligt. Observera att det här inte är någon kritik mot din filmsnutt utan mer en observation om Runways brister. Jag hävdar fortfarande att det är 4 sekunder video i praktiken, bieffekterna vid övergången är alltför tydliga om du utgår från vardagliga motiv. Animerat, konstnärligt, stjärnor och planeter funkar. Människor och natur... njae.

**Katzenjammer** · 2024-02-25, 19:00

Absolut. Så är det. Förstår vad du menar. Vi är långt från realism än så länge.

**Lackan** · 2024-02-25, 19:08

Speciellt när man testar med människor framgår det tydligt att "glitcharna" är olika former av morfning mellan olika klipp och templater som den har blivit matad med. Då kan det bli morf-glitchar där det ser ut som människan vrängs ut-och-in, vilket iofs är ballt, men knappast realistiskt.

@Katzen; Adobe funkar bäst på att förlänga bakgrunder, göra en horisontell bild av en vertikal osv - absolut är det så. Ska kolla in de du nämner för att se om dessa går att använda vettigare.

Vilken är bäst i ditt tycke - är det LORA eller DrawThing?

**Ulven** · 2024-02-25, 19:10

Ursprungligen postat av Lackan

This quote is hidden because you are ignoring this member.

Visst är det så, dessutom verkar det finnas en viss "AI estetik" som ser lite dataspelsaktig ut. Ungefär som man på 80-talet direkt såg när något var airbrushat och det i sig fick ett eget uttryck. Det är något utsmetat över det mesta AI man genererar tycker jag. Ser ut som "fingerpaint" i Photoshop liksom.

Men framför allt så är det ju 99% happy-accidents; skriver du in "red car driving on highway" får du ju olika resultat varje gång du genererar - allt från att det faktiskt ser rätt snyggt ut till att bilen kör baklänges på en enfilig motorväg - och allt däremellan.

Ja, det finns en slags genomgående estetik som man lär sig känna igen och tröttnar på väldigt snabbt. Ser det speciellt med Midjourney som ändå är ett av de bättre verktygen. Det är lite som med chatGPT, du får alltid ett svar. Samma med Midjourney, du får alltid en bild. Men det intressanta är när man är i explore-galleriet och ser en "fantastisk" bild och sen läser bildprompten. Då ser man ofta att ja, bilden kanske är cool, men det var inte alls det som användaren ville ha.

Jag har lagt ner rätt mycket tid på att lära mig skriva prompter och har knäppt fram runt 15 000 bilder i Midjourney nu. Är extremt nöjd med nästan alla. Använder egna foton som bildprompter, annars lever Midjourney sitt eget liv alltför mycket. Och som sagt, man tröttnar fort på den där typiska estetiken. Men den går att undvika.

**Lackan** · 2024-02-25, 19:12

Ursprungligen postat av Ulven

This quote is hidden because you are ignoring this member.

Använder egna foton som bildprompter, annars lever Midjourney sitt eget liv alltför mycket.

Tror detta är nyckeln till framgång här.

**Katzenjammer** · 2024-02-25, 19:16

@Katzen; Adobe funkar bäst på att förlänga bakgrunder, göra en horisontell bild av en vertikal osv - absolut är det så. Ska kolla in de du nämner för att se om dessa går att använda vettigare.

Vilken är bäst i ditt tycke - är det LORA eller DrawThing?

DrawThings är ett program för att generera bilder med. En LORA, enkelt förklarat, är en extra model som du använder för att påverka generering.

Så i DrawThings kan du ladda in modellen SDXL och sedan en eller flera LORAs för att styra slutresultatet. Med hjälp av en LORA kan du få ett väldigt specifikt slutresultat. T ex en bild i en särskild stil, eller hur vinklar påverkas, osv. Du kan även kombinera LORAs för att styra resultatet än mer och med det tillsammans med ett control net kan du även styra t ex hur en karaktär poserar eller överföra komposition från en annan bild.

https://drawthings.ai

**Lackan** · 2024-02-25, 19:28

Ah, tack för förklaringen!

**Oortone** · 2024-02-25, 19:30

Ursprungligen postat av Ulven

This quote is hidden because you are ignoring this member.

Ok, jag inser att jag borde använt ett annat ord än "glitch". Det är alltså inte fråga om något hack eller störning. "Deformering i korsövertoningen" är kanske mer beskrivande. Och jag ser det i ditt videoexepmpel, speciellt vid första förlängningen vid 4 sekunder. Tydligast när den där planeten i mitten plötsligt förvandlas till någon slags asteroid med en annan planet bakom.

Det funkar såklart när det är lite mer konstnärliga motiv som i det här fallet, men försöker man zooma in på t ex ett ansikte eller ett träd så ser man den här deformerade övergången väldigt tydligt. Observera att det här inte är någon kritik mot din filmsnutt utan mer en observation om Runways brister. Jag hävdar fortfarande att det är 4 sekunder video i praktiken, bieffekterna vid övergången är alltför tydliga om du utgår från vardagliga motiv. Animerat, konstnärligt, stjärnor och planeter funkar. Människor och natur... njae.

En gissning är väl att den antingen inte kan trycka genom mer än 4 sek i modellen och sedan i viss mån måste börja om (antagligen flytta värden från slutet till början igen) eller att den inte sparar precis alla parametrar mellan körningarna. Det lär nog vara en sjuh*vetes mängd parametervärden.

**Oortone** · 2024-02-25, 19:38

Ursprungligen postat av my03

This quote is hidden because you are ignoring this member.

Någon som har mer information om när Open AIs "Sora" kan tänkas släppas fritt (i någon form)? Skulle vara helt outstanding att använda till att göra någon form av videos till ens musik.

(kika på exempel här (scrolla ner lite): https://openai.com/sora)

Fascinerande med hunden i fönstret en bit ner. På många sätt väldigt realistisk men vad händer med höger bakben när den hoppar mellan fönsterbrädorna...

**Oortone** · 2024-02-25, 20:42

Fråga till er som följer området, finns det på gång system där man kan kombinera musik och text och få rörlig bild?
Det skulle ju vara kul.

**Lackan** · 2024-02-25, 21:20

Jag har suttit och lekt lite med Runway nu i kväll och de 4 sekunderna verkar helt enkelt vara en lösning eftersom man betalar per sekund renderad tid.

Om man börjar med en "simulering" så gör programmet bara de 4 första sekunderna så att OM det ser för djävligt ut ska man inte ha slösat bort alla sina krediter på detta.

Jag upplever dessutom att den vid förlängning plockar upp tråden hyggligt bra 9 gånger av 10. Till och med vid komplexa kameravinklar och med människor inblandade.

Sedan verkar man kunna förlänga sin film med 4 sekunder i taget hur länge som helst - men förr eller senare börjar det se keff ut, och det är pga detta de bara har 4-sekunders slajsar.

**supro** · 2024-02-25, 22:29

Ursprungligen postat av Katzenjammer

This quote is hidden because you are ignoring this member.

Lokalt använder jag DrawThings med olika models och LORAs för att forma det jag är ute efter.

Jag använder midjourney (det dyra abonnemanget) för vissa bilder/illustrationer men är nyfiken på vad mer som finns därute. Hur är DrawThings och LORAs jämfört med midjourney, en helt annat typ av verktyg eller? Sorry för lite OT

**Katzenjammer** · 2024-02-25, 22:42

Ursprungligen postat av supro

This quote is hidden because you are ignoring this member.

Jag använder midjourney (det dyra abonnemanget) för vissa bilder/illustrationer men är nyfiken på vad mer som finns därute. Hur är DrawThings och LORAs jämfört med midjourney, en helt annat typ av verktyg eller? Sorry för lite OT

Egentligen inte. Midjourney är också baserad på olika modeller och använder -- kommandon för att styra riktningen på bilderna. Som skulle kunna jämföras med att använda olika LORAs.

DrawThings är gratis och du kan ladda ner modeller och LORA m.m. från t ex Civitai eller HugginFace och köra lokalt på din dator. Det går även ladda ner modeller och LORAs direkt inifrån DrawThings. Så man måste inte bege sig ut och leta på nätet. Vill man köra en modell som är lik Midjourney så finns OpenJourney. Som alltså går att ladda ner gratis.

Här är länkar till det jag pratat om:
https://drawthings.ai - Programmet du kan ladda in dina modeller, LORA, m.m i.
https://civitai.com - Modeller, LORA och mycket mer. Allt går även kör på deras sida.
http://openjourney.art - OpenJourney-modellen som liknar Midjourney. Går att ladda ner från HugginFace.
https://hugginface.co - Ett AI community där det finns modeller och mer.

**supro** · 2024-02-25, 23:07

Tjena Katzen och tack för snabbt svar + länkar! Då testar jag

**Katzenjammer** · 2024-02-25, 23:12

Ska dock tilläggas att Midjourney utvecklas i en rasande takt och att köra det online på deras tjänst ger ju tillgång till betydligt bättre datorkraft. Vilket gör att det går snabbare.

Att köra lokalt med t ex DrawThings innebär att man själv får hålla koll på uppdateringar av modeller osv. Så det blir en hel del gigabyte som ska laddas ner med jämna mellanrum. Om man vill uppdatera. Inget måste.

Jag kör allt lokalt på min dator. En Mac Mini M1. Det tar inte jättelång tid att generera en bild. Allt beror på vilken modell, storlek på bilden, komplexitet, antal LORAs jag använder, refiner, upscaler, osv. Kräver också att man lär sig hur saker fungerar. Men det fungerar alldeles utmärkt. Så för mig finns ingen anledning att köra online om det inte är något väldigt specifikt jag vill testa eller vill kunna generera snabbare.

**supro** · 2024-02-25, 23:24

Ja, Midjourney 6.0 är grymt bra och det går blixtsnabbt och jag kan göra massor av bilder och varianter med $60-abonnemanget men det ska bli kul att testa annat också, jag har M2 Pro.

**Peeter** · 2024-02-26, 07:19

Fel länk - ska vara https://huggingface.co

Ursprungligen postat av Katzenjammer

This quote is hidden because you are ignoring this member.

https://hugginface.com - Ett AI community där det finns modeller och mer.

**Katzenjammer** · 2024-02-26, 07:34

Japp. Sorry. Blev fel toppdomän där.

Ämne: Open AI Sora

Ämnesverktyg

Sök ämne

Open AI Sora

Liknande ämnen

Open source filsystemsmagi?

Open Minded ?

Behörigheter för att posta