هوش مصنوعی سورا (Sora) چیست و چگونه ویدیوهای جذابی خلق میکند؟
Sora چیست؟
مانند دیگر ابزارهای مولد هوش مصنوعی مانند «دال-ئی» (DALL-E) و «میدجرنی» (MidJourney)، ابزار مبتنی بر هوش مصنوعی «سورا» هم پیامهای متنی را از شما میگیرد و آنها را به یک تصویر دیداری تبدیل میکند. اما بر خلاف دیگر موارد اشاره شده برای تولید تصویر مبتنی بر هوش مصنوعی، سورا یک کلیپ ویدیویی کامل دارای حرکت، زوایای مختلف دوربین، جهت و هر چیز دیگری است که از یک ویدیوی تولید شده به طور سنتی انتظار دارید.
با نگاهی به نمونههای موجود در وبسایت سورا، نتایج نهایی آن، اغلب از ویدیوی واقعی و حرفهای تولید شده قابل تشخیص نیستند. این مقایسه، همه چیز از فیلمهای هواپیماهای بدون سرنشین گرانقیمت گرفته تا تولید فیلمهای چند میلیون دلاری که با بازیگران و جلوههای ویژهی تولید شده توسط هوش مصنوعی کامل میشوند را دربر میگیرد.
البته سورا نخستین فناوری تولید ویدیو از متن نیست و تا کنون شاخصترین نمونه در این زمینه، «رانوی امال» (RunwayML) بود که خدمات خود را با پرداخت هزینه به عموم ارائه میدهد. با این حال، حتی در بهترین شرایط، ویدیوهای رانوی بیشتر شبیه به نسلهای اولیهی تصاویر ثابت میدجرنی هستند. هیچ ثباتی در تصاویر وجود ندارد، فیزیک موجود در آن منطقی نیست و در حال حاضر طولانیترین طول کلیپی که ارائه میدهد ۱۶ ثانیه است.
«لومیر» (Lumiere) هم که چند هفته پیش منتشر شد، ادعا کرد که ویدیوهای بهتری نسبت به نسخههای قبلی خود تولید میکند اما بهنظر میرسد که سورا حداقل در برخی موارد از لومیر قدرتمندتر است. این فناوری میتواند ویدیوهایی با وضوح حداکثر ۱۹۲۰ در ۱۰۸۰ پیکسل و نسبتهای مختلف تولید کند.
بهترین خروجی که سورا ارائه میدهد کاملا پایدار است، فیزیک ارائه شده در آن برای ذهن انسان درست به نظر میرسد و طول کلیپها میتواند تا یک دقیقه را هم شامل شود. ویدیوهای تولید شده توسط سورا بدون صدا هستند، اما سیستمهای هوش مصنوعی دیگری هم وجود دارند که میتوانند موسیقی، جلوههای صوتی و گفتار تولید کنند تا آنها را روی ویدیوهای تولید شده توسط هوش مصنوعی قرار دهید.
بدین ترتیب نمیتوان جهش عظیمی را که سورا نسبت به نسلهای قبلی ویدیوهای تولید شده با هوش مصنوعی عرضه کرده است، نادیده گرفت. همین یک سال پیش بود که هوش مصنوعی ویدیوهای کاملا غیرواقعی تولید میکرد اما اکنون با پیشنمایش سورا، شوک بزرگی برای فعالان عرصهی هنرهای تصویری ایجاد شده است. سورا احتمالا کل صنعت ویدیو را از سازندگان ویدیوهای تک نفره تا سطح پروژههای کلانبودجه مانند دیزنی و مارول تحت تأثیر قرار میدهد. این ممکن است شروع واقعی صنعت فیلم مصنوعی باشد.
سورا چگونه کار میکند؟
تا جایی که امکان دارد، روند تولید تصاویر توسط سورا را بررسی میکنیم اما نمیتوان به جزئیات پرداخت. نخست به این دلیل که OpenAI در مورد عملکرد درونی فناوری خود صحبت نمیکند. همهی این موارد انحصاری است و بنابراین جزئیات فناوری مخفی که سورا را از رقبا متمایز میکند، مشخص نیست. دوم، جزئیات موضوع شاید برای عموم جذاب و قابل درک نباشد و فقط یک دانشمند حوزهی کامپیوتر از آن سر در بیاورد، بنابراین ما فقط میتوانیم نحوهی عملکرد این فناوری را به طور کلی درک کنیم.
خوشبختانه «مایک یانگ» (Mike Young) بر اساس گزارشی فنی OpenAI، توضیحات کاملی دربارهی فناوری سورا در مدیوم ارائه داده است که در اینجا مهمترین نکات آن را با هم مرور میکنیم.
Sora بر اساس درس هایی ساخته شده است که شرکتهایی مانند OpenAI هنگام ایجاد فناوریهایی مانند «چتجیپیتی» (ChatGPT) یا «دال-ئی» (DALL-E) آموختهاند. Sora ویدیوها را با تقسیم کردن آن ویدیوها به بخشهایی که مشابه توکنهای مورد استفاده در مدل آموزشی چت جیپیتی هستند، تولید میکند. از آنجا که این توکنها همگی اندازهی یکسانی دارند، چیزهایی مانند طول کلیپ، نسبت تصویر و وضوح برای سورا مهم نیستند.
در حقیقت این ابزار تولید ویدیو از متن، از همان رویکرد تبدیل گستردهای استفاده میکند که در دیگر مدلهای تبدیل زبانی هوش مصنوعی مانند Chat GPT و گوگل Gemini استفاده میشود. این ترانسفورماتورها نخستین بار در سال ۲۰۱۷ توسط گوگل معرفی شدند. در حالی که ترانسفورماتورها در ابتدا برای یافتن الگوهایی در نشانههایی که متن را نشان میدهند طراحی شده بودند، سورا اکنون نشانههایی استفاده میکند که بخشهای کوچکی از فضا و زمان را به نمایش میگذارند.
Sora در طول آموزش، به پچ توکنهای پر از نویز و تا حدی پراکندهی یک ویدیو نگاه میکند و تلاش میکند تا توکن تمیز و بدون نویز را پیشبینی کند. با مقایسهی آن با یک واقعیت پایه، مدل زبانی ویدیو را میآموزد و از کنار هم قرار دادن این تصاویر یک ویدیوی کامل شکل میگیرد. بر اساس همین تمرین و آموزش است که نمونههای وبسایت سورا بسیار معتبر و واقعی به نظر میرسند.
جدای از این توانایی قابل توجه، سورا برای فریمهای ویدیویی که روی آنها آموزش دیده است، شرحهای بسیار دقیقی هم دارد، که بخش بزرگی از این همین دلیل است که چرا این ابزار میتواند ویدیوهای تولید شده را بر اساس درخواستهای متنی تغییر دهد.
به نظر میرسد توانایی سورا برای شبیهسازی دقیق فیزیک در ویدیوها یک ویژگی نوظهور است که صرفا از آموزش روی میلیونها ویدیو که حاوی حرکت بر اساس فیزیک دنیای واقعی هستند، سرچشمه میگیرد. ماندگاری اجسام در سورا بسیار خوب است و حتی زمانی که اشیاء از قاب خارج میشوند یا به طور موقت توسط چیز دیگری در قاب دیده نمیشوند، در پشت تصویر حضور دارند و بدون به هم ریختگی با تغییر زاویهی دوربین دوباره برمیگردند.
با این حال، گاهی اوقات زمانی که چیزهای موجود در ویدیو با هم ارتباط برقرار میکنند، با درک دلیل ارتباط برای تولید تصویر بعدی از جمله تولید دوبارهی اشیاء مشکلاتی دارد. همچنین، به نظر میرسد که سورا گاهی چپ و راست را اشتباه میکند. با این وجود، آنچه تا کنون در معرفی قدرت سورا نشان داده شده است، نه تنها هماکنون قابل استفاده است، بلکه کاملا پیشرفته به شمار میرود.
چه زمانی به سورا دسترسی خواهید داشت؟
همهی ما بسیار هیجانزده هستیم که از Sora استفاده کنیم، و قطعا در آینده بیشتر دربارهی آن خواهیم نوشت که این فناوری چقدر میتواند کاربردی و شاخص باشد. اما چه زمانی این اتفاق میافتد؟
هنوز دقیقا مشخص نیست که چه مدت طول میکشد تا سورا در دسترس عموم قرار بگیرد، یا هزینهی آن چقدر خواهد بود. به گفتهی OpenAI این فناوری در دستان تیم قرمز است، یعنی گروهی از افراد که وظیفهی دارند که تلاش کنند تا سورا را وادار کنند که همهی کارهای نادرستی را که نباید، انجام دهد و سپس کمک کنند تا محافظی در برابر این نوع کارها قرار داده شود که ممکن است مشتریان واقعی هم از آن بخواهند. این موارد شامل پتانسیل ایجاد اطلاعات نادرست، ساختن مطالب توهینآمیز یا خشونتبار، و بسیاری از سوء استفادههای دیگر است که تصور میشود.
علاوه بر این، هماکنون برخی از تولیدکنندگان محتوای منتخب هم به آن دسترسی دارند که به نظر میرسد این دسترسی، هم برای اهداف آزمایشی و هم برای دریافت نظرات مختلف و تأییدیههای شخص ثالث است که بتواند در نهایت انتشار نهایی آن منجر شود. در نتیجه هنوز زمان انتشار عمومی سورا مشخص نیست. این به این دلیل است که اگر هماکنون در دست آزمایشکنندگان ایمنی آن باشد، ممکن است مشکلاتی کشف شود که رفع آنها بیشتر از حد انتظار طول بکشد و بنابراین انتشار عمومی آن را به تعویق بیندازد.
اینکه OpenAI احساس میکند برای نمایش قابلیتهای Sora آماده است و حتی از طریق X درخواستهای عمومی مردم را برای تولید ویدیو با هوش مصنوعی دریافت کرده است، به این معنی است که این شرکت فکر میکند کیفیت محصول نهایی تقریبا آماده است، اما تا زمانی که تصویر بهتری از افکار عمومی در اینباره وجود داشته باشد و مسائل ایمنی مطرح و کشف شود، هیچ کس نمیتواند با اطمینان بگوید که چه زمانی عرضه میشود.
کاربردهای بالقوهی تبدیل متن به ویدیو
در حال حاضر، محتوای ویدیویی یا با فیلمبرداری از دنیای واقعی یا با استفاده از جلوههای ویژه تولید میشود که هر دو میتوانند هزینه و زمان زیادی را دربر داشته باشند. اما اگر Sora با قیمت مناسب در دسترس عموم قرار بگیرد، مردم میتوانند از آن به عنوان یک نرمافزار نمونهسازی برای تجسم ایدهها با هزینهی بسیار کمتر استفاده کنند. بر اساس آنچه از قابلیتهای سورا میدانیم، حتی میتوان از آن برای ایجاد ویدیوهای کوتاه برای برخی از برنامههای کاربردی در سرگرمی، تبلیغات و آموزش استفاده کرد.
مقالهی فنی OpenAI درباره سورا با عنوان «مدلهای تولید ویدئو به مثابه شبیهسازهای جهان» منتشر شده است. این مقاله استدلال میکند که نسخههای بزرگتر مولدهای ویدیویی مانند سورا ممکن است «شبیهسازهای توانمند دنیای فیزیکی و دیجیتالی، و اشیاء و حیوانات و افرادی که در آن زندگی میکنند» باشند.
اگر چنین چیزی درست باشد، نسخههای بعدی ممکن است کاربردهای علمی برای آزمایشهای فیزیکی، شیمیایی و حتی اجتماعی داشته باشند. برای نمونه، ممکن است بتوان تأثیر سونامیهایی با ابعاد مختلف را بر انواع زیرساختها و سلامت جسمی و روانی افراد نزدیک به مناطق تحت تأثیر بررسی و آزمایش کرد.
با این حال دستیابی به این سطح از شبیهسازی بسیار چالشبرانگیز است و برخی از کارشناسان باین میکنند سیستمی مانند Sora اساسا قادر به انجام آن نیست. یک شبیهساز کامل باید واکنشهای فیزیکی و شیمیایی را در دقیقترین سطوح کیهان محاسبه کند. با این حال، شبیهسازی تقریبی از جهان و ساختن ویدیوهای واقعگرایانه برای چشم انسان، ممکن است در سالهای آینده به آسانی در دسترس باشد.
خطرات و نگرانیهای اخلاقی
نگرانیهای اصلی دربارهی ابزارهایی مانند Sora حول تأثیر اجتماعی و اخلاقی آنها میچرخد. در دنیایی که هماکنون هم گرفتار اطلاعات نادرست است، ابزارهایی مانند سورا ممکن است اوضاع را حتی بدتر کنند.
به آسانی میتوان دریافت که چگونه میتوان از توانایی تولید ویدیوی واقعی از هر صحنهی قابل توصیف، برای انتشار اخبار جعلی متقاعدکننده یا ایجاد شک و تردید در فیلمهای واقعی استفاده شود. ممکن است اقدامات بهداشت عمومی را به خطر بیندازد، برای تأثیرگذاری بر جامعه مورد استفاده قرار بگیرد یا حتی سیستمهای قضایی را با شواهد نادرست بالقوه دچار چالش کند.
تولیدکنندههای ویدیو همچنین ممکن است با تولید دیپفیک به ویژه موارد غیراخلاقی، تهدیدهای مستقیم را برای افراد هدف ایجاد کنند. چنین فعالیتهایی ممکن است عواقب وحشتناکی بر زندگی افراد آسیب دیده و خانوادههای آنها داشته باشد.
فراتر از این نگرانیها، مسائل مربوط به کپیرایت و مالکیت معنوی هم وجود دارد. ابزارهای مولد هوش مصنوعی به مقادیر زیادی داده برای آموزش نیاز دارند و OpenAI فاش نکرده است که دادههای آموزشی Sora از کجا آمده است.
«مدلهای زبانی بزرگ» (LLM) و تولیدکنندههای تصویر هم به همین دلیل مورد انتقاد قرار گرفتهاند. در آمریکا، گروهی از نویسندگان مشهور، از OpenAI به دلیل سوء استفاده احتمالی از مطالب خود شکایت کردهاند. این پرونده استدلال میکند که مدلهای زبانی بزرگ و شرکتهایی که از آنها استفاده میکنند، کار نویسندگان را برای ایجاد محتوای جدید میدزدند.
این اما نخستین بار در حافظهی اجتماعی نیست که فناوری از قانون جلوتر حرکت میکند. برای نمونه مسئلهی تعهدات پلتفرمهای شبکههای اجتماعی در تعدیل محتوا، بحثهای داغی را در سالهای اخیر ایجاد کرده است که بیشتر آن حول بخش ۲۳۰ قانون ایالات متحده آمریکا میچرخد.
در حالی که این نگرانیها واقعی و قابل بررسی هستند، بر اساس تجربیات گذشته، انتظار نمیروند که باعث توقف توسعهی فناوری تولید ویدیو شوند. همانطور که اشاره شد، اوپن ایآی پیش از در دسترس قرار دادن عمومی Sora چند گام مهم ایمنی را پیش گرفته است و از جمله با کارشناسان برای «پیشگیری از اطلاعات نادرست، محتوای نفرتانگیز و سوگیری» و «ساخت ابزارهایی برای کمک به شناسایی محتوای گمراه کننده» همکاری میکند.
سورا محصول جدید اوپن ایآی، یک پیشرفت چشمگیر در فناوری هوش مصنوعی را نشان میدهد و بار دیگر یادآوری میکند که سرعت پیشرفت در این زمینه بسیار فراتر از چیزی است که تصور میکنیم. این مدل هوش مصنوعی اکنون میتواند از توصیفهای متنی، ویدیوهایی بسازد که تشخیص آنها از فیلمهای واقعی بسیار دشوار و گاهی غیرممکن است.
چه بخواهیم و چه نه، ما ناگزیر بر لبهی عصر جدیدی در نوآوریها در دنیای فناوری ایستادهایم و اکنون لحظهای است که باید به جای مقابله و ترس از فناوری، بکوشیم هوش مصنوعی را در کنترل خود درآوریم و از آن در جهت مثبت استفاده کنیم. تبدیل متن به ویدیو که در آینده میتواند بسیار سادهتر هم باشد، فرصتهای خلاقانهی بیشماری را برای فیلمسازان، تولیدکنندگان محتوا، هنرمندان دیجیتال و همهی افراد باز میکند تا ایدههای خلاقانهی را به سادهترین شیوه به صورت مجسم و دیداری درآورند.
اگر جامعهی انسانی این چالش را با خِرد و ظرافت پیش ببرد، شبیهسازهای قدرتمند مانند سورا میتوانند مناظر غیرقابل تصوری را برای داستانگویی بصری باز کنند و صداهای متنوع بیشماری را برای گفتن داستانهایی که پیش از این توسط انسانها یا ماشینها تصور نمیشد، شکل دهند.
هیجان واقعی این فناوری جدید، در توانایی آن برای توانمندسازی همهی افراد در به اشتراک گذاشتن دیدگاههای منحصربهفرد خود از جهان نهفته است. با در هم تنیدن رشتههای هوش مصنوعی در روند فیلمسازی سنتی، میتوان پیام نهایی هنر را گستردهتر از همیشه به اشتراک گذاشت که با وجود تفاوتهایمان در آنچه ما را میخنداند یا به گریه میاندازد، با وجود رؤیاها و اضطرابهایمان، همهی ما هنوز انسان هستیم.
منابع: The Conversation, How to Geek, Christian Martinez, Light Works