اخبار و آموزشمتاورس
موضوعات داغ

معرفی ابررایانه هوش مصنوعی متاورس

ابررایانه هوش مصنوعی متاورس توسط شرکت متا برای تحقیقات هوش مصنوعی

معرفی ابررایانه هوش مصنوعی متاورس

توسعه نسل بعدی هوش مصنوعی پیشرفته به رایانه های جدیدتر و  قدرتمندی نیاز دارد که قادر به انجام میلیون ها عملیات در ثانیه هستند. امروز، متا اعلام می‌کند که ما SuperCluster تحقیقاتی هوش مصنوعی (RSC) را طراحی و ساخته‌ایم ، که معتقدیم یکی از سریع‌ترین ابر رایانه‌های هوش مصنوعی متاورس است که امروزه اجرا می‌شوند و در اواسط سال 2022، سریع‌ترین ابررایانه هوش مصنوعی در جهان خواهد بود و  راه را برای ساخت دنیای دیجیتالی متاورس هموار می‌کند. در این مطلب به معرفی ابررایانه هوش مصنوعی متاورس می پردازیم.

محققان ما قبلاً استفاده از RSC را برای آموزش مدل‌های بزرگ در پردازش زبان طبیعی (NLP) و بینایی رایانه برای تحقیق با هدف آموزش مدل‌های یک روزه با تریلیون‌ها پارامتر آغاز کرده‌اند.

RSC به محققان هوش مصنوعی متا کمک می کند تا مدل های هوش مصنوعی جدید و بهتری بسازند که می توانند از تریلیون ها مثال بیاموزند. کار در صدها زبان مختلف؛ یکپارچه متن، تصاویر و ویدئو را با هم تجزیه و تحلیل کنید. توسعه ابزارهای واقعیت افزوده جدید؛ و خیلی بیشتر.

محققان ما قادر خواهند بود بزرگترین مدل های مورد نیاز برای توسعه هوش مصنوعی پیشرفته را آموزش دهند.بینایی کامپیوتری ،NLP،تشخیص گفتار و بیشتر. امیدواریم RSC به ما کمک کند تا سیستم‌های هوش مصنوعی کاملاً جدیدی بسازیم که می‌تواند به عنوان مثال، ترجمه‌های صوتی بلادرنگ را برای گروه‌های بزرگی از مردم، که هر کدام به زبان متفاوتی صحبت می‌کنند، تقویت کند، بنابراین آنها می‌توانند به طور یکپارچه در یک پروژه تحقیقاتی همکاری کنند یا یک بازی واقعیت افزوده را با هم بازی کنند.

در نهایت، کار انجام شده با RSC راه را به سوی ساخت فناوری‌ها برای پلتفرم محاسباتی بزرگ بعدی هموار خواهد کرد. متاورس ، که در آن برنامه ها و محصولات مبتنی بر هوش مصنوعی نقش مهمی ایفا خواهند کرد.

چرا ما به ابررایانه هوش مصنوعی در این مقیاس نیاز داریم؟

متا متعهد به سرمایه گذاری بلند مدت در هوش مصنوعی است .از سال 2013، زمانی که آزمایشگاه تحقیقات هوش مصنوعی فیس بوک را ایجاد کردیم. در سال های اخیر، به لطف رهبری خود در تعدادی از زمینه ها، از جمله یادگیری خود نظارتی
، که در آن الگوریتم ها می توانند از تعداد زیادی مثال بدون برچسب یاد بگیرند و مبدل ها که به مدل‌های هوش مصنوعی اجازه می‌دهد تا با تمرکز بر بخش‌های خاصی از ورودی‌های خود، به طور مؤثرتری استدلال کنند.

برای درک کامل مزایای یادگیری خود نظارتی و مدل های مبتنی بر ترانسفورماتور، حوزه های مختلف، اعم از بینایی، گفتار، زبان، یا برای موارد استفاده حیاتی مانندشناسایی محتوای مضر ، به طور فزاینده ای نیاز به آموزش دارد .جتمع، و سازگار مدل ها. برای مثال، بینایی کامپیوتری نیاز به پردازش ویدیوهای بزرگتر و طولانی تر با نرخ نمونه برداری داده بالاتر دارد.

تشخیص گفتار حتی در سناریوهای چالش برانگیز با صدای پس زمینه زیاد، مانند مهمانی ها یا کنسرت ها، باید به خوبی کار کند.

NLP باید زبان ها، لهجه ها و لهجه های بیشتری را بفهمد. و پیشرفت در زمینه های دیگر از جمله رباتیک ،تجسم هوش مصنوعی، و هوش مصنوعی چندوجهی به افراد کمک می کند تا وظایف مفیدی را در دنیای واقعی انجام دهند.

زیرساخت محاسباتی با کارایی بالا یک جزء حیاتی در آموزش چنین مدل‌های بزرگی است و تیم تحقیقاتی هوش مصنوعی متا سال‌هاست که این سیستم‌های پرقدرت را می‌سازد. نسل اول این زیرساخت که در سال 2017 طراحی شده است دارای 22000 پردازنده گرافیکی NVIDIA V100 Tensor Core در یک کلاستر است که روزانه 35000 کار آموزشی را انجام می دهد.

تاکنون، این زیرساخت از نظر عملکرد، قابلیت اطمینان و بهره‌وری، نوار را برای محققان Meta تعیین کرده است.

در اوایل سال 2020، ما تصمیم گرفتیم بهترین راه برای تسریع پیشرفت، طراحی یک زیرساخت محاسباتی جدید از یک لوح تمیز برای استفاده از فناوری جدید GPU و شبکه فابریک باشد. ما می‌خواستیم این زیرساخت بتواند مدل‌هایی را با بیش از یک تریلیون پارامتر روی مجموعه داده‌هایی به بزرگی یک اگزابایت آموزش دهد ، که برای ایجاد حس مقیاس، معادل 36000 سال ویدیوی با کیفیت بالا است.

در حالی که جامعه محاسباتی با کارایی بالا برای دهه‌ها در حال مقابله با مقیاس بوده است، ما همچنین باید مطمئن می‌شدیم که تمام کنترل‌های امنیتی و حریم خصوصی مورد نیاز را برای محافظت از داده‌های آموزشی که استفاده می‌کنیم، در اختیار داریم.

برخلاف زیرساخت‌های تحقیقاتی هوش مصنوعی قبلی ما، که فقط از منبع باز و سایر مجموعه‌های داده در دسترس عموم استفاده می‌کرد، RSC همچنین به ما کمک می‌کند تا اطمینان حاصل کنیم که تحقیقات ما به طور مؤثر به عمل تبدیل می‌شود و به ما امکان می‌دهد نمونه‌های دنیای واقعی از سیستم‌های تولید متا را در آموزش مدل‌ها لحاظ کنیم.

با انجام این کار، می توانیم به پیشرفت تحقیقات برای انجام وظایف پایین دستی مانند شناسایی محتوای مضر در پلتفرم هایمان و همچنین تحقیق در مورد کمک کنیم.
تجسم هوش مصنوعی و هوش مصنوعی چندوجهی برای کمک به بهبود تجربیات کاربر در خانواده برنامه‌های ما. ما معتقدیم که این اولین باری است که عملکرد، قابلیت اطمینان، امنیت و حریم خصوصی در چنین مقیاسی مورد بررسی قرار گرفته است.

RSC

ابررایانه‌های هوش مصنوعی با ترکیب چندین GPU در گره‌های محاسباتی ساخته می‌شوند، که سپس توسط یک پارچه شبکه با کارایی بالا به هم متصل می‌شوند تا امکان ارتباط سریع بین آن GPUها را فراهم کنند.

امروزه RSC از مجموع 760 سیستم NVIDIA DGX A100 به عنوان گره های محاسباتی خود تشکیل می دهد که در مجموع 6080 واحد پردازش گرافیکی را شامل می شود – که هر یک از پردازنده های گرافیکی A100 قدرتمندتر از V100 مورد استفاده در سیستم قبلی ما هستند. هر DGX از طریق NVIDIA Quantum 1600 Gb/s InfiniBand پارچه Clos دو سطحی ارتباط برقرار می‌کند که هیچ اشتراک اضافی ندارد.

سطح ذخیره سازی RSC دارای 175 پتابایت FlashArray ذخیره سازی خالص، 46 پتابایت حافظه کش در سیستم های Penguin Computing Altus و 10 پتابایت حافظه ذخیره سازی خالص FlashBlade است.

معیارهای اولیه در RSC، در مقایسه با زیرساخت‌های تولید و تحقیقات قدیمی متا، نشان داده است که گردش‌های کاری بینایی کامپیوتر را تا 20 برابر سریع‌تر اجرا می‌کند، کتابخانه ارتباطات جمعی NVIDIA (NCCL) را بیش از نه برابر سریع‌تر اجرا می‌کند و مدل‌های NLP در مقیاس بزرگ را آموزش می‌دهد. سه برابر سریعتر این بدان معناست که مدلی با ده‌ها میلیارد پارامتر می‌تواند در سه هفته تمرین را به پایان برساند، در مقایسه با ۹ هفته قبل.

طراحی و ساخت چیزی مانند RSC به تنهایی مربوط به عملکرد نیست، بلکه عملکرد در بزرگترین مقیاس ممکن، با پیشرفته ترین فناوری موجود امروزی است. هنگامی که RSC کامل شد، فابریک شبکه InfiniBand 16000 GPU را به عنوان نقطه پایانی به هم متصل می‌کند، و آن را به یکی از بزرگترین شبکه‌هایی تبدیل می‌کند که تا به امروز مستقر شده است.  علاوه بر این، ما یک سیستم حافظه پنهان و ذخیره سازی طراحی کردیم که می تواند 16 ترابایت بر ثانیه از داده های آموزشی را ارائه دهد و قصد داریم آن را تا 1 اگزابایت مقیاس کنیم.

همه این زیرساخت‌ها باید بسیار قابل اعتماد باشند، زیرا ما تخمین می‌زنیم که برخی آزمایش‌ها می‌توانند هفته‌ها اجرا شوند و به هزاران GPU نیاز دارند. در نهایت، کل تجربه استفاده از RSC باید محقق پسند باشد تا تیم‌های ما بتوانند به راحتی طیف وسیعی از مدل‌های هوش مصنوعی را بررسی کنند.

بخش بزرگی از دستیابی به این هدف در کار با تعدادی از شرکای قدیمی بود که همه آنها همچنین به طراحی نسل اول زیرساخت هوش مصنوعی ما در سال 2017 کمک کردند.

Penguin Computing، یک شرکت SGH، شریک معماری و خدمات مدیریت شده ما، با تیم عملیات ما در زمینه یکپارچه سازی سخت افزار برای استقرار خوشه و به تنظیم بخش های اصلی صفحه کنترل کمک کرد.

Pure Storage یک راه حل ذخیره سازی قوی و مقیاس پذیر در اختیار ما قرار داد. و NVIDIA فناوری‌های محاسباتی هوش مصنوعی خود را در اختیار ما قرار داد که شامل سیستم‌های پیشرفته، پردازنده‌های گرافیکی، و پارچه InfiniBand، و اجزای پشته نرم‌افزاری مانند NCCL برای خوشه است.

اما چالش‌های غیرمنتظره دیگری در توسعه RSC به وجود آمد – یعنی همه‌گیری کرونا. RSC به عنوان یک پروژه کاملاً از راه دور شروع شد که تیم در حدود یک سال و نیم از یک سند مشترک ساده به یک خوشه فعال تبدیل کرد. کووید-۱۹ و محدودیت‌های عرضه ویفر در سراسر صنعت، مشکلات زنجیره تامین را نیز به همراه داشت که دریافت همه چیز از تراشه‌ها گرفته تا قطعاتی مانند اپتیک و پردازنده‌های گرافیکی و حتی مصالح ساختمانی را دشوار می‌کرد – که همه آنها باید مطابق با پروتکل‌های ایمنی جدید حمل می‌شدند. برای ساخت موثر این خوشه، باید آن را از ابتدا طراحی می‌کردیم، بسیاری از قراردادهای متا خاص کاملاً جدید را ایجاد می‌کردیم و در طول مسیر به موارد قبلی بازنگری می‌کردیم. ما مجبور شدیم قوانین جدیدی را پیرامون طراحی های مرکز داده خود بنویسیم – از جمله خنک کننده، قدرت، چیدمان قفسه، کابل کشی و شبکه (شامل یک صفحه کنترل کاملاً جدید)، از جمله ملاحظات مهم دیگر. ما باید اطمینان حاصل می‌کردیم که همه تیم‌ها، از ساخت‌وساز گرفته تا سخت‌افزار گرفته تا نرم‌افزار و هوش مصنوعی، در قفل و هماهنگ با شرکای ما کار می‌کنند.

فراتر از خود سیستم اصلی، به یک راه حل ذخیره سازی قدرتمند نیز نیاز بود، راه حلی که بتواند پهنای باند ترابایتی را از یک سیستم ذخیره سازی در مقیاس اگزابایت ارائه دهد. برای تامین نیازهای روزافزون پهنای باند و ظرفیت آموزش هوش مصنوعی، ما یک سرویس ذخیره سازی به نام AI Research Store (AIRStore) را از ابتدا توسعه دادیم. برای بهینه‌سازی مدل‌های هوش مصنوعی، AIRStore از یک مرحله آماده‌سازی داده جدید استفاده می‌کند که مجموعه داده‌ها را برای استفاده برای آموزش پیش پردازش می‌کند. هنگامی که آماده سازی یک بار انجام شد، مجموعه داده های آماده شده را می توان برای چندین دوره آموزشی استفاده کرد تا زمانی که منقضی شود. AIRStore همچنین انتقال داده ها را بهینه می کند تا ترافیک بین منطقه ای در ستون فقرات بین مرکز داده Meta به حداقل برسد.

چگونه از داده ها در RSC محافظت می کنیم

برای ساختن مدل‌های جدید هوش مصنوعی که به نفع افرادی باشد که از خدمات ما استفاده می‌کنند – چه شناسایی محتوای مضر یا ایجاد تجربیات جدید واقعیت افزوده – باید مدل‌هایی را با استفاده از داده‌های دنیای واقعی سیستم‌های تولیدی خود آموزش دهیم. RSC از ابتدا با حفظ حریم خصوصی و امنیت طراحی شده است، به طوری که محققان Meta می توانند با استفاده از داده های رمزگذاری شده تولید شده توسط کاربر که تا قبل از آموزش رمزگشایی نمی شوند، مدل ها را با خیال راحت آموزش دهند. به عنوان مثال، RSC از اینترنت بزرگتر جدا شده است، بدون اتصال مستقیم ورودی یا خروجی، و ترافیک فقط از مراکز داده تولید متا جریان دارد.

برای برآوردن الزامات حریم خصوصی و امنیتی ما، کل مسیر داده از سیستم های ذخیره سازی ما به GPU ها رمزگذاری شده است و دارای ابزارها و فرآیندهای لازم برای تأیید اینکه این الزامات همیشه برآورده شده است. قبل از اینکه داده‌ها به RSC وارد شوند، باید فرآیند بررسی حریم خصوصی را طی کنند تا تأیید شود که به درستی ناشناس شده‌اند. سپس داده ها قبل از استفاده برای آموزش مدل های هوش مصنوعی رمزگذاری می شوند و کلیدهای رمزگشایی به طور مرتب حذف می شوند تا اطمینان حاصل شود که داده های قدیمی هنوز در دسترس نیستند. و از آنجایی که داده‌ها فقط در یک نقطه پایانی رمزگشایی می‌شوند، در حافظه، حتی در صورت غیرمحتمل نقض فیزیکی تسهیلات، محافظت می‌شوند.

فاز دو به بعد

RSC امروز راه اندازی شده است، اما توسعه آن ادامه دارد. پس از تکمیل فاز دوم ساخت RSC، ما معتقدیم که این ابررایانه با هوش مصنوعی سریع‌ترین ابررایانه در جهان خواهد بود که تقریباً 5 اگزافلاپس محاسبات دقیق ترکیبی را انجام می‌دهد. تا سال 2022، ما برای افزایش تعداد پردازنده‌های گرافیکی از 6080 به 16000 کار خواهیم کرد که عملکرد آموزش هوش مصنوعی را بیش از 2.5 برابر افزایش می‌دهد. فابریک InfiniBand برای پشتیبانی از 16000 پورت در یک توپولوژی دو لایه و بدون اشتراک اضافی گسترش خواهد یافت. این سیستم ذخیره سازی دارای پهنای باند تحویل هدف 16 ترابایت بر ثانیه و ظرفیت در مقیاس اگزابایت برای پاسخگویی به افزایش تقاضا خواهد بود.

ما انتظار داریم که چنین تغییر تابع مرحله ای در قابلیت محاسباتی ما را قادر سازد نه تنها مدل های هوش مصنوعی دقیق تری را برای سرویس های موجود خود ایجاد کنیم، بلکه تجربیات کاربر کاملاً جدیدی را، به ویژه در متاورس، فعال کنیم. سرمایه‌گذاری‌های بلندمدت ما در یادگیری خود نظارتی و ساخت زیرساخت‌های هوش مصنوعی نسل بعدی با RSC به ما کمک می‌کند فناوری‌های بنیادی ایجاد کنیم که به متاورس نیرو می‌دهد و جامعه گسترده‌تر هوش مصنوعی را نیز ارتقا می‌دهد.

مدیریت

مهندس کیایی هستم با بیش از 12 سال سابقه در مدیریت و طراحی وبسایت همچنین بیش از 8 سال سابقه پیرامون ارزهای دیجیتال

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

دکمه بازگشت به بالا