شرکت «DeepSeek» با توسعهی یک مدل استدلالی نوآورانه که با «ChatGPT o1» رقابت میکند، محدودیتهای فناوری را به فرصتی برای پیشرفت تبدیل کرده است.
جامعهی هوش مصنوعی به شدت در مورد «DeepSeek R1»، یک مدل استدلالی متنباز جدید، صحبت میکند. این مدل را استارتاپ چینی «DeepSeek» توسعه داده است و این شرکت ادعا میکند که «R1» در معیارهای کلیدی با «ChatGPT o1» برابری میکند و حتی در برخی موارد عملکرد بهتری دارد، در حالی که هزینهی عملیاتی آن بسیار کمتر است.
«هانچنگ کائو»، استادیار سیستمهای اطلاعاتی در دانشگاه اموری، میگوید:
«این میتواند یک تغییر اساسی باشد، بهویژه برای پژوهشگران و توسعهدهندگانی که منابع محدودی دارند، بهخصوص در کشورهای جنوب جهانی.»
نوآوری در مواجهه با محدودیتها
شرکت «DeepSeek» موفقیت خود را بهویژه به دلیل چالشهایی که شرکتهای هوش مصنوعی چینی با تحریمهای فزایندهی ایالات متحده بر پردازندههای پیشرفته مواجه هستند، قابل توجه میداند. اما شواهد اولیه نشان میدهد که این اقدامات نتیجهی معکوس دارند. این تحریمها بهجای تضعیف قابلیتهای هوش مصنوعی چین، شرکتهایی مانند «DeepSeek» را مجبور به نوآوری در زمینهی بهینهسازی منابع و همکاری تیمی کرده است.
فرآیند آموزش مدل «R1» را شرکت «DeepSeek» بازطراحی کرده است تا فشار بر پردازندههای گرافیکی (GPU) کاهش یابد. این شرکت از پردازندههای گرافیکی خاصی استفاده کرده که شرکت «انویدیا» برای بازار چین عرضه کرده است و سرعت آنها به نصف مدلهای پیشرفته محدود شده است. «زیهان وانگ»، یکی از کارمندان پیشین «DeepSeek» و دانشجوی دکتری علوم کامپیوتر در دانشگاه نورثوسترن، این موضوع را تأیید میکند.
پژوهشگران مدل «R1» را به دلیل توانایی آن در حل مسائل پیچیدهی ریاضی و برنامهنویسی تحسین کردهاند. این مدل از روشی به نام «زنجیرهی تفکر» استفاده میکند که مشابه «ChatGPT o1» است و به آن اجازه میدهد سوالات را گامبهگام پردازش کند تا پاسخهای دقیقتری ارائه دهد.
«دیمیتریس پاپایلیوپولوس»، محقق اصلی در آزمایشگاه «AI Frontiers» مایکروسافت، از سادگی مهندسی «R1» شگفتزده شده است. او میگوید:
«شرکت DeepSeek دقت را نسبت به ارائهی جزئیات تمام مراحل منطقی در اولویت قرار داده است، که این کار زمان پردازش را بهطور قابل توجهی کاهش داده و در عین حال سطح بالایی از کارایی را حفظ کرده است.»
نسخههای کوچکتر «R1» را شرکت «DeepSeek» منتشر کرده است که میتوان آنها را روی لپتاپهای معمولی اجرا کرد. این شرکت ادعا میکند که یکی از این مدلها در برخی معیارها از «o1-mini» محصول «OpenAI» عملکرد بهتری دارد. «آراویند سرینیواس»، مدیرعامل «Perplexity»، در توییتی نوشت:
«شرکت DeepSeek اساساً o1-mini را بازتولید کرده و بهصورت متنباز در اختیار عموم قرار داده است.»
ظهور یک بازیگر جدید در عرصهی هوش مصنوعی چین
شناختهشده نبودن «DeepSeek» با وجود سر و صدای پیرامون «R1» قابل توجه است. این شرکت را در ژوئیهی ۲۰۲۳ در شهر «هانگژو، چین» تأسیس کردهاند و بنیانگذار آن «لیانگ ونفنگ»، فارغالتحصیل دانشگاه ژجیانگ، است. این استارتاپ از دل «High-Flyer»، یک صندوق سرمایهگذاری که لیانگ در سال ۲۰۱۵ ایجاد کرده بود، شکل گرفته است. مشابه «سم آلتمن» از «OpenAI»، لیانگ نیز به دنبال توسعهی «هوش عمومی مصنوعی (AGI)» است—نوعی از هوش مصنوعی که میتواند در طیف گستردهای از وظایف همسطح یا حتی برتر از انسان عمل کند.
توسعهی مدلهای زبانی بزرگ (LLM) را معمولاً شرکتهای دارای تیمهای تحقیقاتی حرفهای و قدرت پردازشی عظیم انجام میدهند. «کای-فو لی»، کارآفرین برجسته و رئیس پیشین «گوگل چین»، در مصاحبهای اعلام کرده است که فقط شرکتهای پیشرو میتوانند مدلهای پایهای مانند «ChatGPT» را توسعه دهند، زیرا این کار بسیار پرهزینه است.
شرکت «High-Flyer» مدتها قبل از اعمال این تحریمها، اقدام به ذخیرهی پردازندههای گرافیکی «Nvidia A100» کرده است—مدلی که اکنون صادرات آن به چین ممنوع است. منابع چینی تخمین زدهاند که این شرکت بیش از ۱۰,۰۰۰ واحد از این تراشهها را در اختیار دارد، در حالی که «دیلن پاتل»، تحلیلگر AI، این تعداد را حداقل ۵۰,۰۰۰ واحد برآورد کرده است.
رقابت در بازار پُرچالش چین
در حالی که غولهایی مانند «علیبابا و بایتدنس» بازار هوش مصنوعی چین را در دست دارند، دریافت نکردن سرمایهی خارجی شرکت «DeepSeek» را به یک استثنا تبدیل کرده است.
«زیهان وانگ»، کارمند پیشین «DeepSeek»، میگوید که در این شرکت دسترسی نامحدود به منابع محاسباتی داشته و آزادی عمل برای آزمایشهای جدید داشته است—«امکانی که برای فارغالتحصیلان تازهوارد بهندرت فراهم میشود.»
تحریمهای آمریکا باعث شده که شرکتهای چینی، از جمله «DeepSeek»، بهینهسازی مصرف منابع را به اولویت تبدیل کنند. «لیانگ ونفنگ» در مصاحبهای در سال ۲۰۲۴ گفت:
«برای دستیابی به همان نتایج، ما باید دو برابر قدرت پردازشی مصرف کنیم. همراه با ناکارآمدی دادهها، این میزان میتواند تا چهار برابر افزایش یابد. هدف ما کاهش این فاصلهها است.»
توسعهی راهکارهایی برای کاهش مصرف حافظه و افزایش سرعت پردازش را شرکت «DeepSeek» در دستور کار قرار داده است، بدون آنکه دقت مدل کاهش یابد. «وانگ» میگوید:
«تیم ما عاشق این است که یک چالش سختافزاری را به یک فرصت نوآورانه تبدیل کند.»
حرکت جهان به سمت مدلهای متنباز
متنباز کردن مدلهای هوش مصنوعی را شرکتهای چینی مانند «علیبابا کلود» بهصورت گسترده انجام دادهاند. این شرکت تاکنون بیش از ۱۰۰ مدل متنباز را منتشر کرده است که از ۲۹ زبان پشتیبانی میکنند. استارتاپهایی مانند «Minimax» و «۰۱.AI» نیز مدلهای خود را متنباز کردهاند.
تحریمهای آمریکا باعث شده است که شرکتهای چینی، مانند «DeepSeek»، کارایی بیشتری را در استفاده از منابع محدود محاسباتی خود در اولویت قرار دهند.
ادغام صنعت هوش مصنوعی چین را دو هفته پیش شرکت «علیبابا کلود» با اعلام همکاری با استارتاپ «۰۱.AI»، تأسیسشده توسط «کای-فو لی»، نشان داده است. این شرکتها قصد دارند یک آزمایشگاه صنعتی مدلهای زبانی راهاندازی کنند.
«توماس کیتونگ کائو»، استادیار دانشگاه «تافتس»، میگوید:
«پیشرفت سریع هوش مصنوعی نیازمند چابکی است و شرکتهای چینی باید با این تغییرات سازگار شوند.»