چگونه یک مدل برتر هوش مصنوعی چینی تحریم‌های آمریکا را دور زد؟

شرکت «DeepSeek» با توسعه‌ی یک مدل استدلالی نوآورانه که با «ChatGPT o1» رقابت می‌کند، محدودیت‌های فناوری را به فرصتی برای پیشرفت تبدیل کرده است.

جامعه‌ی هوش مصنوعی به شدت در مورد «DeepSeek R1»، یک مدل استدلالی متن‌باز جدید، صحبت می‌کند. این مدل را استارتاپ چینی «DeepSeek» توسعه داده است و این شرکت ادعا می‌کند که «R1» در معیارهای کلیدی با «ChatGPT o1» برابری می‌کند و حتی در برخی موارد عملکرد بهتری دارد، در حالی که هزینه‌ی عملیاتی آن بسیار کمتر است.

«هانچنگ کائو»، استادیار سیستم‌های اطلاعاتی در دانشگاه اموری، می‌گوید:
«این می‌تواند یک تغییر اساسی باشد، به‌ویژه برای پژوهشگران و توسعه‌دهندگانی که منابع محدودی دارند، به‌خصوص در کشورهای جنوب جهانی.»

نوآوری در مواجهه با محدودیت‌ها

شرکت «DeepSeek» موفقیت خود را به‌ویژه به دلیل چالش‌هایی که شرکت‌های هوش مصنوعی چینی با تحریم‌های فزاینده‌ی ایالات متحده بر پردازنده‌های پیشرفته مواجه هستند، قابل توجه می‌داند. اما شواهد اولیه نشان می‌دهد که این اقدامات نتیجه‌ی معکوس دارند. این تحریم‌ها به‌جای تضعیف قابلیت‌های هوش مصنوعی چین، شرکت‌هایی مانند «DeepSeek» را مجبور به نوآوری در زمینه‌ی بهینه‌سازی منابع و همکاری تیمی کرده است.

فرآیند آموزش مدل «R1» را شرکت «DeepSeek» بازطراحی کرده است تا فشار بر پردازنده‌های گرافیکی (GPU) کاهش یابد. این شرکت از پردازنده‌های گرافیکی خاصی استفاده کرده که شرکت «انویدیا» برای بازار چین عرضه کرده است و سرعت آن‌ها به نصف مدل‌های پیشرفته محدود شده است. «زیهان وانگ»، یکی از کارمندان پیشین «DeepSeek» و دانشجوی دکتری علوم کامپیوتر در دانشگاه نورث‌وسترن، این موضوع را تأیید می‌کند.

پژوهشگران مدل «R1» را به دلیل توانایی آن در حل مسائل پیچیده‌ی ریاضی و برنامه‌نویسی تحسین کرده‌اند. این مدل از روشی به نام «زنجیره‌ی تفکر» استفاده می‌کند که مشابه «ChatGPT o1» است و به آن اجازه می‌دهد سوالات را گام‌به‌گام پردازش کند تا پاسخ‌های دقیق‌تری ارائه دهد.

«دیمیتریس پاپایلیوپولوس»، محقق اصلی در آزمایشگاه «AI Frontiers» مایکروسافت، از سادگی مهندسی «R1» شگفت‌زده شده است. او می‌گوید:
«شرکت DeepSeek دقت را نسبت به ارائه‌ی جزئیات تمام مراحل منطقی در اولویت قرار داده است، که این کار زمان پردازش را به‌طور قابل توجهی کاهش داده و در عین حال سطح بالایی از کارایی را حفظ کرده است.»

نسخه‌های کوچکتر «R1» را شرکت «DeepSeek» منتشر کرده است که می‌توان آن‌ها را روی لپ‌تاپ‌های معمولی اجرا کرد. این شرکت ادعا می‌کند که یکی از این مدل‌ها در برخی معیارها از «o1-mini» محصول «OpenAI» عملکرد بهتری دارد. «آراویند سرینیواس»، مدیرعامل «Perplexity»، در توییتی نوشت:
«شرکت DeepSeek اساساً o1-mini را بازتولید کرده و به‌صورت متن‌باز در اختیار عموم قرار داده است.»

ظهور یک بازیگر جدید در عرصه‌ی هوش مصنوعی چین

شناخته‌شده نبودن «DeepSeek» با وجود سر و صدای پیرامون «R1» قابل توجه است. این شرکت را در ژوئیه‌ی ۲۰۲۳ در شهر «هانگژو، چین» تأسیس کرده‌اند و بنیان‌گذار آن «لیانگ ونفنگ»، فارغ‌التحصیل دانشگاه ژجیانگ، است. این استارتاپ از دل «High-Flyer»، یک صندوق سرمایه‌گذاری که لیانگ در سال ۲۰۱۵ ایجاد کرده بود، شکل گرفته است. مشابه «سم آلتمن» از «OpenAI»، لیانگ نیز به دنبال توسعه‌ی «هوش عمومی مصنوعی (AGI)» است—نوعی از هوش مصنوعی که می‌تواند در طیف گسترده‌ای از وظایف هم‌سطح یا حتی برتر از انسان عمل کند.

توسعه‌ی مدل‌های زبانی بزرگ (LLM) را معمولاً شرکت‌های دارای تیم‌های تحقیقاتی حرفه‌ای و قدرت پردازشی عظیم انجام می‌دهند. «کای-فو لی»، کارآفرین برجسته و رئیس پیشین «گوگل چین»، در مصاحبه‌ای اعلام کرده است که فقط شرکت‌های پیشرو می‌توانند مدل‌های پایه‌ای مانند «ChatGPT» را توسعه دهند، زیرا این کار بسیار پرهزینه است.

شرکت «High-Flyer» مدت‌ها قبل از اعمال این تحریم‌ها، اقدام به ذخیره‌ی پردازنده‌های گرافیکی «Nvidia A100» کرده است—مدلی که اکنون صادرات آن به چین ممنوع است. منابع چینی تخمین زده‌اند که این شرکت بیش از ۱۰,۰۰۰ واحد از این تراشه‌ها را در اختیار دارد، در حالی که «دیلن پاتل»، تحلیل‌گر AI، این تعداد را حداقل ۵۰,۰۰۰ واحد برآورد کرده است.

رقابت در بازار پُرچالش چین

در حالی که غول‌هایی مانند «علی‌بابا و بایت‌دنس» بازار هوش مصنوعی چین را در دست دارند، دریافت نکردن سرمایه‌ی خارجی شرکت «DeepSeek» را به یک استثنا تبدیل کرده است.

«زیهان وانگ»، کارمند پیشین «DeepSeek»، می‌گوید که در این شرکت دسترسی نامحدود به منابع محاسباتی داشته و آزادی عمل برای آزمایش‌های جدید داشته است—«امکانی که برای فارغ‌التحصیلان تازه‌وارد به‌ندرت فراهم می‌شود.»

تحریم‌های آمریکا باعث شده که شرکت‌های چینی، از جمله «DeepSeek»، بهینه‌سازی مصرف منابع را به اولویت تبدیل کنند. «لیانگ ونفنگ» در مصاحبه‌ای در سال ۲۰۲۴ گفت:
«برای دستیابی به همان نتایج، ما باید دو برابر قدرت پردازشی مصرف کنیم. همراه با ناکارآمدی داده‌ها، این میزان می‌تواند تا چهار برابر افزایش یابد. هدف ما کاهش این فاصله‌ها است.»

توسعه‌ی راهکارهایی برای کاهش مصرف حافظه و افزایش سرعت پردازش را شرکت «DeepSeek» در دستور کار قرار داده است، بدون آنکه دقت مدل کاهش یابد. «وانگ» می‌گوید:
«تیم ما عاشق این است که یک چالش سخت‌افزاری را به یک فرصت نوآورانه تبدیل کند.»

حرکت جهان به سمت مدل‌های متن‌باز

متن‌باز کردن مدل‌های هوش مصنوعی را شرکت‌های چینی مانند «علی‌بابا کلود» به‌صورت گسترده انجام داده‌اند. این شرکت تاکنون بیش از ۱۰۰ مدل متن‌باز را منتشر کرده است که از ۲۹ زبان پشتیبانی می‌کنند. استارتاپ‌هایی مانند «Minimax» و «۰۱.AI» نیز مدل‌های خود را متن‌باز کرده‌اند.

تحریم‌های آمریکا باعث شده است که شرکت‌های چینی، مانند «DeepSeek»، کارایی بیشتری را در استفاده از منابع محدود محاسباتی خود در اولویت قرار دهند.

ادغام صنعت هوش مصنوعی چین را دو هفته پیش شرکت «علی‌بابا کلود» با اعلام همکاری با استارتاپ «۰۱.AI»، تأسیس‌شده توسط «کای-فو لی»، نشان داده است. این شرکت‌ها قصد دارند یک آزمایشگاه صنعتی مدل‌های زبانی راه‌اندازی کنند.

«توماس کیتونگ کائو»، استادیار دانشگاه «تافتس»، می‌گوید:
«پیشرفت سریع هوش مصنوعی نیازمند چابکی است و شرکت‌های چینی باید با این تغییرات سازگار شوند.»