۱۴۰۳ دی ۱۱, سه‌شنبه

راز Deepseek چیست؟ - هوش مصنوعی از نژاد چینی

 DeepSeek، یک استارت‌آپ چینی در حوزه هوش مصنوعی، با انتشار مدل پیشرفته زبان بزرگ خود به نام DeepSeek V3 خبرساز شده است. این مدل با ۶۷۱ میلیارد پارامتر، در آزمون‌های ارزیابی درک متن، کدنویسی و حل مسائل از مدل‌های برجسته‌ای مانند Llama 3.1 از Meta و GPT-4o از OpenAI پیشی گرفت. این دستاورد گامی مهم برای صنعت هوش مصنوعی چین محسوب می‌شود.



شرکت مستقر در هانگژو در یک پست در وی‌چت اعلام کرد که DeepSeek V3 با هزینه قابل توجهی معادل تنها ۵.۵۸ میلیون دلار و با استفاده از تنها ۲.۷۸ میلیون ساعت GPU توسعه یافته است. در مقایسه، Llama 3.1 از Meta به ۳۰.۸ میلیون ساعت GPU نیاز داشت. DeepSeek از GPUهای H800 انویدیا استفاده کرد که برای بازار چین طراحی شده است.

آندری کارپاتی، دانشمند علوم کامپیوتر، این دستاورد را در X (که قبلاً توییتر نام داشت) تحسین کرد و اشاره کرد که DeepSeek توانسته است با منابع حداقلی مدلی در سطح پیشرفته ایجاد کند. طبق گزارش فنی DeepSeek، مدل V3 نه تنها از مدل‌های Meta و Alibaba پیشی گرفت، بلکه نتایجی قابل مقایسه با GPT-4o از OpenAI و Claude 3.5 Sonnet از Anthropic که توسط آمازون پشتیبانی می‌شود، ارائه داد.

DeepSeek که در سال ۲۰۲۲ از High-Flyer Quant منشعب شده است، بر توسعه مقرون به صرفه هوش مصنوعی تاکید دارد. Fire Flye، پلتفرم پیشرفته‌ای که این شرکت توسعه داده است، نشان‌دهنده تعهد آن به استفاده هوشمندانه از منابع برای دستیابی به نتایج چشمگیر است.

DeepSeek V3 چیست؟

DeepSeek V3 یک مدل زبان بزرگ (LLM) است که توسط استارت‌آپ چینی DeepSeek توسعه یافته است. این مدل دارای ۶۷۱ میلیارد پارامتر است و برای درک و تولید متن به شکل مؤثرتری نسبت به بسیاری از مدل‌های موجود طراحی شده است.

هیچ نظری موجود نیست:

ارسال یک نظر

Post Top Ad

Your Ad Spot