DeepSeek، یک استارتآپ چینی در حوزه هوش مصنوعی، با انتشار مدل پیشرفته زبان بزرگ خود به نام DeepSeek V3 خبرساز شده است. این مدل با ۶۷۱ میلیارد پارامتر، در آزمونهای ارزیابی درک متن، کدنویسی و حل مسائل از مدلهای برجستهای مانند Llama 3.1 از Meta و GPT-4o از OpenAI پیشی گرفت. این دستاورد گامی مهم برای صنعت هوش مصنوعی چین محسوب میشود.
شرکت مستقر در هانگژو در یک پست در ویچت اعلام کرد که DeepSeek V3 با هزینه قابل توجهی معادل تنها ۵.۵۸ میلیون دلار و با استفاده از تنها ۲.۷۸ میلیون ساعت GPU توسعه یافته است. در مقایسه، Llama 3.1 از Meta به ۳۰.۸ میلیون ساعت GPU نیاز داشت. DeepSeek از GPUهای H800 انویدیا استفاده کرد که برای بازار چین طراحی شده است.
آندری کارپاتی، دانشمند علوم کامپیوتر، این دستاورد را در X (که قبلاً توییتر نام داشت) تحسین کرد و اشاره کرد که DeepSeek توانسته است با منابع حداقلی مدلی در سطح پیشرفته ایجاد کند. طبق گزارش فنی DeepSeek، مدل V3 نه تنها از مدلهای Meta و Alibaba پیشی گرفت، بلکه نتایجی قابل مقایسه با GPT-4o از OpenAI و Claude 3.5 Sonnet از Anthropic که توسط آمازون پشتیبانی میشود، ارائه داد.
DeepSeek که در سال ۲۰۲۲ از High-Flyer Quant منشعب شده است، بر توسعه مقرون به صرفه هوش مصنوعی تاکید دارد. Fire Flye، پلتفرم پیشرفتهای که این شرکت توسعه داده است، نشاندهنده تعهد آن به استفاده هوشمندانه از منابع برای دستیابی به نتایج چشمگیر است.
DeepSeek V3 چیست؟
DeepSeek V3 یک مدل زبان بزرگ (LLM) است که توسط استارتآپ چینی DeepSeek توسعه یافته است. این مدل دارای ۶۷۱ میلیارد پارامتر است و برای درک و تولید متن به شکل مؤثرتری نسبت به بسیاری از مدلهای موجود طراحی شده است.
هیچ نظری موجود نیست:
ارسال یک نظر