Çinli şirketten çığır açan başarı: 11 kat az işlem gücüyle yapay zeka modeli eğitti!

featured
service
Paylaş

Bu Yazıyı Paylaş

veya linki kopyala

Çinli bir yapay zeka girişimi olan DeepSeek, çığır açan bir duyuruda bulunarak, OpenAI, Meta ve Anthropic gibi önde gelen yapay zeka şirketlerinin modellerine benzer bir yapay modelini, 11 kat düşük GPU hesaplama gücüyle eğittiğini açıkladı.  

Deepseek makalesinde, DeepSeek-V3 Mixture-of-Experts (MoE) isimli dil modelini sadeceiki ayda 2.048 Nvidia H800 GPU‘sunu içeren bir küme kullanarak 671 milyar parametreyle eğitti, bu da 2,8 milyon GPU saati anlamına geliyor. Karşılaştırma yapmak gerekirse, Meta’nın 54 gün boyunca 16.384 adet H100 GPU içeren bir küme kullanarak 405 milyar parametreli Llama 3’ünü eğitmesi 11 kat daha fazla işlem gücü (30,8 milyon GPU saati) gerektirdi.

Çeşitli optimizasyonlar yapıldı

DeepSeek, gelişmiş iletişim hattı (pipeline) algoritmaları, optimize edilmiş iletişim çerçevesi ve FP8 düşük hassasiyetli hesaplama kullanarak bu ölçekteki modeller için tipik olarak gerekli olan hesaplama ve bellek taleplerini önemli ölçüde azalttığını iddia ediyor.

DeepSeek, DeepSeek-v3’ünün işlem gereksinimlerini azaltmak için onlarca optimizasyon tekniği uygularken, birkaç önemli teknoloji etkileyici sonuçlarını mümkün kıldı.

DeepSeek, hesaplama ve iletişim aşamalarınnda DualPipe algoritmasını kullandığını ve bu nedenle iletim hattındaki verimsizlikleri azalttığını söylüyor. DualPipe algoritması, özellikle MoE mimarisinin gerektirdiği düğümler arası uzman paralelliği için eğitim darboğazlarını en aza indirdi ve bu optimizasyon, kümenin ön eğitim sırasında sıfıra yakın iletişim yüküyle 14,8 trilyon jetonu (token) işlemesine olanak sağladı, 

DeepSeek, DualPipe’ı uygulamaya ek olarak, iletişime dahil olan düğüm sayısını sınırlamak için her tokeni maksimum dört düğümle sınırladı. Bu da trafiği azalttı ve iletişimin ve hesaplamanın etkili bir şekilde örtüşmesini sağladı.

DeepSeek-v3 nasıl performans sergiliyor?

Performansa gelirsek, şirket DeepSeek-v3 MoE dil modelinin kıyaslamaya bağlı olarak GPT-4x, Claude-3.5-Sonnet ve LLlama-3.1 ile karşılaştırılabilir veya daha iyi performansa sahip olduğunu söylüyor. Ancak bu iddiaların üçüncü taraflarca ispatlanması gerekiyor. Şirket modeli ve ağırlıkları açık kaynaklı hale getirdi, bu nedenle yakın zamanda karşılaştırma testleri ortaya çıkacaktır.
DeepSeek-V3, parametre sayısı veya muhakeme yetenekleri açısından GPT-4o veya o3 gibi öncü modellerin gerisinde kalsa da, DeepSeek’in başarıları, nispeten sınırlı kaynaklar kullanarak gelişmiş bir MoE dil modelinin eğitilmesinin mümkün olduğunu gösteriyor. Elbette, bu çok fazla optimizasyon ve düşük seviyeli programlama gerektiriyor, ancak sonuçlar şaşırtıcı derecede iyi görünüyor.

DeepSeek ekibi, DeepSeek-V3 modelinin uygulanmasının, gelişmiş donanımın yanı sıra ön doldurma ve kod çözme aşamalarını ayıran bir dağıtım stratejisi gerektirdiğini ve bunun kaynak eksikliği nedeniyle küçük şirketler için erişilemez olabileceğini kabul ediyor.

Kaynak  : https://www.donanimhaber.com/cinli-sirket-11-kat-az-islem-gucuyle-yapay-zeka-modeli-egitti–185854

0
mutlu
Mutlu
0
_zg_n
Üzgün
0
sinirli
Sinirli
0
_a_rm_
Şaşırmış
0
vir_sl_
Virüslü
Çinli şirketten çığır açan başarı: 11 kat az işlem gücüyle yapay zeka modeli eğitti!

Tamamen Ücretsiz Olarak Bültenimize Abone Olabilirsin

Yeni haberlerden haberdar olmak için fırsatı kaçırma ve ücretsiz e-posta aboneliğini hemen başlat.

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Giriş Yap

Kamu Çalışanı ayrıcalıklarından yararlanmak için hemen giriş yapın veya hesap oluşturun, üstelik tamamen ücretsiz!

Bizi Takip Edin