Büyük Dil Modeli (LLM) Nedir?

Büyük Dil Modelleri (Large Language Models), milyarlarca parametre ile eğitilmiş yapay sinir ağlarıdır. Metin oluşturma, çeviri, özetleme, soru yanıtlama ve kod yazma gibi geniş bir yelpazede doğal dil işleme görevlerini yerine getirebilirler. GPT, Claude, Gemini ve Llama gibi modeller bu kategorinin öne çıkan örnekleridir.

Transformer Mimarisi

Modern LLM'lerin temelinde 2017'de Google tarafından yayımlanan "Attention Is All You Need" makalesindeki Transformer mimarisi yatar. Bu mimari, önceki RNN ve LSTM yaklaşımlarının aksine, tüm girdi dizisini paralel olarak işleyebilir.

Transformer'ın iki ana bileşeni vardır:

Tokenizasyon

LLM'ler metni doğrudan harf veya kelime olarak işlemez. Bunun yerine token adı verilen alt birimlere ayırır. Örneğin "programlama" kelimesi ["program", "lama"] gibi iki tokena bölünebilir. Türkçe gibi eklemeli dillerde tokenizasyon özellikle önemlidir çünkü "yapabileceklerimizden" gibi uzun kelimeler birden fazla tokena ayrılır.

Numex AI, Türkçe için optimize edilmiş tokenizer'lar kullanarak daha verimli ve doğru sonuçlar üretir.

Bağlam Penceresi

Her LLM'nin bir bağlam penceresi (context window) limiti vardır. Bu, modelin tek seferde işleyebildiği maksimum token sayısıdır. Örneğin 128K token bağlam penceresi olan bir model, yaklaşık 100.000 kelimelik bir metni tek seferde anlayabilir.

Numex AI'de kullanılan modeller 128K'ya kadar bağlam penceresi destekler. Bu sayede uzun belgeler, kod dosyaları ve kapsamlı sohbet geçmişleri tek oturumda işlenebilir.

Eğitim Süreci

LLM eğitimi üç aşamadan oluşur:

Numex AI Model Altyapısı

Numex AI, farklı kullanım senaryoları için optimize edilmiş birden fazla model profili sunar:

Tüm modeller Türkçe dil desteği ile optimize edilmiştir ve KVKK uyumlu veri işleme politikalarına tabidir.