LLM ve yapay zekâyı ürününüze nasıl eklersiniz? Operasyonel derinlik

İş modeli: kullanıcı hangi adımı atlamak istiyor?

Başarılı AI özellikleri genelde “ne kadar akıllı?” değil “kaç tıklama veya form alanı kurtardık?” ile ölçülür. İlk sürümde dar senaryo seçin: özet, sınıflandırma, taslak üretimi, kod parçası önerisi gibi. Geniş amaçlı sohbet modalları demo etkileyicidir fakat destek yükü ve politik risk katmanlarını birden açar. Dar amaçlı akışlarda modelden beklenen çıktı sınıfı netleşir ve regresyon testleri yazılabilir.

RAG ve bilgi tazeliği

RAG, modelin generatif yeteneğini kurumsal bilgiyle harmanlamanın pratik yoludur; fakat chunk boyutu, örtüşme (overlap), embed model seçimi, yeniden sıralama (rerank) ve erişim kontrolü (ACL) olmadan “doküman attık bitti” olmaz. Yetkisiz bir parçanın retrieval ile modele sızması hem hukuki hem itibar riskidir. Bu yüzden ingestion pipeline’da satır bazlı yetki etiketleri taşımayı ve filtrelemeyi planlayın.

Değerlendirme (eval) kültürü

Elde tutulan altın set (referans soru + beklenen yapı), otomatik skorlayıcılar (LLM-as-judge dikkatli kullanım), insan incelemesi ve üretim loglarından örneklem inceleme bir arada yürütülmeli. Prompt değişince sadece “lokalde iyi göründü” yeterli değil; regresyon setinde metrik düşüşü var mı? Tool çağrı sayısı arttı mı? Latency dağılımı bozuldu mu? Bu sorular cevapsız kaldığında üretimde sürprizler kaçınılmaz.

Streaming, durum yönetimi ve kullanıcı güveni

Token token gelen metin kullanıcıda hız hissi yaratır; fakat yarım kesilmiş cevaplar veya iptal edilen isteklerde UI tutarlılığı zorlaşır. İptal / retry / kısmi sonuç gösterme ve “AI üretti, doğrulayın” mikro metinleri tasarımın parçası olmalı. Ayrıca boşta kalan async işlerde idempotency ve kullanıcıya yeniden deneme kapısı sunmak operasyonel yükü düşürür.

Üretim üçlüsü (genişletilmiş)

Güvenlik: prompt injection için sadece metin filtresi yetmez; araç yetkilerini role-scoped ve rate-limited tutun.
Gözlem: trace-id ile model sürümü, prompt hash, retrieval kaynak ID’lerini birleştirin.
Maliyet: önbellek (semantik veya tam metin), küçük model fallback, uzun çıktıları parçalı üret + erken dur.
Hata sınıflandırması: model hatası mı, araç hatası mı, ağ hatası mı — kullanıcıya farklı mesaj verin.