Büyük teknoloji şirketleri en yüksek performanslı modelleri piyasaya sürmek ve Yapay Genel Zeka’yı geliştirmek için birbirleriyle yarışırken biz de her gün ilginç durumlarla karşılaşıyoruz. Bunlardan biri de Google’ın Gemini modellerini geliştirmek için Anthropic’in Clause modellerini kullandığı duyumu.
Gemini modellerinin performansını değerlendiren sözleşmeli çalışanlar, Gemini’ye erişim için kullandıkları dahili Google platformunda Claude modeline referanslara rastladıklarını dile getirdiler. Kaydedilen bir durumda ise modelin çıktısında “I am Claude, created by Anthropic.” cümlesi verilmiş. Dahası bu sözleşmeli çalışanlar Gemini’nin güvenlik önlemlerinin de Claude’nin seviyesine ulaşamadığını tespit etmişler.
Claude sakıncalı veya güvensiz olarak değerlendirdiği promptlara cevap vermekten kaçınırken Gemini bu promptlara, büyük güvenlik ihlali olarak nitelendirilen cevaplar vermiş. Söz konusu promptlar açıklanmadı fakat bunların gündelik hayatta kolay kolay denk gelmeyecek şeyler olduğunu varsayabiliriz. Yakın bir geçmişte, çok kısa bir sürede bir belge için formatlamam gereken bir fotoğrafı Google’ın araçlarını kullanarak düzenleyememiştim. Sebep olarak bana girdinin bir insan resmi olması verilmişti. Bazı Yapay Zeka destekli akıllı telefonlarda da bulunan Google destekli Circle Search kişileri aramak için kullanılamıyor.
Bu bilgiler ışığında Google’ın Yapay Zeka araçlarının güvenlik önlemleriyle donatıldığını fakat bu önlemlerin kötü amaçlı olabilecek kullanımları önlerken gerçekten kötü niyetli kullanımlara karşı savunma açıkları olduğunu söyleyebiliriz. Promptlara ve verilen cevaplara erişim olmadan net bir yorum yapamayacak olsam da birincil sebep olarak modele uygulanan güvenlik ve etik kısıtlamalarının daha serbest olması akıllara gelmektedir. İkincil sebepler olarak da modelin kendi içinde düşünce sürecini denetleme mekanizmalarındaki bir eksiklik ya da fazla serbestlik veya eğitim verisinin kendisinden kaynaklı, hassas konuların model tarafından daha az hassas algılamasına yol açacak bir kanı bence böyle durumlara yol açmış olabilir.
Google’dan Shira McNamara, “Standart endüstri uygulamasının bir parçası olarak değerlendirmeler için model çıktılarını karşılaştırıyoruz. Ancak, Gemini’yi eğitmek için Antropik modeller kullandığımız yönündeki herhangi bir öneri yanlıştır.” şeklinde açıklama yapmıştı. Açıklama acaba Google güvenlik ihlallerini araştırmak ve önlemek için mi diğer Yapay Zekalardan faydalanmaya çalışıyor sorusunu doğurdu.
Google geçtiğimiz ay, ChatGPT o1 modeline rakip olan Gemini 2.0 Flash modelini piyasaya sürmüştü. Bu haberler 2.0 modelleri ile mi ilgiliydi ve güvenlik ile ilgili bulunan açıklar bu modellerin içinde de var mı bilinmiyor. Ama Gemini 2.0 kullanıma açıldıktan hemen sonra OpenAI yeni modelleri o3’ü duyurdu. Evet o3. Hayır bir şey kaçırmadınız, O2 isimli bir medya şirketi olduğu için OpenAI model isimlendirmesinde o1’den o3’e geçmeye karar verdi.
Yeni o3 modelleri henüz erişime açılmadı ama uzmanlar tarafından test edilmekteler. Bu model ailesi bir süredir beklenen Orion modelleri değil. Aylardır sabırsızlıkla beklenen Orion, GPT-5 olacak ve Yapay Genel Zekaya şimdiye kadar gördüğümüz her şeyden çok daha yakın olacak deniliyor. o3 modelleri ise GPT-4’ü baz olarak kullanmaya devam edecek. o3 mini’nin Ocak sonunda erişime açılacağı ve tam versiyonunun da kısa süre sonra geleceği duyuruldu.
Paylaşılan test sonuçlarına göre o3 beklentilerimizi yeniden şekillendirecek bir yenilik. Yapay Zekaların önceden karşılaşılmamış ve zeka gerektiren görevleri başarabilmesini ölçen ARC ölçümünde o3 tüm gücünü kullanarak %87.5 skoruna ulaştı. Daha az bilgisayar gücü kullanan modunda ise %75.7’ye ulaştı. Bu skorların ne kadar yüksek olduğunu şu an en yüksek skora sahip ve erişime açık modelin notuna bakarak anlayabiliriz. Claude 3.5 ARC ölçeğinde %53 aldı. Claude modelleri, kapsamlı güvenlik önlemleri ve cevaplarının uzun ve düzgünlüğü ile bilinen bir model ailesi.
Ama her gülün bir dikeni var ve bir şey kulağa gerçek olmak için fazla iyi geliyorsa… o3 modellerinin yüksek bilişim gücü kullanan modunda, bir cevabı üretmesi 1000$’ı aşan bir maliyete sebep olmakta. Düşük bilişim gücü modunda ise bir cevap 20$ civarında tutuyor. Bu bir aylık ChatGPT plus üyeliği ile aynı tutar. Eğer OpenAI maliyetleri düşürmenin bir yolunu bulamazsa o3 modelleri kimler tarafından ne ölçüde kullanılacak bir tartışma konusu olacak. Dahası o3 modelleri yaratılan beklentileri karşılayabilecek mi yoksa Sora modeli gibi hevesimiz kursağımızda mı kalacak söylemek için çok erken. o3 modelinin duyurulan piyasaya sürülme tarihi Gemini 2.0 Pro ile çok yakın. o3 nasıl karşılanacak ve Gemini 2.0, Veo 2’nin Sora’yı gölgede bıraktığı gibi o3’ü gölgede bırakabilecek mi hep birlikte göreceğiz.
Dedikodu Dedikodu Kıskanıyorlar
Tarih