Apple'dan yapay zeka hamlesi

Apple araştırmacıları, muhakeme yeteneğiyle öne çıkan son model yapay zeka araçlarının karmaşık görevlerde tamamen başarısız olduğunu gösteren bir çalışma yayınladı.

Apple araştırmacıları, yapay zekanın muhakeme yeteneklerine dair iddialı söylemlere ağır bir darbe vurabilecek bir çalışmaya yayınladı.

7 Haziran’da Apple’ın makine öğrenimi sitesinde yayınlanan çalışmaya göre, Meta, OpenAI ve DeepSeek gibi büyük teknoloji şirketlerinin geliştirdiği son model yapay zeka araçları, muhakeme yapabildikleri iddia edilse de, görevler karmaşıklaştığında tamamen başarısız oluyor.

MUHAKEME MODELLERİ NE VAAT EDİYORDU?

Anthropic firmasının Claude modeli, OpenAI’ın o3 modeli ve DeepSeek’in R1’i gibi modeller, klasik büyük dil modellerine (LLM) kıyasla daha doğru yanıtlar üretmek üzere tasarlanmış özel “muhakeme” sistemleri olarak tanıtıldı.

Bu modeller, “chain-of-thought” (düşünce zinciri) adı verilen çok adımlı mantık yürütme sürecini kullanarak, daha karmaşık görevleri çözebilmeleriyle öne çıkıyorlardı.

Bu gelişmeler, “yapay genel zeka” (AGI) yani insanı birçok alanda aşacak düzeydeki yapay zeka seviyesinin yaklaştığı yönündeki iddiaları da güçlendirmişti. Ancak Apple’ın yeni araştırması, bu beklentilere temkinli yaklaşmak gerektiğini ortaya koyuyor.

KARMAŞIK GÖREVLERDE ÇÖKÜYOR

Araştırmada, OpenAI’IN o1 ve o3 modelleri, DeepSeek R1, Anthropic Claude 3.7 Sonnet ve Google Gemini gibi hem klasik hem de muhakeme yetenekli modeller dört klasik mantık bilmecesiyle test edildi: Nehirden geçme, dama atlamaca, blok dizme ve Hanoi Kulesi. Bilmece karmaşıklıkları düşük, orta ve yüksek seviyelerde ayarlanarak modellerin dayanıklılığı ölçüldü.

Sonuçlar çarpıcıydı:

– Düşük karmaşıklık seviyesine sahip testlerde klasik modeller daha başarılıydı.

– Orta seviye testlerde muhakeme modelleri avantaj sağladı. – Ancak yüksek seviyede tüm modellerin başarı oranı sıfıra düştü.

Muhakeme modellerinin, belli bir karmaşıklık eşiğini aştıktan sonra, düşünme için kullandıkları “token” miktarını azalttıkları görüldü. Araştırmacılara göre bu, modellerin karmaşık görevlerde mantık yürütme becerilerinin çöktüğü anlamına geliyor.

Dahası, çözüm algoritması doğrudan verildiğinde bile bu çöküş engellenemedi. Örneğin, Hanoi Kulesi testinde 100 doğru hamle yapan modeller, nehirden geçme bilmecesinde sadece 5 hamlede başarısız oldu.

HALÜSİNASYON SORUNU

OpenAI’ın kendi teknik raporları da muhakeme modellerinin halüsinasyon üretme (yani hatalı veya uydurma bilgi sunma) riskinin daha yüksek olduğunu göstermişti.

Nitekim o1 modelinde hatalı bilgi oranı yüzde 16 iken, o3 ve o4-mini modellerinde bu oran sırasıyla yüzde 33 ve yüzde 48’e çıkıyor. OpenAI, bu durumun neden kaynaklandığını henüz çözemediğini ve “daha fazla araştırmaya ihtiyaç olduğunu” belirtiyor.

DEĞERLENDİRME YÖNTEMİNDE SORUN MU VAR?

Apple araştırmacıları ise mevcut yapay zeka değerlendirme yöntemlerinin yetersiz kaldığını savunuyor. Matematik ve kodlama testlerinin veri sızıntısı (contamination) riski taşıdığını ve kontrollü deney koşullarında muhakeme yeteneğini ölçmede eksik kaldığını ifade ediyorlar.

Veri sızıntısı, test edilen bir problemin veya çözümünün daha önce modelin eğitim verilerinde yer almış olması anlamına geliyor. Yani buna göre, modeller, daha önce gördüğü bir soruyla karşılaştığında gerçekten muhakeme etmek yerine bu soruya “ezberden” yanıt veriyor olabilir.

APPLE’IN NİYETİ NE?

Apple’ın kendi yapay zeka stratejisi daha çok cihaz içi (on-device) verimli yapay zeka çözümleri geliştirmeye odaklanıyor. Ancak Siri’nin ChatGPT’ye göre yüzde 25 daha az doğru yanıt verdiğini gösteren analizler de var. Bu yüzden bazı analistler Apple’ın bu stratejisini eleştiriyor.

Bu durum Apple’ın söz konusu yapay zeka araştırmasının da bazı kesimler tarafından eleştirilmesine yol açtı.

Washington Üniversitesi’nden emekli bilgisayar bilimcisi Pedro Domingos, sosyal medya hesabından, “Apple’ın parlak yeni yapay zeka stratejisi: Yapay zeka diye bir şeyin olmadığını ispatlamak” diye yazdı.

Ancak pek çok araştırmacı bu çalışmayı, yapay zeka hakkındaki abartılı söylemlere karşı önemli bir “soğuk duş” olarak da değerlendiriyor. Yapay zeka uzmanı Andriy Burkov, “Apple, hakemli bir çalışmayla LLM’lerin sadece nöral ağlar olduğunu ve klasik sınırlamalara sahip olduklarını ispatladı” dedi ve ekledi:

“Umarım artık bilim insanları, LLM’leri hastalarla konuşan psikiyatristler gibi değil, matematikçiler gibi inceler.”