Apple, kısa süre önce ortaya çıkan Apple Intelligence özelliklerini geliştirmek için NVIDIA’nın donanım hızlandırıcılarını kullanmadığını açıkladı. Resmi bir Apple araştırma belgesine göre şirket, Apple Intelligence Foundation Dil Modelleri’nin arkasındaki eğitim verileri için Google TPU’lara (Tensor Processing Unit) güveniyor.
Google TPUv4 ve TPUv5 çiplerini paketleyen sistemler Apple Temel Modellerinin (AFM’ler) oluşturulmasında etkili oldu. AFM-server ve AFM-on-device modelleri, Haziran ayında WWDC 2024’te müjdelenen çevrimiçi ve çevrimdışı Apple Intelligence özelliklerini güçlendirmek için tasarlandı.
AFM-server Apple’ın en büyük LLM’si ve yalnızca çevrimiçi çalışıyor. Teknoloji devi, AFM’lerini eğitmek için kullanılan verilerin Applebot web tarayıcısından (robots.txt dikkate alınarak) toplanan bilgilerin yanı sıra çeşitli lisanslı “yüksek kaliteli” veri kümelerini içerdiğini söyledi. Ayrıca özenle seçilmiş kod, matematik ve halka açık veri kümelerinden de yararlanıldı.
Çevrimdışı olarak çalışan ARM-on-device modeli önemli ölçüde kırpılmış. Ancak Apple, bilgi damıtma tekniklerinin bu daha küçük modelin performansını ve verimliliğini optimize ettiğini düşünüyor. AFM-server eğitiminden farklı olarak, ARM-on-device modelini hazırlamak için Google TPUv5 kümeleri kullanıldı. Makalede “AFM-on-device’in 2.048 TPUv5p çipten oluşan bir dilim üzerinde eğitildiği” belirtiliyor.
Şirketin Apple Intelligence’a güç veren teknikleri ve teknolojileri ortaya koyan bu kadar ayrıntılı bir makale yayınladığını görmek ilginç. Normalde ser verip sır vermezler. Apple’ın şirket içi testlerine göre AFM-server ve AFM-on-device, Talimat Takibi, Araç Kullanımı, Yazma ve daha fazlası gibi kıyaslamalarda üstünlük sağlıyor.