VMware Cloud Foundation 9 (VCF 9), “private bulut” tarafında AI/ML ve yüksek performanslı iş yüklerini daha üretim-hazır hale getirmek için vSphere katmanında ciddi yenilikler getiriyor. Bunların en dikkat çekenlerinden biri de GPU kullanan sanal makinelerin (vGPU’lu VM’ler) canlı taşınmasının (vMotion) çok daha hızlı ve güvenilir hale gelmesi: VMware’in paylaştığı ölçümlere göre vSphere/VCF 9.0 ile GPU’lu iş yüklerinde vMotion “6 kata kadar” hızlanabiliyor.
Buradaki hedef çok net:
GPU’lu üretim iş yüklerini durdurmadan (bakım, DRS dengeleme, arıza önleme, host boşaltma gibi) başka bir ESXi host’a taşıyabilmek.
VCF 9.0 ile vGPU kullanan VM’lerde vMotion iyileştirildi; özellikle büyük vGPU profillerinde (ör. 48GB, 80GB ve üstü) taşınma daha uygulanabilir hale geldi.
VMware, vMotion’un bellek kopyalama (memory copy) iç mekanizmasını optimize ettiğini ve stun süresi (VM’in kısa süreli “donduğu” final cutover anı) limitlerine daha rahat uyduğunu belirtiyor.
Broadcom/VMware anlatımında, GPU bellek aktarımında daha iyi performans ve yüksek bant genişliği ağlardan daha iyi faydalanma gibi noktalar vurgulanıyor.

Resim-1
Faster migration,
1) Sıfıra yakın kesintiyle bakım penceresi yönetimi
GPU host’larını patch/upgrade ederken VM kapatmadan host boşaltabilmek.
2) DRS ile yük dengeleme / kapasite optimizasyonu
GPU’lu VM’ler “yerine çakılı” kalmaz; yoğun host’tan boş host’a canlı taşınabilir.
3) Üretimde AI/LLM iş yüklerini daha güvenle çalıştırma
VMware’in vSphere 9/VCF 9 mesajı: AI ve inferencing iş yükleri, GPU üzerinde çalışırken de lifecycle event’lerden daha az etkilenmeli.

Resim-2
Başarılı vGPU vMotion” için öncesinde kontrol etmemiz gerekenler;
Altyapı uyumluluğu
VCF 9.0 (veya 9.0.x) üzerinde vSphere 9 bileşenleri.
vGPU için desteklenen NVIDIA GPU + uyumlu sürücüler (NVIDIA vGPU Manager / guest driver).
Kaynak ve hedef host’larda uyumlu GPU/vGPU yetenekleri (aynı/uyumlu GPU modeli ve desteklenen vGPU profilleri).
Ağ ve performans
vMotion trafiğinin geçeceği ağın yüksek bant genişliği ve düşük gecikme sunması gerekir (özellikle büyük bellek/vGPU profillerinde).
Operasyonel kontrol: “Stun Time Limit”
vSphere dokümantasyonu, vGPU VM’lerde vMotion sırasında stun time limit tanımlayabildiğini anlatıyor. Bu, beklenmeyen uzun “donma” sürelerine karşı koruma sağlar.
Nerelerde kullanabiliriz?
-
Planned maintenance: Host patch/firmware yükseltmesi öncesi canlı migration
-
Unplanned risk: Donanım uyarısı gelen GPU host’tan VM’i hızlıca alma
-
Capacity & performance: DRS ile GPU kaynaklarını daha dengeli kullanma
-
AI platform sürekliliği: LLM inference/training pipeline’ında kesintiyi azaltma