Skip to content
Edouard Topin
vcf-9-1 vks kubernetes platform-engineering broadcom

VCF 9.1 : Kubernetes & self-service, la plateforme prend le dessus

Linked clones VKS, 500 clusters par Supervisor, Container-as-a-Service simplifié et stockage objet en Tech Preview : comment VCF 9.1 ferme le gap self-service.

Edouard Topin

2 min read 2 min de lecture
VMware Cloud Foundation 9.1 — Kubernetes et self-service

En 9.0, VKS était un excellent runtime Kubernetes vSphere-natif, mais opérer la plateforme restait un travail de platform team. Provisionner un namespace propre, y attacher quotas, registry, ingress et identité, c’était une suite d’étapes manuelles que les équipes applicatives ne pouvaient pas déclencher seules. Le gap entre « cluster opéré » et « plateforme self-service » se comblait à coups de scripts maison.

VCF 9.1 attaque ce gap frontalement. Quatre changements — linked clones pour VKS, scale à 500 clusters par Supervisor, Container-as-a-Service simplifié, stockage objet natif en Tech Preview — déplacent la frontière : ce que le platform team faisait à la main devient un construct consommable. Cet article décode chacun, avec le delta 9.0 → 9.1 et l’impact concret côté architecture.

VKS 9.0Linked clones + scaleSelf-service 9.1

VKS & VM Fast-Deploy : les linked clones changent l’échelle

Jusqu’en 9.0, chaque node VKS — control plane comme worker — était un full clone de l’OVA VKr : copie complète du disque source vers le datastore avant le premier boot. Sur un cluster de 6 nodes, c’est six copies de plusieurs Go à provisionner, séquentiellement contraintes par le débit du datastore. Le temps de déploiement d’un cluster, et plus encore le temps d’un rolling upgrade (chaque node recréé), était dominé par cette copie.

9.1 introduit le Fast-Deploy par linked clones pour VKS et les clusters VM. Le mécanisme : un disque parent en lecture seule (issu de la VKr) est instancié une fois, puis chaque node crée un delta disk qui ne stocke que les blocs modifiés par rapport au parent. Le node boote en quelques secondes au lieu d’attendre une copie intégrale. Conceptuellement, c’est le copy-on-write appliqué au provisioning de nodes Kubernetes.

AspectVKS 9.0 (full clone)VKS 9.1 (linked clone)
Création d’un nodeCopie complète du disque sourceDelta disk au-dessus d’un parent partagé
Déploiement cluster 6 nodesDominé par N copies séquentiellesQuasi-parallèle, temps réduit drastiquement
Rolling upgradeChaque node = full clone recrééChaque node = delta sur parent existant
Empreinte stockage initialeN × taille image1 × parent + N deltas (croissants)
Couplage I/OCopie longue, datastore saturéLecture parent partagée, écriture delta

Impact architecte. Le linked clone n’est pas qu’une optimisation de vitesse : il rend l’upgrade opérationnellement banal. Quand recréer 200 nodes coûte des minutes au lieu d’heures, la fenêtre de change rétrécit et le SLA de patch Kubernetes devient tenable sans négocier des maintenances longues. Le trade-off à intégrer : le disque parent partagé devient un point chaud de lecture, et les delta disks grossissent dans le temps. Le dimensionnement storage se raisonne désormais en parent + croissance des deltas, pas en N × image figée.

Scale : 500 clusters Kubernetes par Supervisor

En 9.0, le Supervisor plafonnait bien en deçà de la centaine de clusters workload utilisables sereinement — suffisant pour une équipe, étroit pour un cloud provider interne servant des dizaines de tenants. 9.1 relève la barre à 500 clusters Kubernetes par Supervisor.

DimensionVKS 9.0VKS 9.1
Clusters / SupervisorLimite basse (dizaines)Jusqu’à 500
Modèle viséÉquipe / petit multi-tenantCloud provider interne à grande échelle
Densité par cluster vSphere1 plateforme = 1 Supervisor étroit1 Supervisor = fleet Kubernetes complète

Ce que ça débloque : un seul Supervisor peut désormais porter la flotte Kubernetes d’une organisation entière, au lieu de fragmenter en plusieurs Supervisors (et donc plusieurs périmètres de gouvernance, plusieurs plans de contrôle à opérer). Pour un modèle multi-tenant où chaque tenant reçoit un ou plusieurs clusters dédiés, 500 clusters/Supervisor change la cartographie : moins de Supervisors, gouvernance plus simple, mais blast radius plus large.

Impact architecte. 500 clusters n’est pas un quota gratuit. Le Supervisor reste un plan de contrôle partagé : son etcd, ses controllers CAPI, ses quotas de namespace absorbent désormais une charge de réconciliation bien supérieure. Cinq cents clusters, c’est cinq cents boucles de réconciliation CAPI, des centaines de milliers d’objets dans l’API server du Supervisor, et un etcd dont la latence devient critique. La règle : traiter le chiffre comme un plafond architectural validé, pas comme une cible. Dimensionner le Supervisor (control plane HA, IOPS etcd, observabilité du plan de contrôle) avant d’approcher la densité, et garder une marge.

Container-as-a-Service simplifié

En 9.0, mettre un namespace à disposition d’une équipe applicative ressemblait à ça : créer le vSphere Namespace, attacher manuellement les storage policies, configurer les quotas CPU/RAM/storage, brancher un registry, déployer ou rattacher un ingress controller, puis câbler l’identité (mapping SSO, RBAC). Six étapes, six occasions de divergence entre tenants, et un platform team dans le chemin critique de chaque onboarding.

9.1 transforme ça en un véritable Container-as-a-Service self-service. Le provisioning d’un namespace devient une action consommable qui hérite automatiquement des constructs VCF : registry, ingress, quotas et identité sont dérivés du périmètre VCF du tenant plutôt que recâblés à la main. L’équipe applicative demande un namespace ; elle reçoit un namespace déjà gouverné, avec son registry, son entrée ingress et son identité alignée sur le SSO d’entreprise.

Container-as-a-Service self-service dans VCF 9.1

Source : Broadcom — VCF Blog

Étape onboarding namespaceFlux 9.0 (manuel)Flux 9.1 (CaaS)
Création du namespaceAction platform teamSelf-service consommable
Storage policyAttachement manuelHéritée du construct VCF
RegistryBranchement séparéProvisionné avec le namespace
IngressDéploiement / rattachement manuelInclus dans le construct
QuotasDéfinis à la main par profilDérivés du périmètre tenant
Identité / RBACMapping SSO manuelHérité de l’identité VCF

Impact architecte. Le platform team sort du chemin critique de l’onboarding sans perdre la gouvernance : les guardrails (quotas, identité, policies) sont encodés dans le construct, pas appliqués après coup. Le rôle du platform team se déplace de l’exécution répétitive vers la définition des profils de tenant. C’est exactement le mouvement qu’on cherchait à scripter en 9.0 — sauf que là, c’est natif et cohérent par défaut.

Native Object Storage (Tech Preview)

Le stockage block (PVC → VMDK via CNS) et le stockage fichier étaient déjà self-service en 9.0. Le grand absent : le stockage objet S3-compatible, que les développeurs réclament pour les artefacts, backups applicatifs, datasets et état d’applications cloud-native. En 9.0, il fallait sortir de la plateforme (bucket externe, MinIO auto-géré) — donc une rupture dans le modèle de gouvernance.

9.1 introduit un stockage objet natif S3-compatible en self-service, en Tech Preview. Les développeurs provisionnent des buckets via le même workflow deploy / scale / manage que pour le block et le fichier ; l’IT conserve les guardrails (quotas, policies, identité) sans devenir un goulot. La promesse : combler la dernière catégorie de stockage manquante pour que la plateforme couvre les trois axes (block, fichier, objet) sous une gouvernance unique.

Catégorie de stockageVKS 9.0VKS 9.1
Block (PVC)Self-service via CNSSelf-service via CNS
FichierSelf-serviceSelf-service
Objet (S3)Hors plateformeSelf-service natif (Tech Preview)

Impact architecte. L’intérêt n’est pas d’utiliser ça en prod maintenant — c’est de cadrer dès aujourd’hui la cible. Si tes équipes consomment du S3 externe ou du MinIO auto-géré, la Tech Preview permet de prototyper la migration et de mesurer le delta de gouvernance, pour être prêt le jour de la GA sans réécrire les patterns d’accès.

Du cluster opéré à la plateforme self-service

Pris isolément, chacun de ces quatre changements est une amélioration. Pris ensemble, ils ferment le gap self-service de bout en bout.

Les linked clones rendent le provisioning et l’upgrade assez rapides pour être self-service — sans eux, exposer la création de clusters aux équipes saturerait le datastore. Le scale à 500 clusters/Supervisor rend l’échelle multi-tenant atteignable sans fragmenter la gouvernance — c’est le pendant Kubernetes du travail de networking & scale traité dans l’article précédent. Le CaaS simplifié encode la gouvernance dans le construct plutôt que dans des runbooks. Le stockage objet complète la couverture pour que les développeurs n’aient plus à sortir de la plateforme.

Le résultat : ce qu’on construisait à la main par-dessus VKS en 9.0 — un parcours décrit pas à pas dans Déployer son premier cluster VKS sur VCF 9 — devient un comportement natif de la plateforme en 9.1. Le platform team ne disparaît pas ; il passe de l’exécution répétitive à la définition des profils, des guardrails et des quotas. C’est la bascule du cluster opéré vers la plateforme self-service.

Pièges & points de vigilance

Linked clones : couplage stockage / I/O à surveiller
Le disque parent partagé devient un point chaud de lecture quand de nombreux nodes bootent simultanément, et les delta disks grossissent avec l'usage. Dimensionner le datastore sur parent + croissance des deltas, pas sur N × image figée. Surveiller la latence de lecture du parent lors des rolling upgrades massifs : le gain de vitesse peut se reporter en pression I/O si le datastore est sous-dimensionné.
500 clusters n'est pas un etcd gratuit
Le chiffre est un plafond architectural validé, pas une cible à viser. Cinq cents clusters, c'est autant de boucles de réconciliation CAPI et une charge etcd massive sur le Supervisor. Dimensionner le control plane du Supervisor (HA, IOPS etcd, mémoire API server) et instrumenter le plan de contrôle avant d'approcher la densité. Garder une marge — un Supervisor à 95 % de sa capacité de réconciliation est fragile.
CaaS : la gouvernance des quotas se définit en amont
Le self-service hérite des quotas du construct tenant. Si les profils de tenant sont mal calibrés, le self-service propage des quotas trop larges (perte de gouvernance) ou trop serrés (provisionnings bloqués) à grande échelle. Le travail de cadrage des profils devient critique : c'est désormais là que se joue la gouvernance, pas dans l'exécution manuelle.
Object Storage : Tech Preview, pas GA
Pas de support production, API non stabilisée, fonctionnalité susceptible d'évoluer ou d'être retirée avant GA. À utiliser uniquement pour évaluer et préparer la cible. Ne pas y porter de charge critique ni de données sans plan de repli vers une solution objet supportée. Suivre les release notes pour la date de GA et les éventuels changements d'API.
Héritage d'identité : cohérence SSO à valider
Le namespace CaaS hérite de l'identité du périmètre VCF du tenant. Si le mapping SSO d'entreprise (groupes, rôles) n'est pas propre en amont, l'héritage propage des permissions incohérentes à chaque nouveau namespace. Valider la fédération d'identité et le mapping de groupes avant d'ouvrir le self-service — corriger après coup sur des dizaines de namespaces est coûteux.
Blast radius : moins de Supervisors = périmètre plus large
Consolider la flotte sur un seul Supervisor à 500 clusters simplifie la gouvernance mais élargit le blast radius : un incident de plan de contrôle impacte potentiellement toute la flotte Kubernetes de l'organisation. Arbitrer consolidation vs isolation explicitement, et traiter le Supervisor comme une cible de criticité maximale dans le plan de résilience.

Conclusion

Provisioning self-service-able

Les linked clones rendent déploiement et upgrade assez rapides pour être exposés aux équipes sans saturer le stockage. L’upgrade devient opérationnellement banal.

Échelle multi-tenant

500 clusters par Supervisor atteignent l’échelle cloud provider interne sans fragmenter la gouvernance — à condition de dimensionner etcd et le control plane.

Gouvernance encodée

CaaS et stockage objet (Tech Preview) déplacent la gouvernance dans le construct. Le platform team définit les profils, ne les exécute plus.

Prochaine étape. Le quatrième et dernier article de la série traite de la sécurité & résilience de VCF 9.1 — le pendant défensif de cette ouverture self-service : plus on expose la plateforme, plus les guardrails de sécurité et les mécanismes de résilience deviennent structurants. À lire en complément de l’article networking & scale, qui pose les fondations réseau de cette même flotte.

Pour aller plus loin.

Ressources :

Back to Blog
Share:

Follow along

Stay in the loop — new articles, thoughts, and updates.