Des milliers de dépôts GitHub exposés, désormais privés, sont toujours accessibles via Copilot

Les chercheurs en sécurité avertissent que les données exposées sur Internet, même pendant un instant, peuvent persister dans les chatbots d'IA génératifs en ligne comme Microsoft Copilot longtemps après que les données soient rendues privées.
Des milliers de référentiels GitHub autrefois publics de certaines des plus grandes entreprises mondiales sont concernés, y compris celui de Microsoft, selon de nouvelles conclusions de Lasso, une société israélienne de cybersécurité axée sur les menaces émergentes liées à l'IA générative.
Ophir Dror, cofondateur de Lasso, a déclaré à TechCrunch que la société avait trouvé du contenu de son propre référentiel GitHub apparaissant dans Copilot parce qu'il avait été indexé et mis en cache par le moteur de recherche Bing de Microsoft. Dror a déclaré que le référentiel, qui avait été rendu public par erreur pendant une brève période, avait depuis été rendu privé et que l'accès à celui-ci sur GitHub renvoyait une erreur « page non trouvée ».
« Sur Copilot, nous avons trouvé, de manière assez surprenante, l'un de nos propres référentiels privés », a déclaré Dror. « Si je devais naviguer sur le Web, je ne verrais pas ces données. Mais n'importe qui dans le monde pourrait poser la bonne question à Copilot et obtenir ces données. »
Après avoir réalisé que toutes les données sur GitHub, même brièvement, pouvaient être potentiellement exposées par des outils comme Copilot, Lasso a enquêté plus en profondeur.
Lasso a extrait une liste de référentiels qui étaient publics à tout moment en 2024 et a identifié les référentiels qui avaient depuis été supprimés ou rendus privés. En utilisant le mécanisme de mise en cache de Bing, l'entreprise a découvert que plus de 20 000 référentiels GitHub, devenus privés depuis, avaient encore des données accessibles via Copilot, affectant plus de 16 000 organisations.
Les entreprises concernées incluent Amazon Web Services, Google, IBM, PayPal, Tencent et Microsoft elle-même, selon Lasso. Pour certaines entreprises concernées, Copilot pourrait être amené à restituer des archives GitHub confidentielles contenant de la propriété intellectuelle, des données d'entreprise sensibles, des clés d'accès et des jetons, a indiqué la société.
Lasso a noté qu'il avait utilisé Copilot pour récupérer le contenu d'un dépôt GitHub - depuis supprimé par Microsoft - qui hébergeait un outil permettant la création d'images d'IA « offensantes et nuisibles » à l'aide du service d'IA cloud de Microsoft.
Dror a déclaré que Lasso avait contacté toutes les entreprises concernées qui étaient « gravement affectées » par l'exposition des données et leur avait conseillé de faire tourner ou de révoquer toutes les clés compromises.
Aucune des entreprises concernées citées par Lasso n'a répondu aux questions de TechCrunch. Microsoft n'a pas non plus répondu à la demande de renseignements de TechCrunch.
Lasso a informé Microsoft de ses conclusions en novembre 2024. Microsoft a déclaré à Lasso qu'il avait classé le problème comme « faible gravité », déclarant que ce comportement de mise en cache était « acceptable ». Microsoft n'incluait plus de liens vers le cache de Bing dans ses résultats de recherche à partir de décembre 2024.
Cependant, Lasso affirme que même si la fonction de mise en cache était désactivée, Copilot avait toujours accès aux données même si elles n'étaient pas visibles via les recherches Web traditionnelles, ce qui indique une solution temporaire.
techcrunch