Sélectionner la langue

French

Down Icon

Sélectionnez un pays

England

Down Icon

Bright Data a battu Elon Musk et Meta devant les tribunaux — sa plateforme d'IA de 100 millions de dollars s'attaque désormais aux Big Tech

Bright Data a battu Elon Musk et Meta devant les tribunaux — sa plateforme d'IA de 100 millions de dollars s'attaque désormais aux Big Tech

Participez à l'événement auquel les chefs d'entreprise font confiance depuis près de deux décennies. VB Transform rassemble les personnes qui élaborent de véritables stratégies d'IA pour les entreprises. En savoir plus

Bright Data , la société israélienne de scraping Web qui a battu Meta et X d'Elon Musk devant un tribunal fédéral, a dévoilé mercredi une suite complète d'infrastructures d'IA conçue pour donner aux systèmes d'intelligence artificielle un accès illimité aux données Web en temps réel - une capacité que la société affirme que les plateformes Big Tech tentent de monopoliser.

L'annonce de Deep Lookup , Browser.ai et de protocoles de collecte de données améliorés représente une expansion spectaculaire pour cette entreprise vieille de dix ans, qui est passée d'un service spécialisé de scraping web à ce que le PDG Or Lenchner appelle « une couche d'infrastructure unique pour les entreprises d'IA ». Cette évolution intervient alors que les entreprises d'intelligence artificielle peinent de plus en plus à accéder aux informations web actuelles nécessaires au fonctionnement des chatbots, des agents autonomes et d'autres applications d'IA.

« L'intelligence des LLM d'aujourd'hui n'est plus le facteur limitant ; c'est l'accès qui l'est », a déclaré Lenchner dans une interview exclusive accordée à VentureBeat. « Nous avons passé la dernière décennie à lutter pour le libre accès aux données publiques du web, et ces nouvelles offres nous ouvrent un nouveau chapitre de notre parcours, caractérisé par des données véritablement accessibles et l'essor subséquent d'agents sensibles au contexte. »

Ce lancement fait suite aux victoires juridiques retentissantes de Bright Data en 2024, lorsque des juges fédéraux ont rejeté les poursuites de Meta et X , alléguant que l'entreprise avait illégalement récupéré leurs plateformes. Ces décisions ont établi un précédent juridique crucial définissant ce que constituent les «  données publiques » sur Internet, c'est-à-dire des informations consultables sans connexion et donc légalement collectées et utilisées.

Les affaires judiciaires ont révélé que Meta et X étaient tous deux clients de Bright Data, même lorsqu'ils poursuivaient l'entreprise en justice, soulignant ainsi la position contradictoire de nombreux géants de la technologie face au web scraping. Ces décisions ont des implications plus larges pour le secteur de l'IA, qui s'appuie fortement sur les données web pour former et exploiter les modèles linguistiques.

« Il a été révélé au tribunal qu'ils étaient tous deux clients de Bright Data, car tout le monde a besoin de données, surtout ceux qui construisent des modèles », a expliqué Lenchner. « Nous sommes la seule entreprise à disposer des ressources financières, et j'irais même jusqu'à dire du courage, pour le faire. »

Le juge William Alsup , qui a présidé l'affaire X, a écrit que donner aux entreprises de médias sociaux « carte blanche pour décider, sur n'importe quelle base, qui peut collecter et utiliser les données » risquait de créer « des monopoles de l'information qui serviraient l'intérêt public ». La décision a établi que les données consultables sans identifiants de connexion constituent des informations publiques qui peuvent être légalement récupérées.

Bright Data a maintenant intenté une contre-action contre X , alléguant que la plateforme a violé les lois antitrust en tentant de créer un monopole sur les données au profit de xAI, l'entreprise d'IA d'Elon Musk. « Si X tente d'empêcher Bright Data de permettre à ses clients de récupérer ses données, c'est uniquement parce qu'elle sera la seule entité à pouvoir bénéficier des données pertinentes et de qualité produites par X », a déclaré Lenchner.

Les nouveaux produits de l'entreprise répondent à ce que Lenchner identifie comme les trois exigences fondamentales des systèmes d'IA : algorithmes, puissance de calcul et accès aux données. Bien que Bright Data ne développe pas d'algorithmes d'IA ni ne fournisse de ressources informatiques, l'entreprise ambitionne de devenir la solution définitive pour cette troisième exigence.

Deep Lookup fonctionne comme un moteur de recherche en langage naturel conçu pour répondre en temps réel à des questions commerciales complexes et complexes. Contrairement aux moteurs de recherche généralistes ou aux chatbots IA qui fournissent des résumés, Deep Lookup se spécialise dans les résultats complets pour les requêtes commençant par « tout trouver ». Par exemple, les utilisateurs peuvent demander « toutes les compagnies maritimes ayant emprunté les canaux de Panama et de Suez en 2023 et dont le chiffre d'affaires au troisième trimestre a diminué de plus de 2 % ».

Le système s'appuie sur les archives web massives de Bright Data, qui contiennent actuellement plus de 200 milliards de pages HTML et s'enrichissent de 15 milliards par mois. D'ici l'année prochaine, ces archives devraient dépasser les 500 milliards de pages. « Il ne s'agit pas de simples pages web, mais de ce qui compte pour le monde entier, car nos 20 000 clients représentent des milliards d'internautes », a souligné Lenchner.

Browser.ai représente ce que l'entreprise appelle « le premier navigateur natif IA et déblocable du secteur ». Conçu spécifiquement pour les agents IA autonomes, ce service cloud imite le comportement humain pour accéder aux sites web sans déclencher les systèmes de détection de robots. Il prend en charge les commandes en langage naturel et permet d'effectuer des interactions web complexes, comme réserver des vols ou des restaurants.

Selon l'entreprise, l'infrastructure du navigateur traite déjà plus de 150 millions d'actions web par jour. « Presque tous sont des clients », a déclaré Lenchner à propos des entreprises d'agents d'IA qui ont levé des fonds importants. « Car ce que nous avons compris, et qu'ils ont compris, c'est que nous résolvons le problème de l'accès à un site web sans être bloqués et de l'exécution d'actions web sur celui-ci. »

Les serveurs MCP (Model Context Protocol) offrent une couche de contrôle à faible latence permettant aux agents d'IA de rechercher, d'explorer et d'extraire des données en temps réel. Ce protocole permet aux développeurs de créer des systèmes d'IA capables d'agir sur les informations actuelles plutôt que de se fier uniquement aux données d'entraînement.

L'avantage concurrentiel de Bright Data découle de ce que Lenchner décrit comme une « obsession » pour le contournement des mécanismes de blocage des sites web. L'entreprise détient plus de 5 500 brevets sur sa technologie et exploite le plus grand réseau proxy au monde, avec plus de 150 millions d'adresses IP réparties dans 195 pays.

« Nous avons une vision très précise d'Internet », a expliqué Lenchner. « Depuis longtemps, nous cartographions Internet et, depuis longtemps, nous archivons également de vastes pans d'Internet. »

L'approche de l'entreprise fait appel à des techniques sophistiquées pour imiter le comportement humain, en utilisant de vrais appareils, des adresses IP et des empreintes digitales de navigateur plutôt que de simples scripts automatisés. Cela rend la détection et le blocage des sites web extrêmement difficiles.

« La seule façon de nous bloquer, en pratique, c'est de placer les données derrière la connexion ; alors, on n'essaie même pas », a déclaré Lenchner. « Il arrive qu'une nouvelle logique de blocage survienne et qu'on ne la résolve pas immédiatement. Il faut à notre équipe de recherche 12 heures, trois jours au maximum, pour que nous la débloquions. »

Le chiffre d'affaires dépasse les 100 millions de dollars alors que la demande en IA explose après ChatGPT

Bien que Bright Data reste détenue par une société de capital-investissement, Lenchner a confirmé à VentureBeat que son chiffre d'affaires annuel récurrent dépassait largement les 100 millions de dollars. L'entreprise a connu une croissance fulgurante depuis le lancement de ChatGPT fin 2022, alors que les entreprises d'IA se sont efforcées d'accéder aux données de formation et aux informations en temps réel.

« À partir de mars 2023, date à laquelle GPT-3 a révolutionné le monde, l'IA, ou ce que nous appelons les données pour l'IA, a connu une véritable explosion pour notre entreprise », a déclaré Lenchner. « Tout le reste est en pleine croissance, car tout le monde a besoin de plus de données, point final. Mais ce cas d'utilisation est totalement inédit. »

L'entreprise sert plus de 20 000 entreprises, dont des sociétés du Fortune 500 et d'importants laboratoires d'IA. Ses clients traditionnels incluent des plateformes de commerce électronique qui suivent les prix de leurs concurrents, des sociétés de services financiers à la recherche d'informations commerciales et des entreprises réalisant des études de marché.

Bright Data a investi massivement dans son infrastructure de conformité afin de répondre aux préoccupations en matière de confidentialité liées à la collecte de données. L'entreprise respecte les réglementations européennes RGPD et californienne CCPA , en informant automatiquement les personnes lorsque leurs informations personnelles sont collectées auprès de sources publiques et en leur proposant des options de suppression.

« La réglementation et la législation sont claires depuis l'entrée en vigueur du RGPD européen et, au moins, des réglementations californiennes et CCPA », a expliqué Lenchner. « Si nous avons collecté votre adresse e-mail, par exemple, nous vous enverrons automatiquement un e-mail indiquant : "Voici qui nous sommes. Nous avons collecté vos informations personnelles dans le domaine public. Voici un gros bouton sur lequel vous pouvez cliquer pour les consulter et, bien sûr, demander leur suppression." »

L'entreprise dispose d'une importante équipe de conformité et d'une documentation exhaustive de ses pratiques, ce qui s'est avéré précieux lors des procédures judiciaires. « Nous, les entreprises, sommes particulièrement fiers de notre position éthique, qui a été examinée à deux reprises par les tribunaux américains », a déclaré Lenchner.

La bataille autour de l'accès aux données web reflète des tensions plus larges au sein du secteur de l'IA concernant le contrôle de l'information et l'avantage concurrentiel. À mesure que les systèmes d'IA se perfectionnent, l'accès à des données web complètes et actualisées devient de plus en plus précieux, et source de controverses.

Lenchner prédit que le Web deviendra « plus fermé » au fil du temps, à l'instar de Google qui conserve l'accès exclusif à ses capacités d'exploration web, tandis que d'autres doivent recourir à des services alternatifs. « Quelques géants de la technologie auront un accès gratuit à tous les sites web grâce à leurs agents », a-t-il déclaré. « Les autres devront utiliser notre infrastructure ou celle d'un tiers. »

L'entreprise observe également de nouvelles tendances, notamment l'utilisation de chatbots IA par les entreprises à des fins de marketing et l'émergence de nouveaux protocoles comme MCP qui permettent aux agents IA d'interagir plus efficacement avec les services Web.

« Tous ces individus qui consomment des quantités massives de données, et que nous utilisons tous, contribuent à construire le cerveau des robots », a déclaré Lenchner. « C'est normal qu'un chatbot communique avec un humain, car c'est ce qu'un robot fera un jour. »

La transformation de Bright Data, passant d'un service de web scraping à un fournisseur d'infrastructures d'IA, reflète l'évolution rapide des besoins du secteur de l'intelligence artificielle. Alors que les entreprises se précipitent pour déployer des agents d'IA et des systèmes autonomes, l'accès aux données web en temps réel devient aussi crucial que la puissance de calcul et la sophistication algorithmique.

Les précédents juridiques établis par les victoires judiciaires de Bright Data pourraient s'avérer aussi importants que ses innovations techniques, et pourraient façonner la manière dont l'ensemble du secteur de l'IA accède aux informations web et les utilise. Alors que les grandes plateformes technologiques restreignent de plus en plus l'accès aux données tout en développant leurs propres systèmes d'IA, les fournisseurs d'infrastructures indépendants comme Bright Data pourraient devenir essentiels au maintien de l'équilibre concurrentiel au sein de l'écosystème de l'IA.

« Nous sommes une entreprise d'infrastructure », a souligné Lenchner. « Nous sommes des ingénieurs très talentueux qui ne bougent quasiment jamais, nous nous contentons de coder devant nos ordinateurs. Nous le faisons bien. Nous n'avons aucune intention de faire autre chose. »

La version bêta de Deep Lookup est lancée mardi pour les clients professionnels, et l'accès grand public est disponible via une liste d'attente. Browser.ai et les serveurs MCP sont déjà disponibles pour les entreprises via la plateforme existante de Bright Data.

Informations quotidiennes sur les cas d'utilisation métier avec VB Daily

Si vous souhaitez impressionner votre patron, VB Daily a tout prévu. Nous vous présentons en avant-première les avancées des entreprises en matière d'IA générative, des évolutions réglementaires aux déploiements pratiques, afin que vous puissiez partager vos idées pour un retour sur investissement maximal.

Lisez notre politique de confidentialité

Merci de votre abonnement. Découvrez d'autres newsletters VB ici .

Une erreur s'est produite.

venturebeat

venturebeat

Nouvelles similaires

Toutes les actualités
Animated ArrowAnimated ArrowAnimated Arrow