Henri Verdier Blog: Big Data : Making sense at scale

mardi, décembre 14, 2010

Big Data : Making sense at scale

D'un récent voyage dans la Silicon Valley (merci aux amis du Orange Institute), je rentre avec une conviction : tout ce que nous connaissions du web va changer à nouveau avec le phénomène des big data. Il pose à nouveau, sur des bases différentes, presque toutes les questions liées à la transformation numérique.

En 2008, l’humanité a déversé 480 milliards de Gigabytes sur Internet. En 2010, ce furent 800 milliards de Gygabytes, soit, comme l’a dit un jour Eric Schmidt, plus que la totalité de ce que l’humanité avait écrit, imprimé, gravé, filmé ou enregistré de sa naissance jusqu’en 2003.

Ces données ne sont pas toutes des oeuvres. Outre les blogs, les textes, les vidéos (35 millions sont regardées sur Youtube chaque minute) ou le partage de musique, il y a désormais les microconversations, les applications géolocalisées, la production de données personnelles, la mise en ligne de données publiques, les interactions de l’Internet des objets...

Naviguer dans ce nouveau web demande une nouvelle science. C’est comme passer d’une navigation fluviale à une plongée en eaux profondes. Mobilis in mobile.

L’actualité de la semaine nous a donné une petite illustration de ce qui se passe à grande échelle. Au fond, quelle est la différence entre Wikileaks et le Canard Enchaîné ? On voit bien qu’elle n’est pas seulement de volume. 250.000 documents d’un coup, ce n’est plus tout à fait les 30 rumeurs de la page 2 du Canard. Ca ne se traite pas pareil. Ca ne s’exploite pas pareil. Et visiblement, ça ne se combat ni ne se défend pas de la même manière. On sent bien que l’appareil juridique, l’appareil de communication et les stratégies de pouvoir adaptés au Canard Enchaîné ne passent pas l’échelle.

Le web était globalement transactionnel. Des gens, des objets, des machines échangeaient. Des données, des conversations, des protocoles. De un à un ou de beaucoup à beaucoup, on restait dans la transaction.

Le web, aujourd'hui, produit aujourd’hui des masses de données, des masses de sens, qui échappent complètement aux principaux acteurs. Y compris à ceux qui déversent ces données. Y compris à ceux qui tentent de se les approprier. On sent bien que les questions aujourd’hui posées ne sont pas tout à fait à l’échelle. Tout savoir sur un individu ? Mieux cibler un marketing ? So what ? On est au bord de découvrir la thermodynamique et les gens continuent à regarder la trajectoire des molécules ;

On sent bien que l’on est tout près d’un phénomène d’émergence. L’émergence est bien souvent une notion pseudo-mystique, mais c'est en fait une réalité. Lorsque des propriétés nouvelles apparaissent à un niveau d'organisation supérieur. Les propriétés du cerveau ne sont pas inclues dans le neurone. En tous cas, il est impossible de les anticiper simplement en disséquant un neurone. Ce sont des propriétés propres au système de neurones. L’émergence du big data sera de même nature. Il ne suffit pas de prolonger ce que nous faisons avec les données d’aujourd’hui pour anticiper ce que sera l’exploitation des données du futur.

Ce qui est fascinant avec la Silicon Valley, c’est qu’une telle perspective y devient immédiatement un carburant pour la recherche et la création.

Le professeur Michaël Franklin, de Berckeley, a par exempe obtenu des financements importants de Google, Amazon, IBM, mais aussi SAP ou la Darpa (eh oui) pour créer son laboratoire Algorithm, Machine, People. Son programme de travail est simple : rien n’est prêt pour faire face à ce déluge de données. Les infrastructures profondes du réseau ne passeront pas l’échelle, la logique de bases de données n’est plus adaptée, les algorithmiques utilisées par l’informatique ne sont pas assez parallèles. Mais surtout, nous ne savons pas encore créer du sens à la bonne échelle. Donner cohérence, et valeur, aux informations, ou plutôt aux histoires dissimulées dans ces masses de données est encore une science balbutiante. Transmettre ce sens au plus large public est encore hors de portée.

Kul Wadhwa, le directeur de la Wikimedia Foundation, m’a raconté comment il réfléchit à la prochaine évolution de Wikipedia, d’un Wikipédia qui ne serait plus seulement une vaste encyclopédie, mais un immense système d’information, interfacé à toutes sortes d’API, utilisable par toutes sortes de services

Roger Magoulas, directeur de recherche chez O'Reilly pense tout simplement que les big data vont être le sujet le plus sexy des dix prochaines années. Et qu'il va nous falloir forger un langage commun entre les données, le quantitatif et le storytelling.

Ce nouveau rêve Californien est holistique. Il organise la convergence de toutes sortes de travaux : datavisualisation, algorithmique parallèle, bases de données, Mapreduce, Machine Learning, sécurité et vie privée, datacenter, statistiques, analyse en langage naturel, sémantique. Il mobilise, et bouleverse, le journalisme, la communication, les microsimulations, les politiques publiques, l’urbanisme... Il est notamment stimulé par l’ambition d’un traitement en temps réel.

Il commence à avoir des résultats concrets. On ne parle plus tant serveurs et bases de données, ni même ERP, que Mapreduce, NoSQL, GraphDatabase, Hadoop. On voit naître un marché de ces bases de données d’un nouveau genre, encore immature mais dont les fleurons sont Neo4J, Allegrograph, HypergraphDB.

Naturellement, une telle bascule induit également des transformations stratégiques majeures.

Pour être honnête, on sent bien que le business n’est pas encore tout à fait au rendez-vous. Si making sense at scale est encore un problème ouvert, making money at scale est encore plus problématique. Sauf que, vue la vitesse d’évolution du web, on peut gager sans craintequ’il ne faudra que quelques années avant que ces nouveaux business ne voient le jour.

Il n’en demeure pas moins que la bataille industrielle a commencé. Et notamment la bataille pour la captation monopolistique de ces données. Ce n’est pas un hasard si Tim Wu, professeur à Columbia, « gauchiste » au vu des Américains, vient de sortir un nouveau livre consacré à ces nouveaux monopoles.

Nouveaux, car d’un genre nouveau. Google, Facebook, Twitter littéralement parlant, ne bloquent aucun marché. Ils sont, d’un certain point de vue, non rivaux du point de vue du marché des données personnelles. Ils ne monopolisent par ailleurs aucun marché, puisqu’ils créent les marchés au fur et à mesure de leur croissance. Et pourtant, ils sont visiblement engagés dans une lutte à mort pour la captation, le contrôle et l’exploitation de masses de données personnelles.

Et comme le dit Tim Wu, ils créent de ce fait de nouvelles stratégies monopolistiques. Car posséder les données personnelles de 500 millions d’individus, ce n’est plus avoir un fichier illicite sur la clientèle de sa petite boutique. On est entré dans un ordre nouveau. On est dans les big data.

Tim Wu propose d’imposer, mondialement, une séparation drastique entre les opérateurs d’infrastructures profondes, les fournisseurs d’accès Internet et les fournisseurs de contenus et services. C’est une idée qui mérite examen.

En même temps, je me demande si les nouveaux démiurges ne seront pas très vite dépassés par leurs créatures. Les données prolifèrent à une telle vitesse ; on apprend tellement vite à les interpréter. J’ai ainsi rencontré une start-up, Sense Network, fondée par des anciens de Columbia, qui réussit, avec la seule trace de déplacement des téléphones portables (d’obtention facile aux Etats-Unis), à prédire votre « lifestyle », à vous catégoriser et à prédire vos goûts, vos habitudes et même vos risques de santé (diabète, par exemple).

A quoi leur servira le monopole si l’on sait reconstituer le sens avec les moindres traces ?

4 commentaires:

Mark Plakias14 décembre 2010 à 20:49
Vis a vis the concepot of emrgence, let me recommend a book that was recommended to us by Isaac Mao at the Orange Institute Beijing session, which is Reinventing the Sacred by Stuart Kauffman of the Santa Fe Institute. Kauffman lays out a broad scientific platform for emrgence, which absolutely support's your poiont about our brains being more than the sum of our neurons. Loved the post, thanks for this.
RépondreSupprimer
Réponses
Henri Verdier3 janvier 2011 à 23:47
Beaucoup de bons liens aussi dans cet article de "Zeroseconde" en réponse à ce billet : http://zeroseconde.blogspot.com/2010/12/qu-que-le-big-data.html
RépondreSupprimer
Réponses
jpperrein16 janvier 2011 à 13:53
Excellente analyse autour de l'évolution de l'information avec une vue quantitative. J'aime beaucoup l'analogie avec les neurones.

Notre perception du futur autour de l'information a plus de chance d'être correcte si on arrive à raisonner en mode systémique. Le faire de façon analytique, risque fort de nous rendre fou ou incompétent, la masse d'information devient beaucoup trop conséquente. Et cela va être de "moins en plus" !
C'est vrai, les chances de réussite dans de nouveaux business sont, entre autre, celles qui se concentrerons sur l'information en tant qu'objet, et pourront y associer toutes sortes de mécanismes pour faciliter son usage.
En fait, notre propre création nous dépasse !, et nous devenons handicapé face à elle. Il va nous falloir pas mal d'"extensions" pour mieux traiter tout ça ! Un vrai film de science fiction de moins en moins fiction !

En terme de (re) évolution, je crois fermement à un futur système où l'information portera sa propre intelligence. Ce que j'appelle l'Information Autonome Intelligente, possèdera l'ensemble des éléments contextuel et qualitatif permettant son exploitabilité facilitée pour ses acteurs usagers (humain ou non...). Cette information ne sera pas "mobile" (fini le mail 1.0 par exemple), mais statique. Son accès se fera à travers des liens qui porteront les critères de consultation, de sécurité, d'usage, ... de gouvernance d'information. Cette IAI pourrait être un concept complémentaire au LinkedData.
Ce sujet, très vaste est un des sujets que j'aime à développer sur mon blog www.3org.com (A voir en particulier l'article sur la révolution informationnelle).
En tout cas, j'ai hâte demain d'être aujourd'hui, tellement ce sujet apportera d'effets de bord dans nos cultures !
RépondreSupprimer
Réponses
divorce pour faute10 janvier 2013 à 10:32
Tim Berners-Lee a dit “Demain celui qui contrôlera les métadonnées, contrôlera le web“
RépondreSupprimer
Réponses

Libellés

mardi, décembre 14, 2010

Big Data : Making sense at scale

4 commentaires: