
- Select a language for the TTS:
- French Female
- French Male
- French Canadian Female
- French Canadian Male
- Language selected: (auto detect) - FR
Play all audios:
La notion de _Big Data_, en français « mégadonnées »1 ou « données massives ») s’est rapidement répandue depuis quelques années, portée par des sociétés de conseil et largement relayées par
les médias, puis les pouvoirs publics, sans pour autant faire l’objet d’une définition précise. Ces données sont souvent présentées comme le « nouvel or noir de la croissance », voire le «
futur moteur » de l’économie. Comment définit-on le _Big Data_, quel est son périmètre et la taille du marché ? Comment les industries créatives en tirent-elles parti ? LA VALSE DES
ZETTABYTES OU LA FOLIE DES GRANDEURS Selon les estimations les plus plausibles2, mais il ne s’agit que d’un ordre de grandeur, la masse de données disponibles dans le monde serait passée de
3 milliards de gigabytes3 en 1987 à 300 milliards en 2007 soit une multiplication par 100 en l’espace de 10 ans4. L’explosion annoncée des données (jusqu’à 7 zettabytes prévues pour 2015)
provient de la croissance exponentielle des données disponibles, combinée à une capacité toujours plus grande de collecter, traiter et analyser ces données. Elle aura été rendue possible par
le déploiement des infrastructures de réseaux (haut débit et de plus en plus, très haut débit), ainsi que par l’équipement des ménages en terminaux divers, avant tout mobiles (smartphones,
tablettes et phablettes). Ces données proviennent de sources diverses et hétérogènes : des individus eux-mêmes, des machines ou des capteurs. Il s’agit à la fois d’informations générées
passivement, sous-produits d’une activité communicationnelle, et d’informations délivrées volontairement sur Internet. La fusion des données provient donc de sources disparates, numériques
ou analogues5. L’indicateur le plus simple de cette explosion est la croissance impressionnante du trafic de données mobiles, suivie annuellement par Cisco qui souligne notamment la
dominance des données vidéo6 (près de 80 % du total prévu à l’horizon 2018) ainsi que le rôle moteur des consommateurs. Cette combinaison des infrastructures et des terminaux adéquats ouvre
la voie à un développement de l’Internet des objets qui va encore accroitre le nombre de données. IDC prévoit la connexion de 212 milliards de terminaux pour 2020. De la même façon, les
communications de machine à machine (M2M) sont en augmentation constante du fait de la baisse des coûts, d'une couverture améliorée, d'une offre de technologies radio plus
pertinentes et d’un nombre croissant d’applications. SAP prévoit plus de 2 milliards de terminaux connectés pour 2021 contre seulement 200 millions en 2013. En valeur, le marché des
mégadonnées estimé par Transparent Market Research à 6,3 milliards de dollars en 2012, devrait atteindre 8,9 milliards en 2014 pour s’élever à 48,3 milliards en 2018. IDC indique 16,1
milliards de dollars pour cette même année 20147. DES CONTOURS INCERTAINS Il reste à se demander à quoi renvoient ces chiffres et quels processus ils recouvrent. La confusion règne le plus
souvent en matière de définition. Malgré la pléthore de rapports en la matière, > il n’existe pas de définition reconnue des Big Data il n’existe pas de définition commune des _Big Data
_reconnue sur le plan international, pas plus que de définition opérationnelle qui servirait à comprendre les développements des marchés, les contours du secteur et la nature des activités
qui s'y déroulent. Confusion qui pourrait bien être voulue, car le flou renvoie souvent à des stratégies de vendeurs, comme le note perfidement Tim Harford. On peut faire remonter la
notion de _Big Data_ à un rapport du Meta Group de 2001 qui identifiait trois dimensions de la croissance des données, les 3V : le volume8, la vélocité9 et la variété10. Sont venus s’ajouter
trois autres V, la véracité11, la valeur et la visualisation, ainsi que la complexité12. Les processus liés aux _Big Data_ renvoient à l’extraction (« _data mining_ ») et au traitement d’un
volume très important de données afin de mieux comprendre le comportement du consommateur, de gérer les chaînes de production ainsi que de nombreux autres aspects de l’activité économique.
La chaîne de la valeur des _Big Data_ comprend l’acquisition de données (structurées ou non), l’analyse, la conservation, le stockage et l'utilisation de ces données à des fins diverses
: prévision, simulation, exploration, visualisation, modélisation. Les composants de base sont les logiciels (de loin le plus important selon IDC), le matériel et le stockage. De nouveaux
outils sont apparus pour extraire, charger et transformer les données, et de nouvelles technologies telles Apache Hadoop13et NoSql sont au cœur du traitement. INFLATION VERBALE OU RÉALITÉ
ÉCONOMIQUE? Depuis 2001, de nombreux rapports, émanant de sociétés de conseil pour la plupart, se sont succédé pour enjoindre aux « naïfs » d’ouvrir les yeux face au phénomène des _Big
Data_. Toutefois, le rapport de McKinsey de 2011 restait prudent, se contentant de fournir des exemples d’applications pour quelques secteurs alors impliqués. Toutefois, il notait déjà que
tous les secteurs industriels n’étaient pas égaux face aux _Big Data_. Le rapport indiquait que les « suspects habituels » (fabricants de produits électroniques et acteurs du traitement de
l’information) étaient les plus à même de bénéficier de manière substantielle de l’accès à de vastes quantités de données, ainsi des sociétés du monde de l’internet qui récoltent des masses
de données. En revanche, des secteurs tels que la construction, l’éducation et les arts et loisirs donnaient des signes de productivité négative ce qui révélait la présence de barrières
systémiques jouant contre l'accroissement de la productivité. De la même façon le cabinet IDC14, notait que les bénéfices escomptés n’étaient pas toujours clairs. La société indiquait
notamment qu’en 2013 environ 5 % de la masse des données avait une utilité, même s’il prévoyait un doublement pour 2020. La pénétration du M2M serait de l’ordre de 2 % des abonnements aux
réseaux dont on mesure le trafic, soit environ 0.1 % du trafic de données mobile. De plus, selon le rapport SAS 2013, la plupart des organisations n’ont pas développé, mis en place, ni
exécuté une quelconque stratégie concernant les mégadonnées. Rien d’étonnant alors à ce que les sociétés de conseil insistent sur la nécessité d’acquérir une « mentalité ouverte aux données
». Toutefois, toutes les sociétés ne disposeront pas de spécialistes en la matière, ce qui pourrait constituer a fortiori une barrière à l’entrée non négligeable, exigeant investissements en
formation et en temps. Dans un livre blanc (2014), le monde de l’édition de livre souligne déjà ce point particulièrement sensible pour les petites maisons d’édition, ajoutant que, de
surcroît, l’expertise extérieure est coûteuse. Le livre blanc note que les fournisseurs de services de technologies, tels que Klopotek15 ou Publishing Technology16, privilégient les grands
éditeurs internationaux ou les éditeurs scientifiques et techniques qui ont déjà sauté le pas, même si on peut espérer qu’à terme la baisse des coûts, ou une concurrence accrue, élargiront
leur base de clientèle. En tout état de cause, Macmillan est devenu un partenaire incontournable de sociétés telles que Next Big Book qui offre des services de traitement des _Big Data_. Ces
deux sociétés ont développé un tableau de bord pour identifier et suivre les facteurs ayant le plus d’influence sur les ventes de livres. LA SIGNIFICATION DU PHÉNOMÈNE POUR LES INDUSTRIES
DE CONTENU L'élimination de ces barrières provoquera des tensions et des conflits aussi longtemps que le rapport coût/bénéfice restera incertain, comme ce fut le cas de
l’informatisation des sociétés dans les années 1970. Dès lors, la question qui se pose est de savoir ce que l’on peut faire, en réalité, de ces _Big Data_, car une estimation de la taille
des marchés (volume, valeur) ne suffit pas à rendre compte du phénomène. Les _Big Data_ ont fait irruption au début de ce siècle, portées par des start-ups et des sociétés de l’Internet
telles eBay, Facebook, Google ou LinkedIn, qui se sont construites sur ces mégadonnées, sans avoir à les intégrer à des sources de données plus traditionnelles. On leur doit d’ailleurs une
partie des technologies actuelles dans le domaine: Google a été l’inspirateur de Hadoop, Facebook a développé Cassandra. Ces sociétés ont porté le passage de l’ « analytique 1.0 »17, selon
T. H. Davenport et J.Dyché, à l’ « analytique 2.0 » à partir de 2005 en exploitant leurs données en ligne, pour déboucher sur « l’analytique 3.0 » à partir de 2012, qui ouvre la voie aux
données « prescriptives ». De fait, les « dragons numériques »18 sont intrinsèquement les mieux placés pour tirer parti de cette évolution, des nouvelles formes d’analyse des mégadonnées et
du « _cloud computing_ »; Amazon (AWS) comme Google (Big Query) et Microsoft (Azure) en sont les principaux fournisseurs de services pour tiers. Les nouveaux acteurs du numérique sont aussi
les pionniers de l’extraction des données pour la compilation des recommandations de leurs utilisateurs (Amazon, Netflix, Pandora, Zynga…). Les fournisseurs de contenus créent des unités
pour superviser leurs activités d’analyse, tels Amazon et LinkedIn créant des « centres d’excellence », Netflix centralisant complètement cette activité. La société de distribution de films
a produit sa série à succès _House of Cards_ après analyse des données de sa base de clientèle, soit des millions d’interactions quotidiennes, des millions de recherches, ainsi que des tags
et autres métadonnées. Amazon Publishing repère les œuvres épuisées (AmazonEncore) ou à traduire (AmazonCrossing) à partir des données clients. Google, comme Zynga, s’appuie sur un
département opérationnel, la société de jeux vidéo ayant été la première à relier la conception de jeux à son modèle d’affaires19(jeux gratuits et ventes d’articles virtuels). Spotify s’est
illustrée par ses prévisions pour les Grammy Awards effectuées à partir de l’analyse des flux de données. BIG DATA : DE NOUVEAUX SERVICES POUR LES INDUSTRIES CRÉATIVES De nouvelles sociétés
sont apparues pour offrir leurs services aux industries créatives. Les acteurs de la musique, du cinéma ou de l’édition se voient proposer toutes sortes de services à des fins commerciales.
Next Big Sound, une société lancée en 2009, analyse toutes sortes de données pour l’industrie de la musique (provenant de YouTube et Spotify, de statistiques issues des medias sociaux) afin
de déterminer le meilleur canal de vente. La société indique traiter désormais les données pour plus de 85 % de l’industrie de la musique). Depuis son lancement en 2009, la société a
recueilli plus de 4 années de données sur les réseaux sociaux pour des centaines de milliers d’artistes. Elle établit des corrélations entre les ventes et les chiffres de streaming. Elle
entend contribuer à une redéfinition de la façon dont les musiciens sont découverts, commercialisés et évalués en liant perception, implication et recettes. Sa filiale, Next Big Book suit
auteurs et livres par l’intermédiaire de plusieurs réseaux sociaux, des données de vente et provenant d’événements. Persistent Systems a aidé_ Chennai Express_, l’un des films les plus gros
vendeurs d’entrée du box-office indien, pour sa campagne de marketing, en analysant plus d’un milliard de réactions et un nombre total de plus de 750 000 tweets pendant les 90 jours de cette
campagne. United Talent Agency et Rentrak, société spécialisée dans les mesures d’audience cinéma et TV, ont créé un service _PreAct_ à l’intention de l’industrie du cinéma qui dissèque, à
base d’algorithmes, les données de réseaux sociaux. La société a comme client Sony Entertainment et 20th Century Fox. MÉGADONNÉES OU MÉGA-PROBLÈMES? Les rapports et articles font souvent
preuve de beaucoup d’optimisme en annonçant que le recours aux mégadonnées (_Big Data_) permettra, par exemple, aux cinéastes et à l’industrie cinématographique de prévoir les tendances. Ce
déterminisme informationnel relève d’une conception mécaniste, quoique courante, du rôle de la technologie, qui comporte le risque de ne servir (souvent de façon inadéquate) que la majorité
laissant de côté les minorités. De plus, les statisticiens le savent bien, corrélation ne signifie pas causalité. L’échec de la prévision de la grippe par Google (surestimation de l’ordre de
50 %)21 est là pour nous le rappeler. Les applications les plus fréquemment mises en avant relèvent du marketing (exemple de Criteo22 ou d’une forme ou d’une autre de commerce électronique,
dont on perçoit aisément l’apport potentiel. Ainsi, dans l’exemple cité d’Iron Maiden il s’agit d’une rationalisation de détection de la demande. Toutefois, d’un point de vue plus
qualitatif, dans l’univers des contenus, l’analyse des données peut s’avérer être un cercle vicieux du point de vue de la création et de l’innovation. > La prévision de la demande peut
relever du fantasme Chercher ce qui est le plus populaire en musique comme au cinéma n’est pas forcément la meilleure façon de trouver des œuvres nouvelles et majeures. La prévision de la
demande peut relever du fantasme et, en tout état de cause, les exemples cités, dont celui de Netflix, ne sont que des cas isolés jusqu’à présent. Il reste ainsi à voir si la firme de
distribution peut confirmer ses succès dans la production, ou alors tomber dans les aléas habituels d’une profession marquée par l’incertitude. De fait, la dernière série en date, « Marco
Polo”, ne semble pas susciter le même enthousiasme que _Game of Thrones_ Enfin, des problèmes plus généraux se posent en matière de protection de la vie privée : et de sécurité. Une enquête
de 2012 de l’institut de recherche Pew Internet donnait un verdict pour le moins partagé entre ceux qui décelaient le fort potentiel des _Big Data_ et ceux qui étaient de plus en plus
préoccupés des abus possibles. En ce qui concerne la protection des données, les normes de protection actuelles (anonymisation, consentement individuel et clause de retrait) s’avèrent de
moins en moins appropriées et devront être modifiées notamment pour passer du contrôle des données elles-mêmes à leur utilisation, l’anonymisation des données devenant de plus en plus
délicate. De plus, l’équilibre entre la collecte d’information à des fins sécuritaires et les droits fondamentaux se modifie. La gestion de ces problèmes sociétaux majeurs prendra du temps,
générera des tensions entre promotion de l’innovation et protection des droits. La technologie est autant une partie du problème que de la solution. Pour autant, les problèmes technologiques
ne doivent pas être sous-estimés ni considérés comme réglés ou en voie de l’être. La poursuite de la croissance indéniable de cette valse des zettabytes passe par le déploiement de réseaux
à même de traiter ces données (4G, 5G), de contribuer au développement de nouvelles applications, à la mise en place de nouvelles plateformes, au développement de nouveaux terminaux
mobiles23 à des prix accessibles et d’une connectivité appropriée. Passer au crible une masse d’information est une opération complexe, le stockage de terabytes n’est pas simple non plus. Si
les barrières à l’entrée peuvent se réduire avec la chute des coûts, notamment avec le « cloud computing », l’expertise reste coûteuse et peu ou pas présente dans les industries créatives.
Cette inégalité entre acteurs traditionnels des médias et dragons numériques est source de conflits, comme on l’a vu dans le désaccord qui a opposé Amazon et Hachette. Ce conflit renvoie à
un problème de concurrence, de concentration du marché entre les mains des oligopoles du _Big Data_, de ces « barons des données »24, même si pour l’instant, cette tendance a été
contrecarrée par la vivacité de l’écosystème des start-ups dans le domaine. En résumé, les mégadonnées sont peut-être là, mais la méga-vision manque encore à l’appel. RÉFÉRENCES RÉFÉRENCES:
Haire, A., J.,Mayer-Schönberger, V., (2014), _Big Data - Opportunity or Threat_, ITU GSR discussion paper, 2014. IDC, (2012), _Worldwide Big Data Technology and Services, 2012–2015
Forecast_. Lazer, D, Kennedy, R., King, G., Vespignani, A., “The Parable of Google Flu: Traps in Big Data Analysis”_. Science_, Vol. 343, n°6176, pp. 1203-1205. Mayer-Schönberger, V.,
Cukier, K., (2013), _A Revolution That Will Transform How We Live, Work, and Think. _Eamon Dolan/Houghton Mifflin Harcourt. -- Crédits photos Neerav Bhatt / Flickr * 1Terme officialisé en
France par la Commission générale de terminologie et de néologie (Informatique), Journal officiel du 22 août 2014 : « données structurées ou non dont le très grand volume requiert des outils
d’analyse adaptés ». * 2Il convient d’être prudent avec ces chiffres, de ne les prendre que comme indicatifs de tendances. * 3ExaByte, 1018 bytes, GigaByte, 109 bytes, MegaByte, 106 bytes,
PetaByte: 1015 bytes, Zettabytes 1021bytes. * 4Mayer-Schönberger, V., Cukier, K., (2013), A Revolution That Will Transform How We Live, Work, and Think. Eamon Dolan/Houghton Mifflin
Harcourt. * 5Émanant certes du monde physique mais numérisées * 6Instagram indique qu’à partir de sa base de clientèle de 300 millions, 70 millions de photos et de vidéos sont échangés
quotidiennement. * 7Press, G. (2013),“$16.1 Billion Big Data Market: 2014 Predictions From IDC And IIA * 8Quantité de données : petabytes ou plus. * 9Vitesse d’entrée et de sortie pour la
collecte et l’analyse en temps réel. * 10Étendue des types de données, formats et services, diversité des procédés de collecte * 11 * 12Problèmes liés au couplage, au nettoyage et à
l’édition des données. * 13Du nom de l’ours en peluche jaune du fils du fondateur. Le Guide du Big Data. 2014-2015 donne un historique de la société : pp.24-28. * 14IDC, (2012), Worldwide
Big Data Technology and Services, 2012–2015 Forecast. * 15La société se présente comme le premier fournisseur mondial de progiciels et de services à plus de 350 maisons. * 16Fournit des
services de contenus à plus de 400 éditeurs de par le monde dont HarperCollins, McGraw-Hill, Macmillan, Elsevier, Springer, Sage, Oxford University Press, BMJ Group, Brill, United Nations,
American Institute of Physics, American Society for Microbiology, BioOne and Bloomsbury Publishing. * 17« analytics » : découverte et transmission de schémas significatifs à travers
l’analyse des données. * 18Atelier Paribas, (2013), Big data, big culture? The Growing Power of the Data and its Outlook for the Economy of Culture. * 19Les animaux de la première version de
Farmville n’étaient que décoratifs, l’analyse des données à repéré leur utilisation par les joueurs ainsi que leur propension à payer à cette fin, ce qui conduira à Farmville 2.0. * 20Le
New York Times a annoncé en février 2014 l’embauche de son premier « chief data scientist » . * 21Lazer, D, Kennedy, R., King, G., Vespignani, A., “The Parable of Google Flu: Traps in Big
Data Analysis”. Science, Vol. 343, n°6176, pp. 1203-1205 * 22Start-up française à succès fréquemment citée. La société offre de la publicité à la performance, pour tous les canaux de vente à
travers un moteur de prédiction et de recommandation qui permet de traiter une grande quantité de données d'intention d'achat en temps réel afin d'identifier les acheteurs et
de générer des publicités dynamiques personnalisées pour chaque consommateur. * 23Dotés de batterie durant plus longtemps afin de traiter les données. * 24Haire, A, J.,Mayer-Schönberger,
V., (2014), Big Data - Opportunity or Threat, ITU GSR discussion paper, 2014.