Avec le Big Data, on assiste à une accumulation de mégadonnées. Ces jeux de données ne sont pas une information publique. C’est là qu’intervient l’open data permettant le partage des données accessibles.


Qu’est-ce qu’une donnée ouverte (open data) ?


Avec l’open data, l’accès aux données est facilité. Ces données numériques deviennent ainsi des données publiques qui peuvent être consultées en accès-libre. Leur accessibilité rend leur utilisation possible par des particuliers ou des entreprises, par le biais de plateformes telles que data.gouv.fr ou wikidata. En fonction de la licence, un partage des données sans restriction peut être réalisé. L’utilisation de ces données numériques est également libre. Il s’agit donc de bases de données considérables qui sont mises à la disposition des utilisateurs. Ces mégadonnées ne sont ici plus simplement emmagasinées mais elles sont surtout disponibles et donc réutilisables.

La démocratisation des informations est donc au cœur de l’open data, dans la mesure où la donnée ouverte est consultable par tous. C’est l’occasion de disposer d’une information publique dont la mise en commun permet une collaboration de manière à résoudre des problèmes complexes à grand niveau. Ces données ouvertes proviennent de tout un ensemble de sources de données, que ce soient les réseaux sociaux, les publications scientifiques ou les informations collectées par les administrations dans le cadre de leur mission de service public. Pour en savoir plus sur le sujet, de nombreux évènements sont mis en place afin d’expliquer tous les rouages d’un tel concept.


Quels sont les points de complémentarité entre ces deux technologies ?


Par nature, Big Data et open data sont deux technologies différentes. La première désigne la collecte des données massives et la seconde la mise à disposition de celles-ci en accès-libre. Les deux cumulées offrent une vision plus globale d’une information, notamment en termes de compréhension et de visibilité. Il est ainsi possible de combiner des données géographiques disponibles avec des données accessibles de façon à cartographier les résultats. Il est intéressant de pouvoir conjuguer les points forts des deux outils.

La complémentarité est évidente entre un flot de données massives inexploitées en l’état et le potentiel d’analyse proposé par la data science. L’accès aux données permet ainsi de créer des modèles, que ce soit en entreprise ou dans le secteur public. L’observation des comportements à partir de données géographiques rend ainsi possible la détection de tendances. On peut notamment obtenir des prévisions sur la fréquentation d’un lieu, l’importance du trafic, etc. La data science mise en œuvre élargit donc le champ d’utilisation de multiples sources de données. Les métadonnées permettent ici de décrire les données et d’indiquer comment elles ont été produites. Ces métadonnées sont donc des éléments indispensables pour qu’elles puissent être réutilisées.


Une combinaison efficace de données


La combinaison des bases de données de toute origine et de l’open data est d’une puissance tout à fait nouvelle. La mise en lien de données multiples et la confrontation des informations qu’elles apportent permet d’affiner très significativement l’analyse qui en est faite. Dans certains domaines tels que la médecine, l’enjeu est par exemple de pouvoir porter des diagnostics plus rapidement en fonction des résultats de telle ou telle analyse médicale. Il est alors indispensable de pouvoir gommer les éléments privés contenus dans les données. La propriété intellectuelle fait ici partie des points qu’il est nécessaire de maîtriser pour ceux qui donnent accès aux informations. On passe aussi par des processus d’anonymisation. Un tel procédé peut même être efficace dans un domaine où on ne l’attend pas : les jeux vidéos par exemple !

Conjuguer Big Data et open data présente de nombreux avantages. Les données publiques servent ainsi de matière à une observation pointue en fonction des besoins. Un jeu de données peut permettre d’établir des cartographies, des plans, une étude de données IGN, des statistiques associées aux communes, des prévisions météorologiques, le trafic routier, etc. L’analyse des risques au niveau de l’environnement fait aussi partie des bénéfices offerts par ces technologies mises en relation. Ces quelques exemples sont une toute petite partie des domaines d’application dans lesquels elles se manifestent.

L’open data est régi par des licences ouvertes qui indiquent la paternité des données. Elles garantissent que l’on puisse les modifier et les utiliser. En revanche, pour protéger la propriété intellectuelle, d’autres licences sont mises en place.