En vedette - Les «big data» à votre service
Le concept de «données ouvertes» implique que certaines données doivent être librement accessibles à quiconque souhaite les utiliser ou les republier, sans qu'aucune restriction ne soit imposée par des droits d'auteur, brevets ou autres systèmes de contrôle. La notion de données ouvertes s'inspire des tendances du logiciel open source (non-propriétaire) et de l'accès libre (publication universitaire), et équivaut dans son ensemble au déplacement, à l'utilisation, à la réutilisation ou à la distribution électronique des données, sans contrainte. Un aspect important de ce mouvement de données massives est l'utilisation des informations non personnelles partagées par les citoyens avec leurs administrations et services publics, à l'avantage de la société dans son ensemble. Les données publiques ouvertes représentent une ressource colossale, jusqu'ici inexploitée. «Le gouvernement collecte d'immenses quantités de données de haute qualité dans le cadre de ses activités quotidiennes courantes. Le fait de rendre ces données accessibles pourrait se traduire par de grands avantages», indique le site web Open Government Data (OGD), géré par l'Open Government Working Group. Selon Rufus Pollock de l'Open Knowledge Foundation, le libre accès aux données permet aux entreprises, aux particuliers et aux organismes à but non lucratif de concevoir des applications et des services utiles, tout en encourageant la démocratie, la participation de l'état, la transparence et la responsabilité. «Pourquoi ne pas ouvrir l'accès à des données déjà collectées et prêtes?», demande-t-il. Mais avant que les citoyens puissent bénéficier des nombreux avantages tirés des données (publiques) ouvertes, il convient de résoudre de nombreuses difficultés aux niveaux juridique, technique, social et commercial. La voie à suivre… Selon les rapports de la Future Internet Assembly (FIA) organisée récemment à Aalborg, au Danemark, Denmark, «des tendances comme les «big data» et «l'Internet des objets» (IdO) y compris les «utilisateurs utilisés comme capteurs», montrent comment les citoyens, les entrepreneurs et les innovateurs peuvent développer de nouveaux services et applications au bénéfice des villes intelligentes». À titre d'exemples, Reinhard Scholl, représentant de la FIA et membre de l'International Telecommunication Union (ITU), cite l'initiative Open Data de New York, le programme Smart City d'Amsterdam, l'initiative Open Data Gencat de la Catalogne et le projet Open Cities de la Commission. Concernant les meilleures pratiques venues des États-Unis, M. Scholl citait l'expérience «Track Trash» du MIT, qui utilise des capteurs pour surveiller la destination des ordures. Il a également indiqué qu'à Oakland, un service de localisation du crime, basé sur les données, aide la ville à renforcer la sécurité. Selon la «DG Connect» de la Commission européenne, les informations du secteur public (ISP) constituent la source plus importante d'informations d'Europe, avec des cartes numériques et des données météorologiques, juridiques, routières, financières, économiques, etc. Pour la plupart, ces données brutes pourraient être réutilisées ou intégrées à de nouveaux produits et services et être exploitées au quotidien, par exemple dans le cadre de systèmes de navigation routière, de prévisions météorologiques et de services financiers ou d'assurance. La réutilisation des informations du secteur public consiste à les exploiter de façon innovante en leur ajoutant de la valeur, en combinant des informations de différentes sources et en mettant au point des arrangements spéciaux (mash-ups) et de nouvelles applications à caractère commercial ou non. Les informations du secteur public présentent un immense potentiel économique, comme l'indique la Commission sur sa page dédiée aux ISP Une recherche européenne qui sait s'adapter au changement La recherche s'est également adaptée aux changements rapides en matière de collecte, de traitement et de gestion des données. Des projets financés dans le cadre des activités «Technologies for information management» du 7e PC, sous le thème «Content and knowledge» ciblent plusieurs domaines de recherche couvrant les contenus en ligne, les médias interactifs et sociaux, le raisonnement et l'exploitation des informations, ainsi que la découverte et la gestion des connaissances. Le projet Weknowit («Emerging, collective intelligence for personal, organisational and social use»), financé par l'UE, a conçu une plateforme capable de transformer le problème posé par les immenses quantités de contenus générés par les utilisateurs en une nouvelle «intelligence collective», associée à diverses utilisations allant de la gestion des urgences à l'amélioration du tourisme urbain. Le projet a déposé plusieurs demandes de brevets et débouchera sur la commercialisation ou la diffusion auprès du public de plusieurs produits et résultats. «Grâce à une large gamme d'outils, la plateforme Weknowit transforme de grandes quantités de données peu structurées en sujets, entités, points d'intérêt, connexions sociales et événements significatifs», déclare Yiannis Kompatsiaris, coordinateur du projet et membre de l'Informatics and Telematics Institute (CERTH-ITI), Multimedia Knowledge Lab, en Grèce. Pour y parvenir, les partenaires ont mis au point une application de logiciel intermédiaire qui s'installe sur des serveurs pour traiter les données entrantes et les acheminer efficacement. Ils ont également développé plusieurs outils dans le cadre des études de cas du projet, comme un scénario d'intervention d'urgence et un scénario de groupe social grand public, ainsi qu'une douzaine d'autres outils pour certaines tâches. En parallèle, Yahoo! et l'université de Coblence, partenaires de CERTH-ITI, collaborent aux aspects temps-réel de l'extraction des informations des médias sociaux et à la recherche d'utilisations dans le domaine des actualités et pour des événements de grande envergure tels que des festivals de films. Des données ouvertes au profit des sciences Une meilleure utilisation des données structurées bénéficie plus directement à la recherche scientifique, grâce aux avancées réalisées dans l'informatique en nuage, les grilles informatiques en réseau ou les superordinateurs. L'investissement européen dans l'e-infrastructure, qui exploite la capacité «inutilisée» des ordinateurs répartis dans le monde entier, permet aux chercheurs de traiter et d'analyser des ensembles de données plus vastes que jamais, et de répondre à des questions scientifiques majeures allant de la physique quantique jusqu'à la modélisation du changement climatique. Ainsi, des biologistes travaillant sur un problème donné pourraient créer un «environnement virtuel de recherche» (EVR) pour collaborer via une grille informatique et par exemple traiter les informations d'une source située en Estonie puis de les analyser avec les logiciels d'exploration des données d'une autre source, située au Portugal. Le projet D4Science-II («Data infrastructures ecosystem for science»), financé par l'UE, va encore plus loin en créant un cadre interopérable pour les e-infrastructures, proposant un environnement pour partager les ressources de données, de calcul et de logiciels appartenant à des e-infrastructures différentes, quels qu'en soient l'emplacement, la technologie, le format, la langue, le protocole ou le déroulement des activités. Cet environnement a soutenu des EVR dans des domaines tels que la physique des hautes énergies, la biodiversité, la pêche et l'aquaculture. Il a ouvert de nouveaux espaces de recherche entre eux et il est en cours d'extension à de nouveaux domaines. Le projet D4Science-II a ainsi soutenu l'étude Aquamaps de cartographie des espèces marines. Aquamaps aide les scientifiques à recouper les informations sur la biodiversité marine et les données enregistrées sur les prises de poisson, pour obtenir une vision plus claire des lieux où les stocks de poissons sont les plus en danger. Cet exercice de traitement des données et de calcul à grande échelle a été rendu possible grâce au financement européen de l'e-infrastructure et aux initiatives européennes de recherche et de réglementation relatives aux données ouvertes. «La coopération entre les e-infrastructures ouvre des possibilités plus nombreuses et de nouveaux domaines de recherche. Par exemple, nous pouvons analyser des données scientifiques et les comparer aux statistiques économiques pour bénéficier d'une perspective inédite», déclare Donatella Castelli, partenaire D4Science-II de l'Istituto di scienza e tecnologie dell'informazione «Alessandro Faedo» du Consiglio Nazionale delle Ricerche d'Italie. Publication en accès libre Alors que les organisations publiques ouvrent leurs données aux chercheurs, il pourrait paraître ironique que les résultats de ces recherches restent inaccessibles ou soient publiés dans de coûteuses revues. Pour promouvoir la publication en ligne en libre accès, notamment pour la recherche financée par des fonds publics, la Commission européenne l'a rendue obligatoire pour environ 20% des projets du 7e PC. En outre, lorsque des projets publient des résultats dans plusieurs revues classiques ainsi que dans des publications en accès libre, les connaissances sont fragmentées et il est plus difficile d'évaluer le succès d'un projet. Pour y remédier et rendre les résultats plus accessibles à tous, la Commission a financé le projet OpenAIRE («Open access infrastructure for research in Europe»). L'équipe d'OpenAIRE a rapidement conclu qu'une amélioration de la technologie ne suffirait pas à remédier à la fragmentation de la recherche et des données «Une part importante du projet consiste à promouvoir l'accès libre auprès de la communauté du 7e PC», déclare Natalia Manola, responsable du projet, «pour encourager la publication en accès libre afin que les projets contribuent pleinement à l'infrastructure européenne de la connaissance» Avec l'aide de projets comme OpenAIRE et son complément OpenAIREplus, la publication en accès libre pourrait dynamiser l'économie européenne et l'innovation, selon Mme Manola. Pour l'employé d'une petite entreprise ou un enseignant, l'abonnement à certaines revues de haut niveau peut être prohibitif, verrouillant de précieux résultats de recherche dans des silos. «Avec l'accès ouvert, n'importe qui peut utiliser les résultats comme il le souhaite, ce qui représente la meilleure façon d'exploiter la recherche financée par des fonds publics», conclut-elle. Dans ce contexte, l'Organisation européenne pour la recherche nucléaire (le CERN) a conduit le projet SOAP («Study of open access publishing»), financé par l'UE, dont l'objectif est de rechercher des modèles métier durables pour promouvoir la publication universitaire. L'équipe a documenté plus de 4000 revues et déterminé que sur les 1,5 million d'articles scientifiques publiés chaque année dans le monde, environ 8% (120\;000) le sont en accès libre. Elle en a conclu que le modèle «d'accès libre hybride» (basé partiellement sur des abonnements) est le plus viable, en particulier pour les sciences et la recherche. «En perfectionnant des modèles viables d'accès libre, les chercheurs européens et le monde entier bénéficieront de l'échange de connaissances et de l'accès à une ressource très vaste», indique un rapport CORDIS, («Des montagnes d'informations de recherche en accès libre»), sur le projet SOAP. La langue des données Si l'ouverture des données publiques, la combinaison des ensembles de données et la publication des résultats en libre accès présentent tous des avantages pour la science, la traduction en valeur monétaire des données structurées s'avère plus complexe. Certains projets de l'UE examinent cet aspect. Le projet CODE («Commercially empowered linked open data ecosystems in research»), financé par l'UE et dirigé par une PME, examine en particulier les aspects des données massives liés aux contenus numériques et aux langues. Les «données ouvertes liées» ou LOD, présentent un énorme potentiel et devraient constituer, selon l'équipe du projet CODE, la prochaine étape de la révolution Internet. Ce potentiel reste toutefois largement inexploité face à l'absence de stratégies d'utilisation et de monétisation. Le projet CODE, qui a été lancé cette année, met au point un solide environnement pour commercialiser les données ouvertes liées (LOD) en fonction d'une chaîne valeur-création entre rôles des traditionnels (fournisseur et utilisateur de données) ou non (analyste de données) des marchés de données. De premiers résultats prometteurs. Vu que nous passons de plus en plus de temps en ligne, les partenaires du projet Limosine («Linguistically motivated semantic aggregation engines»), financé par l'UE, cherchent à exploiter les systèmes de recherche linguistique et sémantique pour améliorer l'utilisation en ligne. «Des informations sont accumulées dans le cadre de nombreuses activités, notamment des données scientifiques, faits, contenus personnels, opinions et tendances», fait remarquer l'équipe du projet. Grâce au système d'exploration d'opinions multilingues en ligne Limosine, Internet pourra se détacher de l'actuelle recherche centrée sur les documents pour s'orienter vers une agrégation sémantique plus large. Autrement dit, il sera possible d'obtenir plus rapidement des résultats de recherche plus précis grâce à des outils plus intelligents qui comprennent mieux les requêtes et anticipent les attentes. À titre d'exemple, avec les outils actuels, si vous faites une recherche sur «dog's breakfast», les résultats affichés conduisent à des sites faisant référence à un film canadien ou relatifs à la langue anglaise, tandis qu'une personne non anglophone pourra simplement rechercher, de façon plus littérale, une façon plus saine de nourrir son chien. Les outils de recherche sémantique sont capables de placer la requête dans un contexte en fonction des précédentes recherches réalisées ou d'autres indices rassemblés. Dans le même temps, des projets tels que LIVE+GOV associent «la détection, l'exploration et l'augmentation de la réalité pour favoriser le dialogue mobile entre citoyens et gouvernement». Le projet développe une solution de «m-government» grâce à laquelle les citoyens peuvent exprimer leurs besoins au gouvernement à l'aide des systèmes de détection mobile déjà présents sur les smart phones, en sus des formats actuels de participation en ligne via les dispositifs mobiles. Un nouveau filon pour l'économie européenne Pour finir, les données publiques générées par toutes les administrations européennes devraient devenir automatiquement réutilisables. Ceci stimulera l'innovation et l'esprit d'entreprise qui, à leur tour, se traduiront par de nouveaux services et applications fixes et mobiles. «De la même manière que l'on qualifiait le pétrole d'or noir, les données acquièrent à leur tour une importance et une valeur incontournable à l'heure du numérique», avait souligné Neelie Kroes, vice-présidente de la Commission européenne et responsable de la stratégie numérique, lors du lancement de la stratégie Open Data de l'UE en décembre. Cette stratégie de données ouvertes est à la base de la nouvelle directive sur les informations du secteur public actuellement à l'étude par le Conseil européen et le Parlement. Les informations du secteur public génèrent déjà quelques 32 milliards d'euros d'activité économique chaque année. La nouvelle stratégie devrait plus que doubler ce chiffre, pour atteindre environ 70 milliards d'euros, une somme qui représente, selon Mme Kroes «un coup d'accélérateur dont notre économie a cruellement besoin». Elle a félicité le Royaume-Uni, le Danemark et la France pour leurs initiatives de données ouvertes et déclaré que la nouvelle stratégie «révolutionnera» le partage des données entre les institutions de l'UE et la plupart des autorités publiques européennes. Mme Kroes a appelé les gouvernements à ne pas attendre que la loi associée à cette stratégie soit votée: «Vous pouvez dès à présent donner accès à vos données et générer du chiffre d'affaires et des emplois, et même faire des économies grâce aux informations et décisions qui découleront de ces données.» Elle a encouragé le secteur privé à ouvrir l'accès à ses données pour donner le jour à de nouveaux services. «Les données sont une vraie mine d'or…exploitons-les sans tarder!» a-t-elle insisté. --- Les projets mentionnés dans ce rapport sont financés via le septième programme-cadre pour la recherche (7e PC) de l'UE et d'autres initiatives européennes. Liens utiles: - Europe 2020 - FIA - programme des TIC du 7e PC - 7e PC sur CORDIS - page Web sur les informations du secteur public sur Europa - Open Government Data - NTC Open Data - Amsterdam Smart City - Open Data Gencat - Open Cities - Science Commons - Weknowit - CODE - Limosine - OpenAIRE - SOAP - D4Science-II - LIVE+Gov Articles connexes: - Data mining 3.0 : de l'information à l' «intelligence collective» - un accès libre avec la diffusion publique des résultats des projets de l'UE - Des montagnes d'informations de recherche en accès libre - En vedette: sauvegarder les écosystèmes avec des données et des écosystèmes d'infrastructures ouvertes électroniques - Data is new gold, discours de Neelie Kroes sur l'Open Data Strategy, prononcé en décembre 2011