Bien comprendre la nature de l'information

Nous vivons dans un monde où l'information est partout, tout le temps et où il est impossible de s'en passer ou de lui échapper. Nous en sommes gavés et nous en mettons d'énormes quantités à disposition. Mais qu'est-ce que c'est au juste que l'information ? Il est peut être plus simple de dire d'abord ce qu'elle n'est pas pour comprendre ensuite ce qu'elle est et quels usages on peut en faire.



Ce que l'information n'est pas



L'information n'est pas une donnée. Confondre les deux, c'est un peu comme confondre une batterie et l'énergie qu'elle contient (cette image n'est pas parfaite mais convient bien je trouve pour ce point précis). Ce qu'il faut donc garder à l'esprit, c'est que l'information est quelque part contenue dans la donnée. La donnée peut contenir de l'information ou non, tout comme une batterie peut contenir de l'énergie ou non.

L'information n'est pas contenue indéfiniment dans la donnée. Une donnée ne contient une information que de manière temporaire. Dès lors que l'information nous est parvenue, alors la donnée ne contient plus d'information utile de notre point de vue. La donnée n'a pas changé mais son contenu dorénavant est connu. Typiquement, lorsqu'on veut savoir quel temps il va faire, on consulte le bulletin météo correspondant. Une fois que l'on a reçu l'information en question, il n'y a pas d'intérêt à consulter le même bulletin météo peu de temps après puisqu'il est peu probable que les données aient changé. Ce bulletin ne contient alors pour nous qu'une information vraisemblablement périmée et donc inutile. J'oppose ici information utile et information périmée. Si l'information est périmée, c'est comme s'il n'y avait pas d'information du tout.

L'information n'est pas perçue de manière universelle. En fait, l'information contenue dans une donnée ne dépend pas tant de la donnée que de celui qui l'observe. L'observateur est le seul à savoir ce qu'il recherche en analysant une donnée. Deux observateurs différents face à une même donnée vont possiblement retirer des informations différentes de cette donnée. Vous allez par exemple au restaurant avec des amis et êtes face au menu. Le menu est cette donnée que vous et vos amis, les différents observateurs, allez analyser. Certains chercherons parmi les plats proposés ceux dont le goût leur convient le plus, d'autres regarderons les prix en fonction des menus, d'autres enfin rechercheront les plats les moins caloriques ou toute autre chose encore. Fort des informations qu'il aura collecté, chacun fera ensuite des choix différents.

L'information n'a pas de forme particulière. Une même information peut être représentée sous forme analogique ou numérique. Qu'elle soit stockée sur une bande magnétique, sur un DVD ou une feuille de papier, cela ne change rien. La représentation retenu est fixée par le récepteur en fonction de ce qu'il espère retirer comme information. Une antenne reçoit indifféremment tous les signaux analogiques dans sa bande passante. Le rapport signal sur bruit est quelque chose que l'on peut représenter de manière analogique. Le signal reçu bien qu'étant lui même une grandeur physique, doit être représenté sous sa forme numérique pour être exploitable (si bien évidemment c'est un signal numérique qui est traité par l'émetteur, cela va de soit).

L'information n'est pas automatiquement lié à la libération d'une donnée. La non réception d'une donnée peut être une source d'information intéressante pour un récepteur. Un exemple tout bête, j'ai pensé il y a quelque temps (avant de me raviser) à ouvrir un service que j'utilise sur mon serveur uniquement aux heures et aux jours où je l'utilise. Bonne idée dans le sens où ce service ne serait visible qu'à certains moments et inaccessible autrement. Un récepteur autre que moi et constatant cela pourrait arriver à la conclusion que j'ai besoin d'accéder à un service depuis l'extérieur à certains moments de la journée. La bonne idée l'est alors un peu moins car le récepteur peut sans trop se tromper en déduire certaines de mes habitudes et ce, sans se lever de son fauteuil.

Qu'est ce que ça implique ?



Les erreurs d'appréciation de l’émetteur peuvent être tout à fait positives dans de nombreux cas. L'exemple le plus flagrant est celui de l'open data. Les données brutes (ou mieux encore, de flux de données) sont mises à disposition sans présupposer de l'usage qui peut en être fait. En ne présupposant volontairement pas de l'usage, on ne présuppose en fait pas de la quantité et de la nature des informations contenues dans ces données. Cela peut conduire à des traitements tout à fait intéressants et novateurs car d'autres trouvent de l'information et l'exploite là où on ne l'aurait parfois pas imaginé.

Il est par contre plus problématique, lorsqu'on libère une donnée, de donner accès à des informations sensibles sans s'en rendre compte. Vous annoncez par exemple sur votre compte de réseau social les dates durant lesquelles vous serez en congés dans ce magnifique camping au bord de la mer. La donnée est anodine et forcement, vous considérez qu'elle peut être publiée sans restrictions particulières. Pour vous l’émetteur, il n'y a pas d'information dans cette donnée. Vous souhaitez diffuser cette donnée pour faire savoir à vos contacts (les récepteurs) que vous serez à tel endroit durant telle période. C'est l'information que vous pensez que l'on peut retirer de votre donnée. Vous oublier cependant qu'une autre information peut être extraite de cette donnée : vous ne serez pas chez vous durant une période donnée. Cela posera un problème si l'un des récepteurs est mal intentionné et souhaite passer chez vous à l'improviste sans vous prévenir.

Il faut aussi avoir conscience qu'une donnée libérée peut être recoupée avec d'autres données libérées au préalable. Ces autres données peuvent être publique par ailleurs ça ne change rien sur le principe. Individuellement, chacune de ces données peut contenir de l'information pour un récepteur mais, et c'est ce qui est intéressant, la combinaison de ces données peut amener déduire d'autres informations. Les jeux de logigramme mettent ce principe en œuvre et avec quelques assertions simples, il est possible de retrouver un ensemble complet d'associations. Dans la vraie vie, avec un peu de logique, un récepteur ayant accès à des données multiples relative à un même objet ou à une même personne peut lui aussi dégager de l'information là où il n'y en a pas en apparence, surtout si on examine les données individuellement. C'est le principe de l'une des application que j'ai commencé à développer, grâce à laquelle j'espère visualiser l'actualité dominante sur une ou plusieurs sources de données et sur une période précise. C'est aussi de cette manière que les gros silos de données (GAFAM et les autres) profilent leurs visiteurs. La combinaison des jeux de données n'a pas de limite, pas plus que la quantité d'information que l'on peut en retirer.

Protéger les gens d'eux-mêmes



Ce billet n'est pas innocent de ma part. L'information est partout et pour autant, peu ont vraiment conscience de ce que ce terme recouvre. Mécaniquement, cela peut conduire à des erreurs d'appréciation au moment de la libération d'une donnée ou lorsque l'on doit estimer la valeur de cette donnée. J'ai volontairement omis dans ce qui précède le cas où la libération de donnée se fait à notre l'insu puisque c'est un autre problème. C'est la libération volontaire de données quand elle n'est pas maitrisée sur internet qui m'intéresse ici.

Rien n'empêche et n'empêchera cela de perdurer. Toutefois, la gestion de nos données et par ricochet des informations que l'on peut en extraire est l'un des plus gros enjeu de notre siècle. L'évolution des lois informatique et libertés en France illustre bien cela. Lorsque la première loi a été votée en 1978, elle visait à protéger les citoyens des abus d'un état qui aurait pu être trop intrusif. Durant les années 90, on commencé à protéger les citoyens aussi des abus dont ils pourraient être victime de la part d'entreprises privées. Aujourd'hui, les dernières modifications des lois informatique et libertés visent à protéger les individus d'eux-mêmes.

Il y a certainement plusieurs moyens pour protéger les gens d'eux-mêmes, ou mieux, qu'ils sachent se protéger tout seul d'eux-mêmes. Je continue à dire et à redire tout le bien que je pense de la centralisation du net, en espérant être lu au delà du cercle de ceux qui ne sont plus à informer (et pour lesquels ce que je raconte est périmé depuis des lustres). Il y a peut être des outils à créer, comme par exemple un moyen local qui ne soit pas couplé à un service en ligne et permettant d'analyser en temps réel l'ensemble des recoupements possibles avec les jeux de données que l'on libère (en ce moment, mon esprit divague en ce sens). Quoi qu'il en soit, peu importe la solution pour répondre à ce problème, elle doit être de mon point de vue située au plus proche de la source pour être efficace.
Vus : 361
Publié par Frédéric Micout : 30