Similarités entre la bioinformatique et les humanités digitales (ou numériques)

Cliquez sur l'image

Cliquez sur l’image

La semaine dernière mon campus a hébergé la conférence internationale des humanités digitales (en anglais digital humanities ; en français à Lausanne humanités digitales ; en français en France humanités numériques) (blogs à voison sur hypothese.org). L’occasion de traiter un sujet dont je voulais parler depuis longtemps, les similarités entre humanités digitales et bioinformatique.

En bref, la bioinformatique est aux sciences du vivant ce que les humanités digitales sont aux sciences humaines.

Mais encore ? Eh bien dans les deux cas nous avons la nécessité de traiter intelligemment (et automatiquement si possible) des quantités rapidement croissantes de données, qui ont la particularité d’avoir été générées par des gens qui ne savaient pas qu’on aurait à les traiter informatiquement, et de travailler avec une communauté qui n’a pas une culture quantitative ni informatique très forte. Le biologiste typique aimait les sciences mais pas les maths, et l’humaniste typique n’en parlons pas.

Cela fait contraste avec d’autres domaines, comme la physique, ou certes il y a beaucoup de données, un besoin fort d’informatique, mais également une conscience forte de ces nécessités depuis longtemps, et une culture des maths et de l’informatique (la moitié de l’informatique et plus de la moitié des maths ont probablement été inventées en réponse à des défis de la physique), qui font que ceux qui génèrent les données respectent le travail de ceux qui les analysent.

De plus, en physique ou en chimie le cadre théorique est grosso-modo posé depuis longtemps, et donc quand on démarre une grosse expérience on sait ce qu’on cherche. Par contre en biologie ou en sciences humaines, parfois on génère exprès de grandes quantités de données, mais on ne sait pas encore trop quels seront les signaux intéressants, soit on doit traiter un ensemble de résultats acquis au cours du temps par différents laboratoires ou intervenants, pour différentes raisons, avec différents standards et objectifs (exemple dans ce billet).

Suite à discussion avec des collègues des humanités digitales, voici une liste de défis communs aux deux sciences interdisciplinaires :

  • La construction d’ontologies, c’est-à-dire de représentations computationnelles de domaines de connaissances.
  • L’utilisation de ces ontologies, par les spécialistes et par les autres partenaires (biologistes, médecins, littéraires, historiens, etc).
  • La gestion des méta-données, c’est-à-dire qui a collecté quelle information, avec quelles méthodes, à quelle date, avec quels standards, etc etc. Indispensable à l’analyse de données que l’on n’a pas généré soi-même, et à leur ré-utilisation, et souvent négligé voire perçu comme une contrainte inutile par ceux qui génèrent les données.
  • La récupération et la curation de l’information. Très important ! Les méthodes automatiques ont toujours des limites, et donc il faut des personnes dédiées qui collectent, expertisent et annotent les informations. Alors que beaucoup d’aspects sont davantage développés en bioinformatique (qui a une certaine avance historique quand même je pense), la curation est je pense mieux organisée et mieux perçue dans les humanités, et il existe même des masters dédiés.
  • Un sujet proche, la confiance dans les données et dans leur interprétation. Comment reconnaître et coder que certaines informations (résultats d’observations ou d’expériences, témoignages historiques ou manuscripts) soient plus fiables que d’autres ?
  • Last but not least, le défi de la communication entre les geeks et leurs confrères plus traditionnels : utilisabilité des outils, légitimité d’une façon de travailler nouvelle, confiance dans des résultats obtenus de manière peu orthodoxe, difficulté d’être perçu comme collègues et non comme techniciens ou étrangers, etc.

Pour finir, une discussion qui est propre aux humanités est le rôle du multilinguisme dans la communication académique : voir l’excellent blog de Martin Grandjean (aussi billets précédents sur l’enseignement scientifique en anglais ou français par Tom Roud et moi-même). Entre biologistes et informaticiens, on peut au moins être d’accord sur l’usage de l’anglais scientifique. 🙂