La détermination du contenu se produit lorsqu’une personne, un groupe ou un programme décide quelles informations doivent être incluses ou exclues dans un document ou un texte. Il est lié aux concepts entourant la structuration des documents. Il est également lié à la génération de langage naturel et à la linguistique informatique. Chaque domaine d’étude utilise la détermination du contenu pour examiner comment l’information est choisie.
Au moment de réfléchir à ce qu’il faut mettre dans un document ou un texte, le compilateur aura effectué ses recherches ou aura reçu toutes les données disponibles. La détermination du contenu couvre la manière dont ces informations sont réduites dans le document final. Cela se fait en déterminant quel est l’angle ou l’objectif du texte et quelles informations dans le texte sont pertinentes à cet égard.
La deuxième considération de la détermination du contenu est son style. Cela dépend généralement de la nature du public visé. L’intellect et la familiarité du public avec le sujet modifieront la densité lexicale et la complexité de l’information transmise. Les universitaires auront tendance à produire des textes plus denses que les magazines à potins, par exemple. D’autres considérations incluent la taille du format, qu’il s’agisse d’un livre, d’un article ou d’un message texte.
Chaque état de détermination du contenu est effectué par un humain. Il y a le chercheur et l’écrivain, qui sont souvent, mais pas toujours, la même personne, puis le ou les rédacteurs. Chaque niveau a une opinion sur le contenu pertinent par rapport à l’objectif du texte. Les linguistes informaticiens et les ingénieurs informaticiens ont cherché des moyens de reproduire ce système en utilisant des programmes informatiques au lieu de se fier aux humains.
Il existe trois techniques de calcul utilisées par les ordinateurs pour déterminer le contenu. La technique du schéma est basée sur l’examen de textes écrits. Il utilise les textes pré-examinés comme base pour les informations à inclure dans le texte en cours de production. La méthode statistique détermine automatiquement le contenu en fonction d’une multitude de statistiques générales. Le «raisonnement explicite» utilise l’intelligence artificielle (IA) pour examiner et filtrer les informations.
L’objectif global de la détermination du contenu est de comprendre comment les documents sont produits afin qu’ils puissent être reproduits à l’aide d’ordinateurs. Le résultat d’un tel succès sera un ordinateur capable de recevoir des données, de les filtrer et de produire des résumés des informations les plus importantes. L’ordinateur basera ces documents non seulement sur l’information, mais aussi sur les objectifs du texte produit. Dans la veine de la théorie de la salle chinoise, cela peut signifier que l’ordinateur est capable de comprendre les données plutôt que de pouvoir les reproduire et les calculer.