Usenet

De nombreux fournisseurs d’accès à Internet, et de nombreux autres sites Internet, exploitent des serveurs de nouvelles auxquels leurs utilisateurs peuvent accéder. Les FAI qui n’exploitent pas directement leurs propres serveurs proposeront souvent à leurs utilisateurs un compte d’un autre fournisseur qui exploite spécifiquement les flux de nouvelles. Au début, le serveur et le lecteur de nouvelles étaient une seule suite de programmes fonctionnant sur le même système. Aujourd’hui, on utilise un logiciel client lecteur de nouvelles séparé, un programme qui ressemble à un client de messagerie mais qui accède plutôt aux serveurs Usenet.

Tous les FAI ne gèrent pas des serveurs de nouvelles. Un serveur de nouvelles est l’un des services Internet les plus difficiles à administrer en raison de la grande quantité de données impliquées, de la petite base de clients (par rapport au service Internet grand public) et d’un volume disproportionné d’incidents de support client (se plaignant fréquemment d’articles de nouvelles manquants). Certains FAI sous-traitent les opérations d’information à des sites spécialisés, qui donnent généralement l’impression à l’utilisateur que le FAI gère lui-même le serveur. Beaucoup de ces sites proposent un flux d’actualités restreint, avec un nombre limité de groupes de discussion. Sont couramment omis d’un tel fil d’actualité les groupes de discussion en langue étrangère et la hiérarchie alt.binaries, qui transporte en grande partie des logiciels, de la musique, des vidéos et des images, et représente plus de 99 % des données des articles.

Il existe également des fournisseurs Usenet qui offrent un service complet sans restriction aux utilisateurs dont les FAI ne transportent pas de nouvelles, ou qui transportent un flux restreint.

Les lecteurs de nouvellesModification

Les groupes de discussion sont généralement accessibles avec des lecteurs de nouvelles : des applications qui permettent aux utilisateurs de lire et de répondre aux publications dans les groupes de discussion. Ces applications agissent comme des clients vers un ou plusieurs serveurs de nouvelles. Historiquement, Usenet était associé au système d’exploitation Unix développé chez AT&T, mais des lecteurs de nouvelles sont désormais disponibles pour tous les principaux systèmes d’exploitation. Les clients de messagerie modernes ou les « suites de communication » disposent généralement d’un lecteur de nouvelles intégré. Toutefois, ces clients intégrés sont souvent de qualité médiocre par rapport aux lecteurs de nouvelles autonomes et n’appliquent pas correctement les protocoles, normes et conventions Usenet. Beaucoup de ces clients intégrés, par exemple celui du logiciel Outlook Express de Microsoft, ne sont pas appréciés des puristes en raison de leur mauvais comportement.

Avec l’essor du World Wide Web (WWW), les frontaux web (web2news) sont devenus plus courants. Les frontaux web ont abaissé les exigences de la barrière d’entrée technique à celle d’une application et d’aucun compte de serveur NNTP Usenet. De nombreux sites Web offrent désormais des passerelles vers les groupes Usenet, bien que certaines personnes aient commencé à filtrer les messages émis par certaines interfaces Web pour une raison ou une autre. Google Groups est l’une de ces interfaces web et certains navigateurs web peuvent accéder directement à Google Groups via des liens news : protocol.

Groupes de discussion modérés et non modérésModification

Une minorité de groupes de discussion sont modérés, ce qui signifie que les messages soumis par les lecteurs ne sont pas distribués directement sur Usenet, mais sont envoyés par courrier électronique aux modérateurs du groupe de discussion pour approbation. Le modérateur doit recevoir les articles soumis, les examiner et injecter les articles approuvés afin qu’ils puissent être propagés correctement dans le monde entier. Les articles approuvés par un modérateur doivent porter la ligne d’en-tête Approved :. Les modérateurs veillent à ce que les messages que les lecteurs voient dans le groupe de discussion soient conformes à la charte du groupe de discussion, bien qu’ils ne soient pas tenus de suivre ces règles ou directives. Généralement, les modérateurs sont nommés dans la proposition du groupe de discussion, et les changements de modérateurs suivent un plan de succession.

Historiquement, une hiérarchie mod.* existait avant la réorganisation de Usenet. Désormais, les groupes de discussion modérés peuvent apparaître dans n’importe quelle hiérarchie, généralement avec .moderated ajouté au nom du groupe.

Les groupes de discussion Usenet de la hiérarchie Big-8 sont créés par des propositions appelées Request for Discussion, ou RFD. La RFD doit comporter les informations suivantes : nom du groupe de discussion, entrée dans le fichier checkgroups et statut modéré ou non modéré. Si le groupe doit être modéré, il faut indiquer au moins un modérateur avec une adresse électronique valide. Les autres informations utiles, mais non obligatoires, comprennent : une charte, une justification et une politique de modération si le groupe doit être modéré. La discussion sur la proposition de nouveau groupe de discussion suit, et se termine par la décision des membres du conseil de gestion du Big-8, par vote, d’approuver ou de désapprouver le nouveau groupe de discussion.

Les groupes de discussion non modérés constituent la majorité des groupes de discussion Usenet, et les messages soumis par les lecteurs pour les groupes de discussion non modérés sont immédiatement propagés pour que tout le monde puisse les voir. Le filtrage minimal du contenu éditorial et la vitesse de propagation constituent l’un des points essentiels de la communauté Usenet. Une défense peu citée de la propagation est l’annulation d’un message propagé, mais peu d’utilisateurs de Usenet utilisent cette commande et certains lecteurs de nouvelles n’offrent pas de commandes d’annulation, en partie parce que le stockage des articles expire dans un délai relativement court de toute façon. Presque tous les groupes Usenet non modérés sont devenus des collections de spam.

Détails techniquesModification

Usenet est un ensemble de protocoles pour générer, stocker et récupérer des « articles » de nouvelles (qui ressemblent à des messages de courrier Internet) et pour les échanger parmi un lectorat potentiellement largement distribué. Ces protocoles utilisent le plus souvent un algorithme d’inondation qui propage des copies dans un réseau de serveurs participants. Lorsqu’un message parvient à un serveur, celui-ci le transmet à tous ses voisins du réseau qui n’ont pas encore vu l’article. Une seule copie d’un message est stockée par serveur, et chaque serveur la met à la disposition, à la demande, des lecteurs (généralement locaux) capables d’accéder à ce serveur. La collection de serveurs Usenet a donc un certain caractère de pair à pair en ce sens qu’ils partagent des ressources en les échangeant, la granularité de l’échange est cependant à une échelle différente de celle d’un système moderne de pair à pair et cette caractéristique exclut les utilisateurs réels du système qui se connectent aux serveurs de nouvelles avec une application client-serveur typique, un peu comme un lecteur de courrier électronique.

Le RFC 850 a été la première spécification formelle des messages échangés par les serveurs Usenet. Elle a été remplacée par la RFC 1036, puis par la RFC 5536 et la RFC 5537.

Dans les cas où un contenu inapproprié a été posté, Usenet dispose d’un support pour la suppression automatique d’une publication sur l’ensemble du réseau en créant un message d’annulation, bien qu’en raison d’un manque d’authentification et des abus qui en résultent, cette capacité soit fréquemment désactivée. Les détenteurs de droits d’auteur peuvent toujours demander la suppression manuelle du matériel en infraction en utilisant les dispositions des mises en œuvre du traité de l’Organisation mondiale de la propriété intellectuelle, comme la loi américaine Online Copyright Infringement Liability Limitation Act, mais cela nécessiterait de donner un avis à chaque administrateur de serveur de nouvelles.

Sur Internet, Usenet est transporté via le protocole de transfert de nouvelles du réseau (NNTP) sur le port TCP 119 pour les connexions standard non protégées et sur le port TCP 563 pour les connexions cryptées SSL.

OrganisationEdit

Les « neuf grandes » hiérarchies de Usenet

L’ensemble majeur des groupes de discussion mondiaux est contenu dans neuf hiérarchies, dont huit sont exploitées selon des directives consensuelles qui régissent leur administration et leur dénomination. Les huit grands groupes actuels sont :

comp.* – discussions relatives aux ordinateurs (comp.software, comp.sys.amiga)
humanities.* – beaux-arts, littérature et philosophie (humanities.classics, humanities.design.misc)
misc.* – sujets divers (misc.education, misc.forsale, misc.kids)
nouvelles.* – discussions et annonces sur les nouvelles (entendez Usenet, pas les événements actuels) (news.groups, news.admin)
rec.* – loisirs et divertissement (rec.musique, rec.arts.movies)
sci.* – discussions liées à la science (sci.psychology, sci.research)
soc.* – discussions sociales (soc.college.org, soc.culture.african)
talk.* – discussions sur divers sujets controversés (talk.religion, talk.politics, talk.origins)

Voir aussi le Grand Renommage.

La hiérarchie alt.* n’est pas soumise aux procédures contrôlant les groupes du Big Eight, et elle est par conséquent moins organisée. Les groupes de la hiérarchie alt.* ont tendance à être plus spécialisés ou spécifiques – par exemple, il peut y avoir un newsgroup sous le Big Eight qui contient des discussions sur les livres pour enfants, mais un groupe dans la hiérarchie alt peut être dédié à un auteur spécifique de livres pour enfants. Les binaires sont publiés dans alt.binaries.*, ce qui en fait la plus grande de toutes les hiérarchies.

De nombreuses autres hiérarchies de groupes de discussion sont distribuées à côté de celles-ci. Des hiérarchies régionales et spécifiques à une langue, telles que japan.*, malta.* et ne.*, servent des pays et des régions spécifiques comme le Japon, Malte et la Nouvelle-Angleterre. Des entreprises et des projets administrent leurs propres hiérarchies pour discuter de leurs produits et offrir un support technique à la communauté, comme la hiérarchie historique gnu.* de la Free Software Foundation. Microsoft a fermé son newsserver en juin 2010, fournissant désormais un support pour ses produits par le biais de forums. Certains utilisateurs préfèrent utiliser le terme « Usenet » pour se référer uniquement aux huit grandes hiérarchies ; d’autres incluent également alt.*. Le terme plus général « netnews » incorpore l’ensemble du média, y compris les systèmes de nouvelles organisationnelles privées.

Des conventions informelles de sous-hiérarchie existent également. Les *.answers sont typiquement des groupes de postage croisé modérés pour les FAQ. Une FAQ serait postée au sein d’un groupe et un post croisé vers le groupe *.answers à la tête de la hiérarchie considéré par certains comme un raffinement de l’information dans ce groupe de nouvelles. Certains sous-groupes sont récursifs – jusqu’à une certaine bêtise dans alt.*.

Edition de contenu binaire

Un exemple visuel des nombreuses étapes complexes nécessaires pour préparer les données à télécharger dans les groupes de discussion Usenet. Ces étapes doivent être refaites en sens inverse pour télécharger des données à partir de Usenet.

Usenet a été créé à l’origine pour distribuer du contenu textuel encodé dans le jeu de caractères ASCII à 7 bits. Avec l’aide de programmes qui codent les valeurs 8 bits en ASCII, il est devenu pratique de distribuer des fichiers binaires comme contenu. Les messages binaires, en raison de leur taille et de leur statut souvent douteux en matière de droits d’auteur, étaient à l’époque limités à des groupes de discussion spécifiques, ce qui permettait aux administrateurs d’autoriser ou d’interdire plus facilement le trafic.

La plus ancienne méthode d’encodage largement utilisée pour le contenu binaire est uuencode, du paquet Unix UUCP. À la fin des années 1980, les articles Usenet étaient souvent limités à 60 000 caractères, et des limites dures plus importantes existent aujourd’hui. Les fichiers sont donc couramment divisés en sections qui nécessitent un réassemblage par le lecteur.

Avec les extensions d’en-tête et les encodages MIME Base64 et Quoted-Printable, il y avait une nouvelle génération de transport binaire. En pratique, MIME a connu une adoption accrue dans les messages textuels, mais il est évité pour la plupart des pièces jointes binaires. Certains systèmes d’exploitation avec des métadonnées attachées aux fichiers utilisent des formats d’encodage spécialisés. Pour Mac OS, on utilise à la fois BinHex et des types MIME spéciaux. D’autres systèmes d’encodage moins connus qui ont pu être utilisés à un moment donné sont BTOA, l’encodage XX, BOO et l’encodage USR.

Dans une tentative de réduire les temps de transfert des fichiers, un encodage de fichier informel connu sous le nom de yEnc a été introduit en 2001. Il permet d’obtenir une réduction d’environ 30 % des données transférées en supposant que la plupart des caractères 8 bits peuvent être transférés en toute sécurité sur le réseau sans être d’abord encodés dans l’espace ASCII 7 bits. La méthode la plus courante pour télécharger de gros messages binaires sur Usenet consiste à convertir les fichiers en archives RAR et à créer des fichiers Parchive pour eux. Les fichiers de parité sont utilisés pour recréer les données manquantes lorsque toutes les parties des fichiers n’atteignent pas un serveur.

Temps de rétention binaireEdit

Capture d’écran d’octobre 2020 montrant 60 PB de données de groupes Usenet.

Chaque serveur de nouvelles alloue une certaine quantité d’espace de stockage pour le contenu de chaque groupe de nouvelles. Lorsque cet espace de stockage a été rempli, chaque fois qu’un nouveau message arrive, les anciens messages sont supprimés pour faire de la place au nouveau contenu. Si la bande passante du réseau disponible pour un serveur est élevée mais que l’espace de stockage alloué est faible, il est possible qu’un énorme flot de contenu entrant dépasse l’espace alloué et supprime tout ce qui se trouvait dans le groupe avant lui. La durée moyenne pendant laquelle les articles peuvent rester sur le serveur avant d’être supprimés est communément appelée le temps de rétention.

Les groupes de discussion binaires ne peuvent fonctionner de manière fiable que si l’allocation de stockage est suffisante pour gérer la quantité d’articles ajoutés. Sans un temps de rétention suffisant, un lecteur sera incapable de télécharger toutes les parties du binaire avant qu’il ne soit expulsé de l’allocation de stockage du groupe. C’est ainsi qu’à une époque, la publication de contenu indésirable était combattue : le groupe de discussion était inondé de messages aléatoires de données résiduelles, en quantité suffisante pour repousser tout le contenu à supprimer. Cela a été compensé par les fournisseurs de services qui allouent suffisamment de stockage pour conserver tout ce qui est posté chaque jour, y compris les inondations de spam, sans rien supprimer.

Les serveurs de nouvelles Usenet modernes ont une capacité suffisante pour archiver des années de contenu binaire, même lorsqu’ils sont inondés de nouvelles données à la vitesse quotidienne maximale disponible.

En partie à cause de ces longues durées de rétention, ainsi que des vitesses croissantes de téléchargement sur Internet, Usenet est également utilisé par les utilisateurs individuels pour stocker des données de sauvegarde. Alors que des fournisseurs commerciaux proposent des services de sauvegarde en ligne plus faciles à utiliser, le stockage de données sur Usenet est gratuit (bien que l’accès à Usenet lui-même puisse ne pas l’être). La méthode exige que le téléchargeur cède le contrôle de la distribution des données ; les fichiers sont automatiquement diffusés à tous les fournisseurs Usenet qui échangent des données pour le groupe de nouvelles dans lequel il est posté. En général, l’utilisateur doit sélectionner, préparer et télécharger manuellement les données. Les données sont généralement cryptées car n’importe qui peut télécharger les fichiers de sauvegarde. Après le téléchargement des fichiers, le fait d’avoir plusieurs copies réparties dans différentes régions géographiques du monde sur différents serveurs de nouvelles diminue les risques de perte de données.

Les principaux fournisseurs de services Usenet ont une durée de conservation de plus de 12 ans.Cela se traduit par plus de 60 pétaoctets (60000 téraoctets) de stockage (voir image). Lors de l’utilisation de Usenet pour le stockage de données, les fournisseurs qui offrent un temps de rétention plus long sont préférés pour garantir que les données survivront plus longtemps par rapport aux services avec un temps de rétention plus faible.

Questions juridiquesModification

Alors que les groupes de discussion binaires peuvent être utilisés pour distribuer des œuvres totalement légales créées par les utilisateurs, des logiciels libres et du matériel du domaine public, certains groupes binaires sont utilisés pour distribuer illégalement des logiciels commerciaux, des médias protégés par des droits d’auteur et du matériel pornographique.

Les serveurs Usenet exploités par des fournisseurs de services Internet bloquent fréquemment l’accès à tous les groupes alt.binaries.* à la fois pour réduire le trafic réseau et pour éviter les problèmes juridiques connexes. Les fournisseurs de services Usenet commerciaux affirment fonctionner comme un service de télécommunications et affirment qu’ils ne sont pas responsables du contenu binaire posté par les utilisateurs et transféré via leur équipement. Aux États-Unis, les fournisseurs Usenet peuvent bénéficier d’une protection dans le cadre de la réglementation DMCA Safe Harbor, à condition qu’ils mettent en place un mécanisme pour se conformer et répondre aux avis de retrait des détenteurs de droits d’auteur.

Le retrait d’un contenu protégé par le droit d’auteur de l’ensemble du réseau Usenet est une tâche presque impossible, en raison de la propagation rapide entre les serveurs et de la rétention effectuée par chaque serveur. Demander à un fournisseur Usenet de supprimer un contenu ne fait que le retirer du cache de rétention de ce serveur, mais pas des autres. Il est possible de distribuer un message spécial d’annulation de post pour le supprimer de tous les serveurs, mais de nombreux fournisseurs ignorent les messages d’annulation par politique standard, car ils peuvent être facilement falsifiés et soumis par n’importe qui. Pour qu’une demande de retrait soit la plus efficace sur l’ensemble du réseau, il faudrait qu’elle soit émise à l’intention du serveur d’origine sur lequel le contenu a été posté, avant qu’il ne soit propagé aux autres serveurs. Le retrait du contenu à ce stade précoce empêcherait toute propagation ultérieure, mais avec les liaisons modernes à haut débit, le contenu peut être propagé aussi vite qu’il arrive, ce qui ne laisse pas de temps pour l’examen du contenu et l’émission d’une pétition de takedown par les détenteurs de droits d’auteur.

Etablir l’identité de la personne qui publie un contenu illégal est tout aussi difficile en raison de la conception du réseau basée sur la confiance. Comme pour le courrier électronique SMTP, les serveurs supposent généralement que les informations d’en-tête et d’origine d’un message sont vraies et exactes. Toutefois, comme dans le cas du courrier électronique SMTP, les en-têtes des messages Usenet sont facilement falsifiés de manière à masquer la véritable identité et l’emplacement de la source du message. De cette manière, Usenet est sensiblement différent des services P2P modernes ; la plupart des utilisateurs P2P qui distribuent du contenu sont généralement immédiatement identifiables par tous les autres utilisateurs grâce à leur adresse réseau, mais les informations d’origine d’un message Usenet peuvent être complètement masquées et impossibles à obtenir une fois qu’elles ont dépassé le serveur d’origine.

Aussi, contrairement aux services P2P modernes, l’identité des téléchargeurs est cachée. Sur les services P2P, un téléchargeur est identifiable par tous les autres par son adresse réseau. Sur Usenet, le téléchargeur se connecte directement à un serveur, et seul le serveur connaît l’adresse de celui qui se connecte à lui. Certains fournisseurs Usenet conservent des journaux d’utilisation, mais tous ne mettent pas ces informations enregistrées à la disposition de parties extérieures telles que la Recording Industry Association of America. L’existence de passerelles d’anonymisation vers USENET complique également le traçage de la véritable origine d’une publication.