Il existe trois méthodes pour modifier la fréquence d'un fichier audio numérique (ou vidéo), chacune correspondant à des besoins particuliers.
1- Le sous-échantillonnage
Encore appelé under- ou downsampling en anglais, il consiste à diviser la fréquence d’échantillonnage du fichier d’origine par un nombre entier (par exemple 44,1 kHz en 22,05 kHz). Cette méthode, qui permet de diviser le nombre d’échantillons par 2 ou plus, est employée entre autres dans la compression audio.
Pour réaliser du sous-échantillonnage, il est fait usage d’un filtre dit «filtre de décimation». C'est un filtre numérique ordinaire, qui, au lieu de "sortir" tous les échantillons existants, en sort seulement un sur N (N étant appelé facteur de décimation).
Les échantillons supprimés le sont donc de façon irrémédiable avec les conséquences audibles que cela peut entraîner.
2- Le sur-échantillonnage
Encore appelé over- ou upsampling en anglais, il consiste à multiplier la fréquence d’échantillonnage du fichier d’origine par un nombre entier (par exemple 44,1 kHz en 88,2 kHz). Cette méthode, qui est utilisée dans de nombreux convertisseurs numérique analogique (par exemple le PCM1796 de Burr-Brown employé par de nombreux constructeurs) permet d’utiliser des filtres passe-bas (pour le lissage du signal) de conception plus aisée que si l’on gardait l’échantillonnage d’origine du signal afin de s'affranchir des problèmes de "repliement de spectre" ou aliasing en anglais.

Pour réaliser du sur-échantillonnage, il est fait usage d’un filtre dit «filtre d’interpolation». Ce filtre numérique va créer des échantillons intermédiaires à partir d’une interpolation entre deux échantillons consécutifs existants, augmentant ainsi de manière artificielle la fréquence d’échantillonnage.
Théoriquement, cela n’affecte pas la qualité du signal d’origine puisque les valeurs codées par les échantillons recréés sont censées exister réellement entre deux valeurs consécutives quantifiées.
3- La conversion de taux d’échantillonnage
Encore appelée Sample Rate Conversion en anglais, cette technique est employée lorsque l’on désire passer d’une fréquence à une autre fréquence qui n’est pas un multiple (ou sous-multiple) entier de la fréquence d’origine.
On va alors employer un circuit spécialisé qui porte le nom de Convertisseur de Taux d’échantillonnage ou Sample Rate Converter (SRC) en anglais, dont le fonctionnement n’a donc plus rien à voir avec les filtres de sur- ou sous-échantillonnage qui «font des opérations mathématiques simples» (division ou interpolation), si l’on peut dire.
Les fréquences d’entrée et de sortie n’étant plus en rapport l’une avec l’autre (on dit qu’elles sont asynchrones), ce sont des algorithmes (donc des calculs d’une certaine complexité), définis et programmés par le designer qui vont permettre au circuit de conversion de taux d’échantillonnage de réaliser la transition d’une fréquence vers une autre et de leur qualité va donc dépendre la qualité du résultat sonore.
Un signal d’origine à 44,1 kHz va donc se voir ajouter quantités d’informations «arbitraires» définies par ces algorithmes afin de «devenir», par exemple, un signal à 192 kHz qui contient 4,35 fois plus d’informations (en supposant que l’on ne touche pas au nombre de bit).
Cela peut se traduire à l'écoute, comme nous avons pu le constater à plusieurs reprises, par des modifications des timbres des instruments ou des voix qui sont plus ou moins sensibles.
4- Le point sur le sujet vu par les spécialistes
Nous avons eu bien du mal à trouver sur Internet un article de fond traitant de la conversion de taux d'échantillonnage (rien en français à priori), aussi avons-nous traduit partiellement l'introduction d'un gros article bourré d'équations de niveau Bac+5 sur le sujet, écrit par le Norvégien Ivar Løkken, introduction qui nous conforte dans ce que nous pensions.
Cet article s'intitule :
Les pour et les contre de la conversion arbitraire de taux d’échantillonnage
Dans plusieurs applications, il est parfois nécessaire de convertir un signal d’une fréquence d’échantillonnage vers une autre. Un signal d’entrée peut voir sa fréquence d’échantillonnage abaissée (downsampling) pour alléger la charge de calcul, ou parfois parce que les taux respectifs de deux unités interconnectées ne correspondent pas.
Si le taux d’échantillonnage désiré est un multiple entier de celui existant, il suffit d’élever le taux d’échantillonnage du signal d’entrée en utilisant un filtre d’interpolation. De même, si le taux d’échantillonnage existant est un multiple entier de celui que l’on désire, on peut employer un filtre de décimation ou de sous-échantillonnage (under ou downsampling). Cependant, si le rapport entre les taux d’échantillonnage d’entrée et de sortie est arbitraire, le problème devient alors plus compliqué. Un convertisseur arbitraire de taux d’échantillonnage (ASRC, Arbitray Sample Rate Converter) doit alors être conçu. Dans un tel système, le signal d’entrée et celui de sortie sont souvent dérivés de deux horloges différentes, si bien que, dans un pareil cas, la conversion doit être faite en utilisant un convertisseur asynchrone (arbitraire) de taux d’échantillonnage (AASRC, Asynchronous Arbitray Sample Rate Converter). La conversion arbitraire de taux d'échantillonnage ajoute inévitablement des distorsions, bien qu’elles soient extrêmement faibles si le SRC est bien conçu.
Un autre argument, plus réaliste, est que cela permet une bonne suppression du jitter. Si une conversion arbitraire de taux d'échantillonnage bien réalisée est utilisée conjointement avec une horloge de haute précision en sortie, cela peut amener à de très bonnes performances en termes de jitter en sortie, même avec des sources entachées de jitter*.
*jitter (ou gigue en français), source Wikipedia :
Dans le domaine des transmissions numériques et plus particulièrement des liaisons série, la gigue (en anglais jitter) est le phénomène de fluctuation d'un signal. Cette fluctuation peut être un glissement de phase ou une dispersion temporelle. Elle entraîne des erreurs en sortie lors de la récupération des données.
En audio cela se traduirait entre autres par une restitution moins bien définie avec une image sonore moins stable. (NDLR)