Le bon matériel pour le stockage des données : quelle infrastructure pour quelles données??

Les données, à elles seules, n’apportent pas directement de valeur ajoutée à une entreprise. Il faut d’abord consentir des coûts pour leur stockage et prévoir l’infrastructure afférente. Afin de tirer le meilleur parti (autrement dit, exploiter le «?smart data?», soit les données pertinentes) d’une mine de données de plus en plus inépuisable, des approches et des méthodes intelligentes sont indispensables. Ce traitement intelligent des données nécessite, en outre, le matériel adapté.

2021-09-14Comment 130905813

La première question qui se pose dans ce contexte concerne le stockage adéquat des données. La fourniture optimale de données (que ce soit dans le centre de données ou dans le cloud) est cruciale. Elle permet d’évaluer et d’utiliser les données de manière centralisée et décentralisée.

Stockage des données : une combinaison de stockage interne et externe
Pour ce faire, on utilise des plateformes de stockage disponibles à la fois sur site et hors site. Les données qui s’y trouvent peuvent ainsi être transférées vers des systèmes informatiques puissants pour y être analysées et utilisées. Dans ce contexte, il est possible d’élaborer des systèmes de stockage intelligents à l’aide de logiciels de gestion des données à plusieurs couches.

Quoi qu’il en soit, on devrait davantage se préoccuper du type de stockage que du lieu de stockage. À cet égard, une stratégie avancée de cloud hybride pourrait aider à trouver les bonnes réponses aux questions de stockage.

Stockez correctement les données « froides » et « chaudes »
Avant la première étape, il importe de déterminer les données concernées et la manière dont elles doivent être stockées. La qualité et la quantité des achats nécessaires en dépendent. Il y a, d’une part, les « données froides », qui peuvent de préférence être transférées dans des archives à long terme. La bande magnétique joue encore un rôle important à ce niveau, car elle est résistante et présente un très bon rapport qualité-prix. Mais les systèmes de stockage en bloc constituent également un choix judicieux.

L’analyse rapide des données actuelles nécessite néanmoins des systèmes puissants qui tirent de plus en plus parti de la technologie du protocole NVMe. Les données atteignent très rapidement la machine sur laquelle elles doivent être analysées et traitées. Cette combinaison de sources de données froides et chaudes permet de créer l’architecture nécessaire à l’analyse assistée par l’IA et au traitement de grandes quantités de données.
Le plus important, dans le cadre de ces considérations, consiste à tirer correctement au préalable les données. Seule une hiérarchisation des ensembles de données disponibles permet, en effet, d’atteindre l’objectif poursuivi. Il peut, par exemple, s’avérer utile de trier et d’évaluer les sites web visités sur la base de certains critères plutôt que de se limiter aux impressions.

Optimisation des processus
L’établissement d’une corrélation entre les données existantes peut, par exemple, revêtir une importance cruciale pour une première présélection. Cette méthode permet d’optimiser les processus à grande ou à petite échelle, de manière entièrement automatique et en temps réel. De quoi pallier et éliminer les goulets d’étranglement au niveau de l’offre. Une nécessité, surtout dans le contexte pandémique actuel.

L’infrastructure réseau doit suivre le rythme du traitement des données
Quand on parle de données froides et chaudes, il importe également d’examiner la topologie de réseau appropriée. La variante 25 Gigabit (Gbit), par exemple, est une norme de plus en plus utilisée dans les environnements Ethernet. On observe également une tendance au 100 gigabits (Gbit), qui, compte tenu des énormes volumes de données, constitue la prochaine étape logique de l’infrastructure Ethernet.

Dans le même temps, la technologie Fibre Channel continue de jouer un rôle majeur, surtout dans l’environnement de stockage en bloc, comme c’est le cas dans les installations SAN. Le fait que la norme FC soit toujours en cours d’élaboration en est la preuve. La référence actuelle reste généralement 32 Gbit par seconde, mais les premiers systèmes de stockage à 64 Gbit sont sur le point de faire leur entrée sur le marché.
À noter que les premiers fabricants ont déjà cessé de produire leurs composants de stockage FC 16 Gbit. Il serait donc peut-être judicieux de ne pas passer par la cinquième génération (32 Gbit) et d’opter directement pour la variante 64 Gbit.

Transfert du stockage local vers le cloud hybride
Le logiciel de gestion des données Netapp Ontap offre un accès flexible aux données du cloud hybride, ce qui peut, entre autres, améliorer considérablement la disponibilité des données. Cela se fait même au niveau des applications, via des priorités accordées aux applications existantes. Un bon moyen d’identifier les applications qui doivent continuer de tourner ou non en cas de catastrophe. La version actuelle 9.8 d’Ontap offre, par ailleurs, des options d’instantané étendues, qui permettent de synchroniser les systèmes de stockage locaux avec des environnements cloud tels qu’AWS S3.

Génération de données intelligentes grâce à l’IA et aux méthodes d’analyse
Vu l’augmentation constante de la quantité de données, de nouvelles méthodes sont nécessaires pour évaluer ces données au mieux. On utilise déjà l’IA à cette fin depuis un certain temps, et les algorithmes hautement développés garantissent une mise à disposition optimale des données disponibles. On utilise toutes sortes d’approches et de solutions spécialisées dans le traitement et l’analyse de gros volumes de données.

Épinglons les technologies telles qu’Apache Hadoop et Spark, qui fonctionnent sur des machines à haute performance. Le choix d’un système de base de données approprié est également crucial. Dans ce domaine, il existe des outils puissants, notamment Microsoft SQL Server Big Data Cluster, IBM Db2 Warehouse et d’autres solutions SAP. Des solutions spéciales telles qu’IBM Watson Studio et Lenovo Intelligent Computing Orchestrator (Lico) permettent également d’exploiter au mieux les données existantes sur la base de l’IA.

La version 2.0 de l’outil logiciel TIM (Thinksystem Intelligent Monitoring) se révèle aussi intéressante dans ce contexte. Elle sert à gérer et surveiller les systèmes de stockage sur la base de l’IA. TIM détecte, en toute autonomie, les problèmes de stockage ou les configurations incorrectes, et peut ainsi contribuer à leur correction automatique.
TIM assure aussi la vérification du firmware actuel. De quoi décharger les administrateurs informatiques des tâches routinières. Dans la mesure où il s’agit d’une solution basée dans le cloud, les entreprises proprement dites et les partenaires peuvent utiliser le logiciel à leurs propres fins.

Conclusion
Pour qu’une entreprise puisse tirer le meilleur parti des données de plus en plus nombreuses, elle doit examiner la méthode actuelle de traitement de ces données et déterminer la manière d’améliorer ce processus.
L’investissement dans les infrastructures réseau et la mise en œuvre de technologies d’IA, entre autres, sont désormais impératifs dans un monde où circulent de plus en plus de données.

Pour passer d’une approche qui consiste à dépenser pour le stockage des données à une approche qui vise à créer de la valeur sur la base de ces données, il est indispensable de les traiter intelligemment et d’utiliser au mieux les nouvelles technologies.

Par Tina Borgbjerg, General Manager Lenovo Infrastructure Solutions Group (ISG) Benelux & Nordics