Liberty University

Liberty University donne une leçon en matière de résolution efficace des problèmes

Liberty University est la plus grande université privée sans but lucratif des États-Unis et propose plus de 450 cursus, du simple certificat au doctorat. Tous les dimanches soir de l'année universitaire, la majeure partie des 110 000 étudiants de l'école se connectent au réseau de l'université pour envoyer leurs devoirs avant minuit — ce délai s'applique, en effet, à tous les cursus. Il s'agit de l'un des principaux défis qu'ont à relever les DBA de Liberty, en plus d'administrer le système global de gestion d'apprentissage, le système ERP de bannière et les autres systèmes en place, ainsi que de justifier rapidement tous leurs éléments.

Défis

Il faut un immense réseau tentaculaire et complexe, ainsi qu'un grand nombre d'applications standard, personnalisées et sur mesure pour gérer un établissement de cette envergure. Blackboard est au cœur du système de gestion de l'apprentissage, taillé sur mesure à l'aide de « blocs » personnalisés et entièrement adapté à l'image de marque de la Liberty University.

Chaque parution de nouveaux logiciels et de mises à niveau du système est une source d'anxiété tant pour la Liberty University que pour n'importe quelle autre entreprise utilisant des logiciels. La mise en œuvre de deux mises à niveau majeures, une du logiciel seul, puis une du logiciel et de l'environnement, a entraîné à chaque fois d'importants problèmes de performance et a causé des migraines aux DBA et au personnel technique, car leurs causes profondes étaient cachées dans les endroits les plus incongrus. Le personnel a vérifié les causes les plus probables en premier, ce qui lui a fait perdre beaucoup de temps.

Le premier problème de performance est survenu au moment d'installer un pack de service de Blackboard il y a environ deux ans. La mise à niveau nécessitait la mise à niveau simultanée du système vers Java 1.7.

« Une fois la mise à niveau terminée, les serveurs d'applications se sont mis à planter sans cesse », explique Scott Howe, administrateur du système à la Liberty University. « À chaque fois qu'on consultait les journaux de Blackboard, ils envoyaient un nombre incalculable de choses dans les journaux de Tomcat, des centaines d'exceptions ou d'erreurs générales de diagnostic. C'était insensé. Nous faisions de notre mieux, en vain. Nous avons eu beau redémarrer les serveurs d'applications plusieurs fois par jour pendant deux semaines et doubler le nombre de serveurs d'applications utilisés, nous en étions toujours au même point. »

C'est en découvrant les avantages de l'interface d'AppDynamics et sa capacité à examiner les problèmes pour les résoudre en temps réel, que nous avons été convaincus. Nous n'avons pas eu besoin d'aller chercher plus loin.

L'équipe n'avait pas la visibilité nécessaire pour cibler les problèmes. Ce manque de visibilité a à nouveau tourmenté l'équipe de Liverty un an plus tard au moment de lancer une mise à niveau encore plus importante, impliquant l'installation d'un autre pack de service Blackboard, mais aussi une migration d'environnements. Une fois encore, l'équipe a connu des problèmes de performance. Mais cette fois, elle savait qu'elle avait besoin le plus rapidement possible des outils et de la visibilité proposés par AppDynamics.

Solution

Chose intéressante, au moment où était en train de se jouer le premier acte de ce scénario, Scott et l'un de ses collègues DBA se trouvaient à la conférence mondiale de Blackboard lorsque l'un d'eux s'est souvenu du produit d'AppDynamics. Ils ont donc décidé de télécharger la version d'essai pour voir si elle pouvait leur être utile. Ils ne leur a pas fallu longtemps pour l'installer tandis qu'ils étaient toujours à la conférence et ils ont rapidement découvert des pics étranges de transactions erronées qui semblaient toutes avoir une classe commune. En effet, tout portait à croire qu'une classe de langue présentait un problème.

« Nous avons montré tout ce que nous savions aux directeurs de performance de Blackboard présents à la conférence et leur avons dit "voici ce que nous voyons dans AppDynamics" », déclare Howe. « "Il semble qu'il y ait un fil ici, l'aviez-vous déjà remarqué ?" Après analyse, il s'est avéré qu'il s'agissait d'un bogue connu dans tous les JDK 1.7 et que nous touchions au but. Blackboard nous a aidé à entrer en contact avec Oracle, puis a fait remonter le problème au service de développement, qui a conçu un correctif pour nous. Et le tour était joué. »

« C'est alors que nous avons demandé à notre direction d'acheter la solution AppDynamics pour que nous puissions bénéficier des connaissances nécessaires afin de travailler de manière efficace. »

Il a néanmoins fallu un autre incident majeur, un an plus tard, pour que la direction accepte de faire appel à AppDynamics. Mais cette fois, nous avons pu bénéficier de l'aide d'AppDynamics plus tôt, ce qui a permis de résoudre l'incident beaucoup plus vite.

Le problème est survenu après le déploiement d'une autre mise à niveau de Blackboard au moment de migrer la base de données et les serveurs d'applications : « c'est tout un système qui voyait le jour à partir de rien », comme l'explique M. Howe.

C'est alors que nous avons demandé à notre direction d'acheter la solution AppDynamics pour que nous puissions travailler de manière efficace.

« Contrairement à la fois précédente, AppDynamics a mis en exergue quelque chose de très différent. Nous n'étions pas confrontés à des erreurs, mais à un débit colossal et un ralentissement général de JVM... Le bon côté des choses était qu'AppDynamics a pu nous montrer tout le flux de la transaction — l'arrivée de la requête au serveur d'applications, la communication du serveur d'applications, puis les échanges entre le serveur d'applications et la base de données. Nous avons été en mesure d'écarter une grande partie de notre architecture comme source du problème. »

Il s'est avéré que le système de stockage des serveurs d'applications était d'une lenteur incroyable : certains appels NFS prenaient de une à huit secondes chacun. Imaginez ce que cela pouvait donner un dimanche soir lorsque la majeure partie des 110 000 étudiants se connectaient pour rendre leurs devoirs.

« C'est là que cela coinçait », explique M. Howe. « AppDynamics nous a permis de voir ce qu'il se passait dans le flux de données et de savoir précisément ce qui ne posait pas problème. Si nous n'avions pas eu cet outil, nous aurions pu passer des heures et des heures à chercher le problème dans la base de données ou dans un autre endroit en vain. »

Avantages

Visibilité. Voici le principal avantage qu'AppDynamics a offert à Liberty University. La solution a permis à l'équipe de suivre des transactions dans tout le réseau et de découvrir que le problème ne venait pas des applications Blackboard, mais dans un cas de Java et dans l'autre du matériel.

« C'est en découvrant les avantages de l'interface d'AppDynamics et sa capacité à examiner les problèmes pour les déceler et les résoudre en temps réel, que nous avons été convaincus », déclare M. Howe. « Nous n'avons pas eu besoin d'aller chercher plus loin. »

AppDynamics nous a permis de voir ce qu'il se passait dans le flux de données et de savoir précisément ce qui ne posait pas problème.

Et depuis, la plateforme AppDynamics donne à Liberty University une véritable Application Intelligence.

« C'est génial d'avoir des chiffres de tendance à long terme... De connaître les temps de réponse au cours des dernières 24 heures, comme au cours de la semaine passée ou des derniers mois », admet M. Howe. « Les techniciens et les membres de l'administration ont parfois du mal à se comprendre, c'est pourquoi cela n'a pas de prix de pouvoir étayer ses arguments avec des chiffres concrets. »

« Des milliers d'informations sont présentées de façon lisible et claire. »