Serveurs
Nouveau serveur DNS: ns3.koumbit.net
Dès aujourd'hui, nous ajoutons un nouveau serveur DNS à notre rotation principale. Le nouveau serveur est dès maintenant fonctionnel pour les domaines sur l'hébergement mutualisé.
La nouvelle adresse du serveur est la suivante: 209.172.53.230
Qui est affectéTous les utilisateurs gérant eux-mêmes leurs domaine (en tant que contact technique) doivent ajouter NS3.KOUMBIT.NET. Ceci vous assurera de ne subir aucune coupure durant l'année prochaine, alors que le serveur NS2.KOUMBIT.NET sera migré vers un autre fournisseur.
Les domaines gérés par Koumbit ont été correctement modifiés aujourd'hui. Si nous sommes le contact technique pour votre domaine, vous n'avez donc aucune action à entreprendre ici.
Vous pouvez vérifier qui sont les contacts pour votre domaine par cette interface:
QuandLes changements ont déjà commencé. Le serveur est en production depuis aujourd'hui. Les "Glue Records" ont également été mis à jour aujourd'hui, tout comme les domaines pour lesquels nous sommes le contact technique.
Dans environ 6 mois, le serveur ns2 sera migré vers un autre fournisseur. D'autres annonces suivront à ce sujet.
PourquoiLe serveur DNS secondaire NS2.KOUMBIT.NET est hébergé sur un lien réseau ayant une latence un peu moins désirable que le serveur principal, ce qui dégrade un peu la qualité du service. Nous voulons donc migrer ce serveur, mais une telle migration pourrait provoquer des coupures. Nous créons donc un nouveau serveur DNS, qui de plus nous fournira un niveau de redondance supplémentaire.
Je suis contre!Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.
New DNS server: ns3.koumbit.net
We are adding a new server to our list of DNS servers. The new server is already functional for all the shared hosting domains.
The new address of the server is: 209.172.53.230
Who is affectedAll the users managing their domains themselves (as technical contact) have to add NS3.KOUMBIT.NET to their DNS configuration. This will ensure that you will not suffer any outage when we switch NS2.KOUMBIT.NET providers.
All domains managed by Koumbit have been properly modified today. If we are the technical contact for your domain, you do not have any action to take today.
You can verify the contacts for your domains through this web page:
WhenThe changes have already started. The server has been in production since today. The "Glue Records" have been updated today, as all the domains for which we are the technical contact.
WhyThe secondary DNS server NS2.KOUMBIT.NET is hosted on a network link with less than desirable latency, which degrades our quality of service. We therefore want to migrate this server to another provider, but this move may create an outage. We are therefore creating a new DNS server that will provide us with another redundancy layer.
I objectIf this intervention is too problematic for you or your organisation, please let us know within 24h to see if we can arrange otherwise.
nouveau serveur web dans le répartiteur de charge
Je viens d'ajouter un nouveau serveur dans le répartiteur de charge. Il est présentement configuré pour ne répondre seulement quand le serveur principal plante (contrairement à être configuré pour partager la charge). Ceci devrait nous débarrasser des erreurs "503 Service non-disponible" que nous voyons souvent sur le serveur ces temps-ci (les fameuses "micro-coupures").
Il est possible que cette nouvelle configuration créée des problèmes. Nous avons tests plusieurs sites (un Drupal et un Tikiwiki) et tout semble en ordre, mais si vous voyez des comportements bizarres, indiquez-nous l'heure exact à laquelle il s'est produit pour que nous puissions diagnostiquer le problème.
Notez que ce changement n'améliore pas encore la performance générale du service mais ne fait qu'améliorer la fiabilité. Nous allons bientôt déployer un nouveau serveur dédié qui devrait également améliorer la performance.
new webserver in the cluster
I have just added a new web server to the load balancing setup. It is currently configured to answer only when the main server goes down (as opposed to sharing the load with it). This should get rid of the "503 Service unavailable" messages that we were regularly seeing on the web server these days.
There may be issues with some sites related to that change. We have tested a few sites (a Drupal and a Tikiwiki) and things seem to be running fine, but if you see weird behaviour, please tell us the exact time at which it was encountered so we can diagnose the problem.
Note that this does not yet improve performance in the cluster, but merely improves reliability. We will shortly deploy a dedicated server that should improve performance as well.
remplacement matériel terminé, nouveaux URLs
L'intervention d'hier est maintenant terminée et la nouvelle switch est en place. Votre machine a très probablement changé de port. Vous pouvez consulter les statistiques à cette adresse:
La plupart d'entre vous devraient être sur un port après le port 36.
Les anciennes statistiques sont disponibles ici:
http://log.koumbit.net/mrtg.pre-sw3/
Désolé des inconvénients que cette intervention ont pu causer.
switch replacement complete, new statistics URLs
The maintenance yesterday is now complete and the new switch is in place. You machine has very likely changed ports. You can see the new configuration on the MRTG page:
Most of you should be at ports above 36.
The statistics from the old switch are still available here:
http://log.koumbit.net/mrtg.pre-sw3/
Sorry for the trouble.
Intervention le 26 août
Toutes les machines, serveurs virtuels ou nons, et services hébergés dans le cabinet principal. Ceci inclus les services d'hébergement et de courriel.
QuandLe 26 août 2008, entre 19h00 et 21h00, HAE (-0400). Les coupures décrites auront lieu entre 20h00 et 21h00, HAE. Nous espérons cependant limiter les coupures à 30 minutes (donc entre 20h et 20h30).
Ce qui va arriverLa "switch" principale sera remplacé. Ceci va provoquer des courtes coupures pour chacun des serveurs hébergés.
PourquoiLa switch actuelle est pleine et montre des signes de faiblesse. Nous préfèrons la remplacer avant une coupure totale.
CommentVoir le rapport d'intervention. Notez que la coupure commencera par une coupure généralisée, lorsque le router sera rebranché. Ensuite, chaque machine sera rebranchée une à une, ce qui provoquera une coupure de quelques minutes maximum par machine. Il est également possible que cette procédure itérative échoue et que nous fessions une procédure rapide avec coupure totale sur tous les serveurs.
Je suis contre!Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.
Notez également que le blog sysadmin sera mis à jour si l'intervention sera modifiée ou si nous avons des problèmes particuliers.
Intervention on august 26th
All the machines, virtual servers or not, and services hosted in the main cabinet. This includes hosting and email services.
WhenAugust 26th 2008, between 19h00 and 21h00 EDT (-0400). Outages described below will occur between 20h00 and 21h00, EDT. However, we hope to limit those outages to 30 minutes (so between 20h00 and 20h30).
What will happenThe main switch will be replaced. This will provoque short network outages for each of the hosted servers.
WhyThe current switch is full and show signs of weaknesses. We prefer to replace it before a complete outage.
HowSee the rapport d'intervention (fr). Note that this outage will begin with a general outage affecting all servers when the core router will be replugged. Then every machine will be replugged one by one, which should provoke a few minutes of outage for each machine. It is also possible that this procedure fails to function properly and that we go forward with a quick and dirty unplugging and replugging of everything.
I object!If this intervention is too problematic for you or your organisation, please let us know within 24h to see if we can arrange otherwise.
Also not that the sysadmin blog will be updated if the intervention is changed in any way or if we experience problems or delays.
Début de l'utilisation des catégories pour classifier les articles par langue
Nous commençons dès maintenant à utiliser les catégories de dotclear pour isoler le contenu par langue dans ce blog. La page principale va contenir le contenu des deux langues. Pour voir le contenu dans votre langue, utilisez:
- http://offline.koumbit.net/category/fr (pour le français)
- http://offline.koumbit.net/category/en (pour l'anglais)
Ceci s'applique également aux fils RSS:
Starting to use categories to classify articles by language
We starting to use Dotclear's categories to isolate the content by language in this blog. The main page will contain content from both languages. To see the content in your language, use:
- http://offline.koumbit.net/category/fr (for french)
- http://offline.koumbit.net/category/en (for english)
This also applies to RSS feeds:
- http://offline.koumbit.net/feed/category/fr/atom (french)
- http://offline.koumbit.net/feed/category/en/atom (english)
Posts will all be translated from now on or there will at least be a pointer from the missing translation.
Maintenance mercredi 30
English follows
Il y aura quelques coupures mercredi prochain (le 30 juillet) entre 15:30 et 16:00 (HAE) alors que nous allons redémarrer tous les serveurs physiques et virtuels pour mettre à jour les noyaux Linux suites à la publication de problèmes de sécurité récents.
L'hébergement principal et les serveurs virtuels verront des courtes coupures (~3 minutes) durant la fenêtre de maintenance. Le routage et les machines en colocation ne devraient pas être affectées mais si vous voulez redémarrer vos serveurs, c'est un bon moment car nous aurons du personnel en place.
Les gens intéressés à visiter le centre de données ou leur matériel sont invités à se présenter à 15:30 au centre de données mais devront avoir terminé et quitté à 16:00.
EnglishThere will be short outages next wednesday (july 30th) between 15:30 and 16:00 (EDT) as we reboot all servers and virtual servers to follow Linux security upgrades.
Main hosting and vservers should have short outages during the maintenance window (~3 minutes). Routing should not be affected in the main cabinet so colocated machines should not be affected, although it would be a good time for colocated machines to be rebooted as we'll have people on site.
People interested in visiting the datacenter or their hardware are welcome to show up at 15:30 at the datacenter but should have finished and left by 16:00.
Coupure sur le serveur principal cette nuit
Le serveur web principal (homere) de l'hébergement auto-géré a planté ce matin à 1h (heure locale). Le crash n'a pas été détecté par nagios à cause du nouveau répartisseur de charge qui a pris le relai pour afficher une page d'erreur. La personne sur appel a été contactée à 6h (heure locale) et le serveur a été redémarré.
Le système de surveillance a depuis été corrigé pour mieux gérer ce genre de situations. Désolé pour les inconvénients reliés à cette coupure inhabituelle, affectant particulièrement nos hébergés en europe.
Serveur de répartition de charge en ligne
Le serveur de répartition de charge (rtr1-canix2.koumbit.net) a finalement été mis en ligne correctement. Il s'agissait d'une simple erreur de syntaxe qui le rendait non fonctionnel. Depuis ce soir, donc, le serveur principal (homere) est surveillé. Si une coupure survient, le système va rediriger les utilisateurs vers une page d'erreur plus instructive au lieu de boucler ou de refuser la connexion. Éventuellement, les serveurs secondaires prendront le dessus, mais ceux-ci doivent encore être configurés, ce qui devrait être testé au cours du mois.
Il est possible que cette nouvelle configuration occasionne certains problèmes, si vous voyez des nouveaux problèmes avec le service, n'hésitez pas à nous contacter.
Coupure sur le réseau
La connectivité a été rompue dans le cabinet principal à 19:07 heure locale. Nous investiguons le problème. Nous avons repris contact avec les serveurs autour de 19:19 mais des problèmes subsistent.
Update: les services semblent être revenus vers 19:30. Nous nous informons à notre fournisseur d'accès pour obtenir des détails sur la coupure.
MySQL: problème de performance résolu / performance problems solved
(English follows)
Lundi le 9 mai 2008, entre 4h et 5h30 (UCT-4), le serveur MySQL a eu des problèmes de performance importants. Ceci a affecté de nombreux services de Koumbit, incluant les sites web hébergés sur le principal serveur d'hébergement auto-géré (HAG), les courriels, FTP, etc.
Le problème a été causé par un manque d'espace disque pour la partition /tmp lorsque MySQL écrit sa cache de jointures de tables temporaires sur disque. Ceci avait pour effet de faire «planter» le serveur MySQL avec un mystérieux message d'erreur («Incorrect key file for table '/tmp/#sql_12fd_1.MYI'; try to repair it»).
Ce nouveau serveur MySQL a eu une série de petites pannes depuis sa mise en ligne la semaine dernière. Cependant, la configuration de MySQL est maintenant redondante et, une fois la configuration du serveur stabilisée, devrait nous aider à réduire les pannes (nous devons également améliorer la redondance d'Apache).
Par ailleurs, la panne étant survenue à 4h durant la nuit, cet incident fut une bonne démonstration d'une nouvelle fonction du système automatisé de veille (nagios), mise en ligne il y a 3 semaines. Nagios téléphone automatiquement le téléphone cellulaire de l'administrateur de veille lorsqu'une panne n'est pas résolue dans les 5 minutes.
Merci de votre compréhension,
Le comité sysadmin de Koumbit
English
On Monday the 9th of May 2008, between 4h and 5h30 (UCT-4), the MySQL server had major performance problems. This affected many Koumbit services, including the websites on the main self-managed server (HAG), e-mail, FTP, etc.
The problem was caused by a lack of free disk space in the /tmp directory when MySQL was writing to disk its cache of large table joins. This was causing MySQL to crash with a mysterious error message («Incorrect key file for table '/tmp/#sql_12fd_1.MYI'; try to repair it»).
This new MySQL server has had a series of minor incidents since it has been put online last week. However, the MySQL configuration is now redudant and, once its configuration is stabilised, it should help us to greatly reduce downtime (we also need to improve the redundancy of the Apache web server).
Furthermore, this incident was a good demonstration of a feature in our automated monitoring system (nagios), which now automatically calls the cell phone of the on-call sysadmin if an incident is not acknowledged within 5 minutes. It was therefore possible to wake up a sysadmin within a few minutes of the incident, at 4 AM.
Thank you for your understanding,
The sysadmin committee of Koumbit
Nouveau serveur MySQL en ligne
Le nouveau serveur est maintenant en production comme nouveau serveur MySQL. Ceci devrait améliorer la performance de l'hébergement sensiblement, mais il reste encore de l'optimisation à faire sur le serveur afin de s'assurer qu'il utilise le maximum de la nouvelle puissance...
Mise à jour du roadmap de load balancing
J'ai mis à jour le roadmap de la répartition de charge, qui encourt certains délais. Voir ce commentaire pour plus de détails. Nous continuerons à mettre à jour le billet ainsi que la page wiki.
Coupure dûe à un problème de système de fichiers
Nous avons subi une courte (2h) coupure (2h30) ce matin dû au système de fichiers du serveur principal qui a soudainement décidé de devenir en lecture seule. Le service de courriel fut la principale victime du phénomène, qui a été rapidement (en 1h) mis sous contrôle par l'équipe technique. Un bref timeline:
- 08:01: erreur du système de fichier
- 08:30: premier personne qui le remarque sur IRC
- 09:00: mathieu se connecte à IRC et commence l'intervention (umount/sync de /var/alternc)
- 09:25: mathieu réveille antoine
- 09:50: on enlève /var/alternc du fstab et on reboot homere par le PDU
- 09:53: homere back, ping, on a remonté /var/alternc sans problème, tout ok
- 10:01: tout est de retour à la normale
Toutes les heures sont dans le fuseau horaire EDT/HAE (-0400). Notez que ce genre de problème pourra être plus rapidement résolu avec le système de redondance, que nous prévoyons toujours déployer fin août.
Updates:
- nouveau crash du filesystem, un fsck complet est lancé. (11:02)
- fsck fini, tout devrait être de retour (11:39)
Maintenance jeudi le 29
English follows.
Il y aura quelques coupures jeudi prochain (le 29 mai) entre 15:00 et 15:30 (HAE) alors que nous alons redémarrer tous les serveurs physiques et virtuels pour être mettre à jour les noyaux Linux suites à la publication de problèmes de sécurité récents.
L'hébergement principal et les serveurs virtuels verront des courtes coupures (~3 minutes) durant la fenêtre de maintenance. Le routage et les machines en colocation ne devraient pas être affectées mais si vous voulez redémarrer vos serveurs, c'est un bon moment car nous aurons du personnel en place.
Les gens intéressés à visiter le centre de données ou leur matériel sont invités à se présenter à 14:00 au centre de données.
Notez finalement que cette opération nous permettera de mettre en place le nouveau serveur de bases de données qui sera bientôt complètement fonctionnel. Nous enverrons une autre annonce à ce moment.
EnglishThere will be short cascading outages next thursday (may 29th) between 15:00 and 15:30 (EDT) as we reboot all servers and virtual servers to follow Linux security upgrades.
Main hosting and vservers should have short outages during the maintenance window (~3 minutes). Routing should not be affected in the main cabinet so colocated machines should not be affected, although it would be a good time for colocated machines to be rebooted as we'll have people on site.
People interested in visiting the datacenter or their hardware are welcome to show up at 14:00 at the datacenter.
Note that this operation will also provide us with a new database server, which will be racked but not yet fully operationnal. We'll send another announcement when ready.
Problème de login à phpmyadmin résolu
Depuis mardi une erreur technique survenait lorsque l'on essayait de se connecter à phpmyadmin par AlternC (RtTicket:15398). Le problème est maintenant résolu. Désolé pour les inconvénients!
La fourmi
Abonnez-vous à notre bulletin
