Accueil
L'autonomisation technologique par l'innovation collective

Actualités du Réseau

Serveur de répartition de charge en ligne

Le serveur de répartition de charge (rtr1-canix2.koumbit.net) a finalement été mis en ligne correctement. Il s'agissait d'une simple erreur de syntaxe qui le rendait non fonctionnel. Depuis ce soir, donc, le serveur principal (homere) est surveillé. Si une coupure survient, le système va rediriger les utilisateurs vers une page d'erreur plus instructive au lieu de boucler ou de refuser la connexion. Éventuellement, les serveurs secondaires prendront le dessus, mais ceux-ci doivent encore être configurés, ce qui devrait être testé au cours du mois.

Il est possible que cette nouvelle configuration occasionne certains problèmes, si vous voyez des nouveaux problèmes avec le service, n'hésitez pas à nous contacter.

Catégories: Serveurs

Commit 122629 by anarcat

Antoine Beaupré : code sur drupal.org - ven, 20/06/2008 - 13:53
Commit #122629 by anarcat at 18:53 Provision: /modules/provision/db_server/provision.mysql.inc 1.3 fix grant revoke queries quoting, again

Commit 122627 by anarcat

Antoine Beaupré : code sur drupal.org - ven, 20/06/2008 - 13:48
Commit #122627 by anarcat at 18:48 Provision: /modules/provision/web_server/provision_apache_vhost_redirect.tpl.php 1.2 fix redirection with non-clean urls sites by using mod_rewrite instead of mod_alias

Commit 122617 by anarcat

Antoine Beaupré : code sur drupal.org - ven, 20/06/2008 - 13:06
Commit #122617 by anarcat at 18:06 Provision: /modules/provision/provision.module 1.33 fix site disabling by fixing a typo in the default URL

Commit 122613 by anarcat

Antoine Beaupré : code sur drupal.org - ven, 20/06/2008 - 12:56
Commit #122613 by anarcat at 17:56 Hosting: /modules/hosting/hosting.queues.inc 1.4 don't stop processing the queue on task failure. we assume tasks are intelligent enough to manage dependencies by themselves. Should close #273007

Commit 122612 by anarcat

Antoine Beaupré : code sur drupal.org - ven, 20/06/2008 - 12:53
Commit #122612 by anarcat at 17:53 Hosting: /modules/hosting/hosting.queues.inc 1.3 set the last_run and running parameters for queues to exactly the same timestamp, regardless of the time variable_set() takes to run

Coupure sur le réseau

La connectivité a été rompue dans le cabinet principal à 19:07 heure locale. Nous investiguons le problème. Nous avons repris contact avec les serveurs autour de 19:19 mais des problèmes subsistent.

Update: les services semblent être revenus vers 19:30. Nous nous informons à notre fournisseur d'accès pour obtenir des détails sur la coupure.

Catégories: Serveurs

MySQL: problème de performance résolu / performance problems solved

(English follows)

Lundi le 9 mai 2008, entre 4h et 5h30 (UCT-4), le serveur MySQL a eu des problèmes de performance importants. Ceci a affecté de nombreux services de Koumbit, incluant les sites web hébergés sur le principal serveur d'hébergement auto-géré (HAG), les courriels, FTP, etc.

Le problème a été causé par un manque d'espace disque pour la partition /tmp lorsque MySQL écrit sa cache de jointures de tables temporaires sur disque. Ceci avait pour effet de faire «planter» le serveur MySQL avec un mystérieux message d'erreur («Incorrect key file for table '/tmp/#sql_12fd_1.MYI'; try to repair it»).

Ce nouveau serveur MySQL a eu une série de petites pannes depuis sa mise en ligne la semaine dernière. Cependant, la configuration de MySQL est maintenant redondante et, une fois la configuration du serveur stabilisée, devrait nous aider à réduire les pannes (nous devons également améliorer la redondance d'Apache).

Par ailleurs, la panne étant survenue à 4h durant la nuit, cet incident fut une bonne démonstration d'une nouvelle fonction du système automatisé de veille (nagios), mise en ligne il y a 3 semaines. Nagios téléphone automatiquement le téléphone cellulaire de l'administrateur de veille lorsqu'une panne n'est pas résolue dans les 5 minutes.

Merci de votre compréhension,
Le comité sysadmin de Koumbit

English

On Monday the 9th of May 2008, between 4h and 5h30 (UCT-4), the MySQL server had major performance problems. This affected many Koumbit services, including the websites on the main self-managed server (HAG), e-mail, FTP, etc.

The problem was caused by a lack of free disk space in the /tmp directory when MySQL was writing to disk its cache of large table joins. This was causing MySQL to crash with a mysterious error message («Incorrect key file for table '/tmp/#sql_12fd_1.MYI'; try to repair it»).

This new MySQL server has had a series of minor incidents since it has been put online last week. However, the MySQL configuration is now redudant and, once its configuration is stabilised, it should help us to greatly reduce downtime (we also need to improve the redundancy of the Apache web server).

Furthermore, this incident was a good demonstration of a feature in our automated monitoring system (nagios), which now automatically calls the cell phone of the on-call sysadmin if an incident is not acknowledged within 5 minutes. It was therefore possible to wake up a sysadmin within a few minutes of the incident, at 4 AM.

Thank you for your understanding,
The sysadmin committee of Koumbit

Catégories: Serveurs

Commit 120203 by yrocq

Yann Rocq : code sur drupal.org - dim, 08/06/2008 - 15:38
Commit #120203 by yrocq at 20:38 Wordpress Import: /modules/wordpress_import/wordpress_import.module 1.1.2.14 @ DRUPAL-5 Vocabularies for tags and categories are now only created once if several files are imported.

Commit 120115 by yrocq

Yann Rocq : code sur drupal.org - sam, 07/06/2008 - 18:16
Commit #120115 by yrocq at 23:16 Wordpress Import: /modules/wordpress_import/wordpress_import.module 1.1.2.13 @ DRUPAL-5 #251634 by roedelius: fix comments importation in PHP 4

Koumbit déménage

Koumbit sur Technorati - ven, 06/06/2008 - 17:05
Koumbit déménage Soumis par paradiso le ven, 06/06/2008 - 17:05 dans la catégorieChez Koumbit Koumbit emménagera dans un nouveau local le 15 juin prochain. Veuillez noter que notre nouvelle adresse à partir de cette date sera: 6833 avenue de l'Épée Suite 308 Montréal (Québec) H2N 2C7 Il s'agit d'un espace de style loft situé dans le quartier Parc-Extension, près des voies de triage à la limite d'Outremont. Pour s'y rendre, comptez six minutes de marche vers le sud à partir du métro Pa
Catégories: Koumbit sur le Web

Nouveau serveur MySQL en ligne

Le nouveau serveur est maintenant en production comme nouveau serveur MySQL. Ceci devrait améliorer la performance de l'hébergement sensiblement, mais il reste encore de l'optimisation à faire sur le serveur afin de s'assurer qu'il utilise le maximum de la nouvelle puissance...

Catégories: Serveurs

Mise à jour du roadmap de load balancing

J'ai mis à jour le roadmap de la répartition de charge, qui encourt certains délais. Voir ce commentaire pour plus de détails. Nous continuerons à mettre à jour le billet ainsi que la page wiki.

Catégories: Serveurs

Coupure dûe à un problème de système de fichiers

Nous avons subi une courte (2h) coupure (2h30) ce matin dû au système de fichiers du serveur principal qui a soudainement décidé de devenir en lecture seule. Le service de courriel fut la principale victime du phénomène, qui a été rapidement (en 1h) mis sous contrôle par l'équipe technique. Un bref timeline:

  • 08:01: erreur du système de fichier
  • 08:30: premier personne qui le remarque sur IRC
  • 09:00: mathieu se connecte à IRC et commence l'intervention (umount/sync de /var/alternc)
  • 09:25: mathieu réveille antoine
  • 09:50: on enlève /var/alternc du fstab et on reboot homere par le PDU
  • 09:53: homere back, ping, on a remonté /var/alternc sans problème, tout ok
  • 10:01: tout est de retour à la normale

Toutes les heures sont dans le fuseau horaire EDT/HAE (-0400). Notez que ce genre de problème pourra être plus rapidement résolu avec le système de redondance, que nous prévoyons toujours déployer fin août.

Updates:

  • nouveau crash du filesystem, un fsck complet est lancé. (11:02)
  • fsck fini, tout devrait être de retour (11:39)
Catégories: Serveurs

Commit 118678 by anarcat

Antoine Beaupré : code sur drupal.org - ven, 30/05/2008 - 15:52
Commit #118678 by anarcat at 20:52 Provision: /modules/provision/provision.module 1.23 update comments regarding implemented features

Commit 118662 by anarcat

Antoine Beaupré : code sur drupal.org - ven, 30/05/2008 - 14:01
Commit #118662 by anarcat at 19:01 Provision: /modules/provision/provision.module 1.21
Provision: /modules/provision/web_server/provision_apache.module 1.10 make a 'this site is disabled' page target. people can override this by changing the provision_apache_disabled_url variable (no visible ui for that yet). See #259383

Commit 118659 by anarcat

Antoine Beaupré : code sur drupal.org - ven, 30/05/2008 - 13:51
Commit #118659 by anarcat at 18:51 Provision: /modules/provision/web_server/provision_apache.module 1.9
Provision: /modules/provision/web_server/provision_apache_vhost_redirect.tpl.php 1.1 more work on #259383: do not actually remove the apache configuration file when disabling a site. just removing the config file will not work since the default vhost kicks in and still allows the disabled site to work. instead, we create a custom vhost configuration file that redirects to a "disabled" url (that we should make configurable eventually). right now that url is just $base_url/disabled, which gives a page not found, but i'll work more on that