vendredi 17 août 2007

TANAGRA pour Data Mining

TANAGRA est un logiciel gratuit de Data mining destiné à l’enseignement et à la recherche. Il implémente une série de méthodes de fouille de données issues du domaine de la statistique exploratoire, de l'analyse de données, de l’apprentissage automatique et des bases de données.

C'est un projet ouvert au sens qu'il est possible à tout chercheur d'accéder au code, d'ajouter ses propres algorithmes et de diffuser, toujours gratuitement, le logiciel modifié.

Finalement, Tanagra est aussi le nom d'un cité grècque d'où vient la statuette que vous voyez ici.

(Source: Wikipédia)

Si vous n'avez pas les moyens pharamineux de vous acheter un logiciel commercial tel que Clémentine, et que vous ne pouvez pas vous donnez la peine d'apprendre le language de programmation R, c'est une bonne solution pur vous.

Il vous permet de faire un peu tous que l'on fait en statistiques: les méthodes univariés et multivariés, les cartes topologique et les l'apprentissage supervisé.

Ce qui est bien, c'est que le code source est ouvert et gratuit, et donc - comme son concépteur Ricco RAKOTOMALALA l'indique, c'est un vrai laboratoire pour appredre à la fois la statistique, l'appretinssage artificeil et la programmation en Delphi.

Je l'ai installé, et il a fonctionné sans bug - ce qui est déjà bien pour un logiciel libre- mais je l'ai pas testé complètement. Finalement, je ne sais pas pourquoi ce projet est un peu abandonné, et qu'il n'y a pas de communauté autour. Il peut faire un logiciel libre contre la présence monopole de Clémentine.


Un petit bémol: le choix du langage de programamtion. Je pense que s'il était écrit en Java ou Python, il aurait pu mieu s'équiper d'une communaté de soutien, chose qu'il ne semble pas être le cas en ce moment. Mais en tout cas, bravo pour l'idée et la conception.

Lien vers le site du Tanagra

A plus,

2 commentaires:

Edgar Rojas a dit…

Bonjour,
Je suis en ce moment en phase d'apprentisage de l'outil tanagra. En cherchant des infos sur un choix entre tanagra et welka, je suis arrivé à votre blog. Bien que le propos de votre article n'est pas de réaliser ce comparatif, j'ai trouvé la dernière phrase intéressante dès mon point de vue. Ce qui m'a incliné à choisir tanagra ce précisement sa facilité à l'usage : mon approche est celui de l'adaptation des outils aux utilisateurs à n'importe quel place de la chaîne opérationnelle. Pour des professionnels de la santé travaillant au cotidian sur le terrain, c'est un peu compliqué d'avancer sur la fouille et l'analyse de données avec des logiciels plutôt conçus avec une mentalité d'"informaticiens",c.a.d., que pour des experts en langages.

Massoud Toussi a dit…

ٍBonjour,
En effet, entre temps j'ai eu l'occasion de tester plus profondément Tanagra, et je peux dire que je suis plutôt satisfait par son ergonomie, et plutôt déçu par ses modules d'imprort. J'avais un fichier Excel avec 80 champs et 500 ligne, et je n'ai pas réussi à l'importer avant de passer une heure pleine avec le logiciel.
D'autre part, le nouveau logiciel gratuit dont j'ai parlé plus récemment dans mon blog, Rapid Eye, a l'avantage de gratuité de Tanagra plus le fait qu'il utilise Weka comme une parite de son moteur, et encore il est plus élaboré graphiquement. Aujourd'hui si je suis à choisir, je choisirais d'abord Rapid Eye, et ensuite Tanagra; et si je suis amené à choisir un environnement avec un langage, je préférerais le R à Weka.