Défi fouille de textes : reconnaissance automatique des auteurs de discours - Campagne DEFT'05 (TALN'05) - Revue des Nouvelles Technologies de l'Information - RNTI - E10
Synopsis
La création du Défi Fouille de Textes, inspiré au départ de la tâche Novelty de TREC, a en réalité pour objectif principal de permettre aux chercheurs du monde francophone de confronter leurs travaux avec un problème, beaucoup plus que de primer une équipe, une méthode, ou un outil. Plusieurs défis existent dans le monde anglo-saxon et asiatique. De façon étonnante, le monde européen semble très réticent à accepter de telles comparaisons "objectives". Cela s'explique aussi évidemment par le manque d'intérêt des décideurs, qui ne se résolvent pas à financer de tels projets. Certains d'entre nous ont participé au défi TREC, organisé par le service des standards américains, et donc financé par l'état américain. Les sujets de travail proposés par l'équipe de TREC tendent à se modeler sur la volonté des participants. Du fait d'une forte participation statisticienne, ils se sont donc focalisés sur les problèmes de très grandes quantités de données, de traitement du bruit, plutôt que sur les problèmes de compréhension détaillée du contenu du texte. L'année où nous avons participé à TREC (2004), par exemple, le thème "bioinformatique" proposait une épreuve dans laquelle des renseignements précis et individualisés étaient à retrouver dans les textes. Ce sous thème n'a reçu qu'une seule réponse et a donc été abandonné l'année suivante au profit de sous thèmes plus populaires. Nous avons donc essayé de lancer une épreuve française dans laquelle nous tenterions de ne pas favoriser systématiquement une approche plutôt qu'une autre.
Nous nous sommes heurtés immédiatement à deux difficultés. D'une part, les volontaires pour créer le corpus du défi ont été submergés de travail. Au passage, nous remercions le Comité d'Organisation pour le remarquable travail dont ses membres donnent les détails dans un des articles de cette revue. La conception et surtout la réalisation de l'épreuve sont clairement des problèmes majeurs qui demanderaient des équipes fortement financées pour qu'on puisse sortir du superficiel. D'autre part, les participants eux-mêmes sont évidemment bien au courant des problèmes qui se posent et ils envoient aux organisateurs quantité de critiques hélas le plus souvent justifiées qui demandent donc un nouvel effort. Dans leur article, Azé et al. donnent des tableaux de résultats qui illustrent les problèmes rencontrés par les participants. Pour faire court d'une longue discussion, on peut dire que les systèmes qui s'attachent à la compréhension de la phrase obtiennent de bons résultats en précision, et des résultats bien inférieurs en couverture. Notre propre expérience de TREC va dans le même sens : notre approche favorise la compréhension et il nous est arrivé de "battre" tout le monde en précision, mais nous avons toujours été "écrasés" par notre manque de couverture. Ce numéro spécial de RNTI rassemble des articles décrivant les systèmes utilisés par les participants au défi. Tous les participants ne sont pas présents, soit parce qu'ils n'ont pas voulu contribuer, soit parce que leur contribution ne s'intégrait pas dans les critères universitaires d'acceptation d'articles décrétés par la revue. Du fait du travail exigé pour participer à notre défi, nous avons demandé le plus possible aux rapporteurs de fournir des critiques constructives permettant d'accepter des articles à première vue un peu justes du point de vue universitaire. Il nous ne nous pas été possible, à notre grand regret, d'accepter toutes les contributions, surtout celles dont la compréhensibilité ne s'améliorait pas. Cela explique le décalage assez long entre défi et publication.
Le premier article d'introduction à ce numéro spécial de la revue RNTI présente un état de l'art des différentes tâches de fouille de textes et pose les questions fondamentales concernant d'une part la notion d'évaluation, et d'autre part, ce que suppose la notion de reconnaissance d'auteurs, objet du défi. Le deuxième article proposé par le Comité d'Organisation traite de la préparation des données et présente les résultats obtenus par les participants. Par ailleurs, cinq articles de participants à DEFT'05 présentent les approches mises en oeuvre dans le cadre du défi. Nous félicitons les auteurs pour l'excellente qualité des articles publiés dans ce numéro.
Ce premier défi francophone de fouille de textes a été mis en place dans le cadre de la conférence TALN'05 (Traitement Automatique des Langues Naturelles). Nous remercions chaleureusement les organisateurs de TALN'05 qui nous ont permis de présenter les résultats du défi lors d'un atelier. Enfin, nos derniers remerciements s'adressent à l'AFIA et à EGC. Ces deux associations ont parrainé avec un réel enthousiasme DEFT'05 mais également DEFT'06 qui a eu lieu en septembre 2006. Pour 2007, nous avons passé la main à une nouvelle équipe organisatrice. Merci et bonne chance à eux.
Violaine Prince
Yves Kodratoff
Jérôme Azé
Mathieu Roche
Commander ce livre au
prix de
28,00
€
26,6
€
Classé sous : Textes, Défi, Articles, Participants, Trec
Livres en rapport
|
Derniers Blogs
PAS D'INTELLITRACE SUR MON SITE WEB DANS IIS !PAS D'INTELLITRACE SUR MON SITE WEB DANS IIS ! par Etienne Margraff
J'ai récemment eu un problème pour obtenir l'intelliTrace sur un site web dans IIS. Il n'y avait pas de message d'erreur, rien dans le journal d'évènement Windows, et après 3 appels à une voyante, 2 visites chez un marabou, j'ai failli me résign...
Cliquez pour lire la suite de l'article par Etienne Margraff OFFICE 365 - SHAREPOINT ONLINE, QUELQUES LIMITATIONSOFFICE 365 - SHAREPOINT ONLINE, QUELQUES LIMITATIONS par junarnoalg
De nombreuses entreprises font le choix de SharePoint Online, service fourni au travers de l'offre de Microsoft Office 365. S'il est vrai que ce choix apporte un grand nombre d'avantages; rapidité de mise en œuvre, disponibilité, large couvertu...
Cliquez pour lire la suite de l'article par junarnoalg PRéSENTATION DES API REST DE WINDOWS AZURE : LISTER LES COMPTES DE STORAGEPRéSENTATION DES API REST DE WINDOWS AZURE : LISTER LES COMPTES DE STORAGE par richardc
http://www.c2idotnet.com/articles/presentation-des-api-rest-de-windows-azure-lister-les-comptes-de-storage
Désolé pour "toto", mais c2i existait avant blogs.developpeur.org et c'est mon site "officiel" ;-) ...
Cliquez pour lire la suite de l'article par richardc [HTML5] SLIDES ET DéMOS : AUTOUR DU W3C , NOUVEAUX STANDARDS ET WEB MOBILE (LILLE)[HTML5] SLIDES ET DéMOS : AUTOUR DU W3C , NOUVEAUX STANDARDS ET WEB MOBILE (LILLE) par Gio
Très bonne après-midi passée lors cette conférence avec le W3C, organisée par L' Inria sur les nouveaux standards, ce Mardi 14 Février, on sent vraiment que çà bosse au W3C, et l'avenir est très très prometteur pour le HTML5, notamment ...
Cliquez pour lire la suite de l'article par Gio
Logiciels
DocTranslate (V3.1.0.0)DOCTRANSLATE (V3.1.0.0)DocTranslate est un traducteur de document Microsoft Word, PowerPoint et Excel. Il permet d'autom... Cliquez pour télécharger DocTranslate Tribler (2012)TRIBLER (2012)Tribler est un client pair à pair (P2P/Peer-to-Peer) open source avec la capacité de regarder des... Cliquez pour télécharger Tribler OneSwarm (2012)ONESWARM (2012)Le peer-to-peer qui protège votre vie privée, c'est OneSwarm.
Ce logiciel de peer-to-peer crypté... Cliquez pour télécharger OneSwarm PONAMEDIA PREMIUM - HELLLOOO FLASH DEMO (V8.4)PONAMEDIA PREMIUM - HELLLOOO FLASH DEMO (V8.4)PONAMEDIA TV DEVIENS HELLLOOO FLASH
LA TV SUR VOTRE ORDINATEUR.
Toute une plateforme Multi... Cliquez pour télécharger PONAMEDIA PREMIUM - HELLLOOO FLASH DEMO Academy System (17.2.1.0)ACADEMY SYSTEM (17.2.1.0)Logiciel de gestion des établissements.
- élèves/étudiants (inscription, dossier, absence...)
-... Cliquez pour télécharger Academy System
|