begin process at 2012 02 13 20:40:38
  Trouver un code source :
 
dans
 

39 commentaire(s) de PoulpHunter sur des sources sur tout CodeS-SourceS

Déposé sur Distance de jaro-winkler

nan pas d'erreur de compilation
y'avais une erreur de <= à corriger, décidément !
les mots de 1 caractères sont tout de même pas pris en compte (d'après le jaro winkler officiel)

Sinon tu peux jouer sur les paramètres de la boucle for (j...
par exemple de j=0;j<l2;j++
cela permettra de vérifier tout les caractères (et marchera pour les mots de 1 lettre)
mais c'est plus le Jaro-Winkler officiel.
A mon avis on pourrais mettre un plus grand écart de recherche (quand même pas de 0 à l2) cela permettrait de meilleurs résultats.
Il y a aussi l'importance que l'on accorde au préfixe, ici 0.1 qui peut être modifié, par contre ici je penses c'est une bonne valeur.

Je sais pas si tu connais des textes ou l'ordre des lettres est inversé, tant que la première et la dernière lettre sont corrects et que le mot reste un anagramme alors le cerveau arrive à le comprendre sans problème, en se basant sur ce principe (pour la correction orthographique) pourquoi ne pas accorder aussi une importance au suffixe ?
Je penses un préfix max de 4 lettres coeff 0.1 et suffixe max 2 lettres coeff 0.08 est un assez bon réglage.
Enfin sa peut faire l'objet d'une autre source (ou en complément de celle-ci) je vais voir.

Merci pour tes tests en tout cas !
Posté le : 08/04/2009 22:08:19

Déposé sur Distance de jaro-winkler

oups désolé j'avais pas testé mon code !
J'ai corrigé aussi le calcul du nombre de transposition et libération de la mémoire quand on en a plus besoin.

Je n'avais pas mis d'include ni de main pour poster seulement un algorithme pas un programme !
j'ai tout de même rajouté un main de test de la fonction.
Posté le : 08/04/2009 15:12:53

Déposé sur Algorithme soundex

Quand la roue est carré pourquoi pas la réinventer ? :p

Enfin je dit sa surtout parce que je trouves la VCL de Delphi bien trop lourde à mon gout...

Pour ajouter un truc utile il y a maintenant l'algo Metaphone qui est pas mal pour la similarité phonétique : http://fr.wikipedia.org/wiki/Double_Metaphone
Posté le : 07/04/2009 20:44:14

Déposé sur Distance de jaro-winkler

Ben pour les accents l'algo considère pareil une lettre accentuée qu'une autre lettre.
Pour y remédier on pourrais y incorporer juste avant un algo qui supprime les accents avant comparaison par exemple.

Et au faite pour Loda, si tu veux utiliser cet algo dans ton aglomérateur de news, ne te sert pas du côté Winkler (car sa compte plus le préfixe)
Utilise juste la distance de Jaro.
Posté le : 02/09/2008 17:06:05

Déposé sur Distance de jaro-winkler

Alors si on prend pour
A : la distance de Levenstein / Longeur max des 2 mots
B : la distance de Jaro
C : la distance de Jaro-Winkler
cela donne le tableau suivant :

Robert - Rupert
A=66.67%
B=77.78%
C=80%

Robert - Rubin
A=33.33%
B=57.78%
C=62%

Rupert - Rubin
A=33.33%
B=57.78%
C=66.22%

on constate que Robert ressemble plus à Rupert que Rubin (via tout les algos)
après on peut même dire via Jaro-Winkler que Rubin ressemble plus à Rupert qu'à Robert
mais sa c'est surtout parce que Winkler à rajouté le fait que le préfixe est plus important.
Posté le : 30/08/2008 00:20:23

Déposé sur Distance de jaro-winkler

Sa dépend ce que l'on entend par similaire.
Cet algo renvoi :
algo(MARTHA,MARHTA)=0.96
algo(DWAYNE,DUANE)=0.84
algo(DIXON,DICKSONX)=0.81

J'ai utilisé cet algo avec la source :
http://www.delphifr.com/codes/COMPARAISON-INTELLIGENTE-MOTEUR-RECHERCHE_39168.aspx

cela m' a donné des colonnes du style :
http://poulphunter1.free.fr/mot.jpg

pour ce qui est de gros texte, je ne sais pas ce que sa donne, mais sinon il doit être assez facile de porter cette source à des streams ou autre... (au lieu de strings : array of byte)

PS: c'est possible que je n'ai plus le net pour un ptit moment à partir de demain, au cas dsl de pas répondre de suite...
Posté le : 29/08/2008 14:50:22

Déposé sur Distance de jaro-winkler

Pour blueperfect : alors SoundEx est basé sur la phonétique, ici on veux juste savoir le % de ressemblance avec un autre mot (point de vue des lettres) pour la correction orthographique via dictionnaire par exemple.
SoundEx ne prend en compte que la ressemblance de prononciation.

Pour loda : alors sa y est j'ai remplacé les goto par des break, et sinon normalement le '_' ne devais pas poser de problème vu que la string n'étais pas réellement utile...
j'ai remplacé par un tableau de boolean ce qui fait le même boulot, pour moins de mémoire...
Posté le : 29/08/2008 11:36:35

Déposé sur Comparaison "intelligente" et moteur de recherche

Essai avec cet algo :
http://www.delphifr.com/codes/DISTANCE-JARO-WINKLER_47794.aspx

expliqué ici :
http://fr.wikipedia.org/wiki/Distance_de_Jaro-Winkler

sinon ta source est vraiment bien présentée ! explication mathématique bien sympa !
Posté le : 29/08/2008 01:54:51

Déposé sur Générateur de mailto antispam

Merci de cette précision !
c'est sur que basé sur un browser sa rique d'être impossible à empécher...

la j'ai tout de même rajouté une petite fonction qui boucle à l'infini dans le cas ou l'analyseur est mal programmé...

^^ sa me donne envie d'en faire un tiens !
Posté le : 10/01/2008 16:58:53

Déposé sur Msn - "ce que j'écoute" et pseudo ( nickname ) texte défilant...

Oui, ok j'ai pigé, non mon soft fait pas défiller le titre d'une musique jouée... il faut lui marquer le texte séparemment. C'est une bonne idée pour une prochaine version.
Posté le : 04/09/2007 22:17:55

1 2 3 4


Nos sponsors


Sondage...

Comparez les prix

CalendriCode

Février 2012
LMMJVSD
  12345
6789101112
13141516171819
20212223242526
272829    

Consulter la suite du CalendriCode

Photothèque

 
Développement réalisé par Nicolas SOREL (Nix) avec l'aide de : Cyril DURAND et Emmanuel (EBArtSoft), Merci à Vincent pour ses précieux conseils.
CodeS-SourceS.com© Toute reproduction même partielle est interdite sauf accord écrit du Webmaster
CodeS-SourceS.com© est une marque déposée tous droits réservés

Google Coop CodeS-SourceS Google Coop CodeS-SourceS
Temps d'éxécution de la page : 20,561 sec (4)

Nous contacter | Annoncer sur CodeS-SourceS | Mentions légales