Vous ne trouvez pas de réponse à votre problème ? Alors posez la question dans le forum. Souvenez-vous qu'il n'y a jamais de question bête, mais rester dans l'ignorance parce que l'on n'ose pas poser une question, ça c'est une erreur !

42 commentaire(s) de PoulpHunter sur des sources sur tout CodeS-SourceS

Le : 08/04/2009 22:08:19
Source : DISTANCE DE JARO-WINKLER
nan pas d'erreur de compilation
y'avais une erreur de <= à corriger, décidément !
les mots de 1 caractères sont tout de même pas pris en compte (d'après le jaro winkler officiel)

Sinon tu peux jouer sur les paramètres de la boucle for (j...
par exemple de j=0;j<l2;j++
cela permettra de vérifier tout les caractères (et marchera pour les mots de 1 lettre)
mais c'est plus le Jaro-Winkler officiel.
A mon avis on pourrais mettre un plus grand écart de recherche (quand même pas de 0 à l2) cela permettrait de meilleurs résultats.
Il y a aussi l'importance que l'on accorde au préfixe, ici 0.1 qui peut être modifié, par contre ici je penses c'est une bonne valeur.

Je sais pas si tu connais des textes ou l'ordre des lettres est inversé, tant que la première et la dernière lettre sont corrects et que le mot reste un anagramme alors le cerveau arrive à le comprendre sans problème, en se basant sur ce principe (pour la correction orthographique) pourquoi ne pas accorder aussi une importance au suffixe ?
Je penses un préfix max de 4 lettres coeff 0.1 et suffixe max 2 lettres coeff 0.08 est un assez bon réglage.
Enfin sa peut faire l'objet d'une autre source (ou en complément de celle-ci) je vais voir.

Merci pour tes tests en tout cas !


Le : 08/04/2009 15:12:53
Source : DISTANCE DE JARO-WINKLER
oups désolé j'avais pas testé mon code !
J'ai corrigé aussi le calcul du nombre de transposition et libération de la mémoire quand on en a plus besoin.

Je n'avais pas mis d'include ni de main pour poster seulement un algorithme pas un programme !
j'ai tout de même rajouté un main de test de la fonction.


Le : 07/04/2009 20:44:14
Source : ALGORITHME SOUNDEX
Quand la roue est carré pourquoi pas la réinventer ? :p

Enfin je dit sa surtout parce que je trouves la VCL de Delphi bien trop lourde à mon gout...

Pour ajouter un truc utile il y a maintenant l'algo Metaphone qui est pas mal pour la similarité phonétique : http://fr.wikipedia.org/wiki/Double_Metaphone


Le : 02/09/2008 17:06:05
Source : DISTANCE DE JARO-WINKLER
Ben pour les accents l'algo considère pareil une lettre accentuée qu'une autre lettre.
Pour y remédier on pourrais y incorporer juste avant un algo qui supprime les accents avant comparaison par exemple.

Et au faite pour Loda, si tu veux utiliser cet algo dans ton aglomérateur de news, ne te sert pas du côté Winkler (car sa compte plus le préfixe)
Utilise juste la distance de Jaro.


Le : 30/08/2008 00:20:23
Source : DISTANCE DE JARO-WINKLER
Alors si on prend pour
A : la distance de Levenstein / Longeur max des 2 mots
B : la distance de Jaro
C : la distance de Jaro-Winkler
cela donne le tableau suivant :

Robert - Rupert
A=66.67%
B=77.78%
C=80%

Robert - Rubin
A=33.33%
B=57.78%
C=62%

Rupert - Rubin
A=33.33%
B=57.78%
C=66.22%

on constate que Robert ressemble plus à Rupert que Rubin (via tout les algos)
après on peut même dire via Jaro-Winkler que Rubin ressemble plus à Rupert qu'à Robert
mais sa c'est surtout parce que Winkler à rajouté le fait que le préfixe est plus important.


Le : 29/08/2008 14:50:22
Source : DISTANCE DE JARO-WINKLER
Sa dépend ce que l'on entend par similaire.
Cet algo renvoi :
algo(MARTHA,MARHTA)=0.96
algo(DWAYNE,DUANE)=0.84
algo(DIXON,DICKSONX)=0.81

J'ai utilisé cet algo avec la source :
http://www.delphifr.com/codes/COMPARAISON-INTELLIGENTE-MOTEUR-RECHERCHE_39168.aspx

cela m' a donné des colonnes du style :
http://poulphunter1.free.fr/mot.jpg

pour ce qui est de gros texte, je ne sais pas ce que sa donne, mais sinon il doit être assez facile de porter cette source à des streams ou autre... (au lieu de strings : array of byte)

PS: c'est possible que je n'ai plus le net pour un ptit moment à partir de demain, au cas dsl de pas répondre de suite...


Le : 29/08/2008 11:36:35
Source : DISTANCE DE JARO-WINKLER
Pour blueperfect : alors SoundEx est basé sur la phonétique, ici on veux juste savoir le % de ressemblance avec un autre mot (point de vue des lettres) pour la correction orthographique via dictionnaire par exemple.
SoundEx ne prend en compte que la ressemblance de prononciation.

Pour loda : alors sa y est j'ai remplacé les goto par des break, et sinon normalement le '_' ne devais pas poser de problème vu que la string n'étais pas réellement utile...
j'ai remplacé par un tableau de boolean ce qui fait le même boulot, pour moins de mémoire...


Le : 29/08/2008 01:54:51
Source : COMPARAISON "INTELLIGENTE" ET MOTEUR DE RECHERCHE
Essai avec cet algo :
http://www.delphifr.com/codes/DISTANCE-JARO-WINKLER_47794.aspx

expliqué ici :
http://fr.wikipedia.org/wiki/Distance_de_Jaro-Winkler

sinon ta source est vraiment bien présentée ! explication mathématique bien sympa !


Le : 10/01/2008 16:58:53
Source : GÉNÉRATEUR DE MAILTO ANTISPAM
Merci de cette précision !
c'est sur que basé sur un browser sa rique d'être impossible à empécher...

la j'ai tout de même rajouté une petite fonction qui boucle à l'infini dans le cas ou l'analyseur est mal programmé...

^^ sa me donne envie d'en faire un tiens !


Le : 04/09/2007 22:17:55
Source : MSN - "CE QUE J'ÉCOUTE" ET PSEUDO ( NICKNAME ) TEXTE DÉFILANT/CLIGNOTANT/DATE/HEURE ...
Oui, ok j'ai pigé, non mon soft fait pas défiller le titre d'une musique jouée... il faut lui marquer le texte séparemment. C'est une bonne idée pour une prochaine version.



1 2 3 4


Nos sponsors

Sondage...

CalendriCode

Juillet 2009
LMMJVSD
  12345
6789101112
13141516171819
20212223242526
2728293031  

Consulter la suite du CalendriCode

Comparez les prix Nouvelle version

Photothèque Nouveau !



Développement réalisé par Nicolas SOREL (Nix) avec l'aide de : Cyril DURAND et Emmanuel (EBArtSoft), Merci à Vincent pour ses précieux conseils
CodeS-SourceS.com© Toute reproduction même partielle est interdite sauf accord écrit du Webmaster
CodeS-SourceS.com© est une marque déposée tous droits réservés
Temps d'éxécution de la page : 0,172 sec

Google Coop CodeS-SourceS Google Coop CodeS-SourceS


Certaines images présentes sur le site (notament certains avatars) sont issues des collections IconShock, donc si vous souhaitez utiliser ces icons vous devez les acheter, ne les copiez pas et ne utilisez pas dans vos sites et applications sans les avoir commandé.