Archives du mot-clé gennus

photoblogdeclement.blogspot.com

Un nom, deux prénoms, un lieu, deux naissances, un mariage, deux parents, une vie. Une femme. Un doute.

Voici une question que je vous soumets, non pas une épine à débloquer mais un petit truc qui cloche. Vous savez, un petit doute sur lequel on va choisir de fermer les yeux mais qui nous tiraillera toujours. Une probabilité qui n’est pas de 100%, deux individus qui auraient trop en commun, ou un seul dont on a mal retranscrit au fil du temps les données.

Je vous présente donc une jeune femme de 20 ans, Marie Catherine SALABERT. Elle se marie le 16 février 1873 avec son amour de 27 ans, Jacques COMBETTE. D’après l’officier de l’état civil, qui aurait eu sous les yeux son acte de naissance, elle serait née le 19 mars 1852.

1873-combette-jacques-salabert-marie-catherineMais je ne sais pas trop ce qu’il a eu sous les yeux, le bon Eugène MOURE, car moi je ne l’ai pas vu son acte de naissance.

Voilà ce que je trouve dans les tables décennales (j’ai aussi cherché dans les registres d’actes de naissance de 1852, je pense possible qu’un acte passe aux oubliettes dans les tables décennales, avec le même résultat) :

1850-enigme-salabert-marie-catherinePremier constat, il n’y a pas de naissance SALABERT en 1852, à Frontignan. Mais il y a une Catherine qui est née le 12 février 1851.

En cherchant son acte de naissance on retrouve :

1851-argellies-catherineCatherine SALABERT, née le 11 février 1851, de Marie MATHIEU dite Bonnel et de Jean Baptiste Pierre SALABERT, deux agriculteurs de Frontignan (les mêmes que ceux du mariage, évidemment).

Alors en résumé, ça ne me semble pas bien compliqué mais nous avons

Marie Catherine SALABERTnée le 12 mars 1852 à Frontignan
source : acte de mariage
acte non trouvé dans les registresFille de Jean Baptiste Pierre SALABERT
et Marie MATHIEU dite Bonnel
acte de mariage

et qui se marie avec Jacques COMBETTE en 1873
acte de mariage

Catherine SALABERTnée le 11 février 1851 à Frontignan
acte de naissance 

Fille de Jean Baptiste Pierre SALABERT
et Marie MATHIEU
acte de naissance

Alors je calcule une probabilité dans ma tête, rapidement, comme un SmartMatches de MyHeritage et je pense qu’il s’agit de la même personne. Mais pas à 100%. Mais si vous pensez que Marie Catherine et Catherine ne font qu’une, alors la probabilité va encore augmenter.

Mais je n’en serai jamais sur. C’est aussi ça le sel de la généalogie.

L’année dernière, j’avais déjà eu une énigme similaire (bien que plus compliquée) car la question posée était :

Avec quelle probabilité puis-je considérer

1) Jean François Carrot, né vers 1804, cultivateur-granger, époux de (Marguerite Farisier ménagère née entre 1808-1810), et décédé avant 1874 et

2) Pierre Carrot, journalier, né vers 1806, époux de (Marguerite Farissier ménagère née en 1808), et décédé en 1872

comme étant la même et unique personne ?

Et j’avais alors essayé de créer un score de probabilité d’identification. Je partais du principe que plusieurs données caractérisent un individu. Le nom, le prénom, le lieu de naissance, la date de naissance, le nom des témoins, l’époux, les enfants, les parents, les cousins. Ces données n’ayant pas toute la même force d’identification (un métier similaire est moins puissant à mon sens qu’un nom de famille similaire) j’avais créé un système de pondération.

Ainsi, deux individus étaient considérés comme différents et je calculais à partir de leurs données la probabilité qu’ils soient identiques.

Finalement, tout cela était trop compliqué à utiliser en routine et je m’en étais donc remis au bon sens.

Et dans la discussion avec Pierre de Gennus.org, je m’étais rendu compte qu’il partait d’un postulat différent. Il considère en premier lieu que les deux individus sont identiques et calcule leur « écart » via le système d’empreinte. Une bonne idée probablement plus simple à mettre en pratique.

PS : si vous aimez les énigmes généalogiques, les imprévus, il y en a plein ce mois ci dans de nombreux blogs francophones, car c’est le mois de l’entraide et des épines. 

05369762-photo-clavier-partage-web-buttons-inc-fotolia-com

L’apologie du partage de données sans limites

Il y a quelques temps, j’ai réagi à un article de Geneamick sur le partage des données via twitter.

Il était remonté contre un autre utilisateur de Geneanet qui a copié sans ménagement tout un pan de son arbre pour le reproduire à l’identique, photographies inclues, dans son compte personnel. On appelle le copieur un « pilleur » dans le jargon des généanautes et il y a des témoignages de victime de pilleurs chaque semaine sur le forum officiel de geneanet. Si bien que pour dénicher les pilleurs, certains geneanautes disséminent des erreurs volontaires dans leurs arbres afin de jouir de la reproduction à l’infini de cette erreur. « Voyez comme ce sont de mauvais généalogistes, ils copient sans vérifier ! ».

La conséquence est évidemment désastreuse pour le copié (qui finit par ne plus partager), pour le copieur (qui a un arbre vraiment pourri s’il multiplie les pillages) et pour geneanet surtout (dont la crédibilité décroit au fil des pillages).

Alors pourquoi est-ce que la victime est énervée contre le pilleur ? Evidemment parce qu’elle se sent volée, parfois même violée, car le résultat d’années de recherches est sans ménagement, sans égards, copié, déformé, reproduit comme si cela n’était rien. Car toute son histoire familiale est reprise, comme appropriée par un autre, comme si on lui volait ses ancêtres. Et puis parce qu’il n’est pas cité comme la source du travail effectué.

Voici mon apport à ce débat, sans fin, qui me passionne autant que beaucoup d’entre vous.

05369762-photo-clavier-partage-web-buttons-inc-fotolia-com

Pourquoi je partage mes données sur geneanet ?

Je pense que c’est la une question fondamentale qui peut expliquer certaines choses. Il y a deux versions qui s’affrontent, se mélangent, s’unissent et se séparent. D’abord je publie pour partager. Réellement partager. C’est-à-dire que je veux vraiment montrer à la communauté des généalogistes qui sont mes ancêtres et pouvoir bénéficier des connaissances de la communauté pour m’aider à remonter plus loin.

C’est via geneanet que j’ai pris contact avec une femme d’une soixantaine d’année qui se trouve être la cousine germaine du grand-père de ma copine (oui, le lien est ténu, mais présent) avec qui les échanges ont été fructueux. Elle a pu me donner des photographies d’époque, des informations que je ne possédais pas. En échange, je lui ai volontiers partagé des informations sur les plus jeunes générations de la famille Carrot. Nous étions tous les deux ravi de cet échange et en sortions enrichis.

Mais je publie également pour flatter mon égo, ne serait-ce qu’un peu. Nous avons tous un égo à flatter et publier un arbre toujours plus beau, gros, bien sourcé est une source de flatterie pour moi, pouvant paraître étonnante, mais réelle. Mais je suis sur que de nombreux lecteurs sont dans ce cas, sans pour autant se l’avouer ou en avoir conscience. Je suis parfois tellement fier d’avoir trouvé l’ancêtre que je cherche depuis deux ans. Il faut me comprendre !

Alors oui, celui qui me vole la date de naissance de mon SOSA en quelques clics alors que j’ai fait 300km, passé deux ans de recherche et de nombreuses heures sur internet pour trouver un acte, oui, ce-dernier m’irrite.

Mais la deuxième raison pour laquelle je publie ne doit pas surpasser la première, car c’est une raison négative, inutile et qui ne fera pas avancer la généalogie. Geneamick a certainement (je parle au conditionnel, je ne le connais pas) été touché dans son égo car tout son travail a été volé sans qu’il ne soit mentionné, alors qu’il est d’ailleurs un des seuls descendants de cette lignée. Je le comprends, mais je ne le soutiens pas.

A qui appartiennent mes données généalogiques ?

Se sentir volé, c’est aussi se sentir propriétaire des données volées. Mais nous appartiennent-elles vraiment.

Voilà une question épineuse à laquelle je ne peux pas répondre sans l’aide bienveillante de Jordi Navarro qui l’explique dans un excellent billet. A lire absolument.

Mais pour faire simple, votre base de donnée publiée sur geneanet est constitué de trois « morceaux » :

Les données = Le contenu
C’est-à-dire nos ancêtres, leurs dates de naissance etc. Elles sont des données publiques, et ne nous appartiennent pas. Je ne suis pas propriétaires du prénom et de la date de naissance de mon ancêtre en somme. Mention spéciale pour les photographies de Geneamick qui, probablement, sont les siennes.

La base = Le contenant
Sauf pour ceux (et il y en a sur ce blog) qui font leurs propres logiciel, le contenant ne nous appartient pas. De toute façon, pour partager des données, il faut que le contenant soit commun et donc, le plus souvent, il ne nous appartient pas. Que ce soit geneweb qui propulse notre arbre geneanet, gedcom qui permet le transfert du logiciel vers geneanet ou notre logiciel, rien n’est à nous, même si nous avons payé pour l’utiliser.

Le travail pour mettre le contenu dans le contenant.
La seule chose dont nous pouvons être fier, ce qui flatte l’égo, c’est le travail effectué. Il ne peut pas être couvert par aucun droit « d’auteur » puisque nous ne sommes que des amateurs. Il en va  certainement différemment des professionnels, et leur avis éclairé dans les commentaires me permettra d’en savoir plus sur la protection de leur travail.

En somme, rien ne nous appartient en généalogie. Rien. Il faut donc le savoir.

Est-ce que la copie de mes données me porte préjudice ?

Non, à moi, elle ne me porte pas préjudice. Elle me blesse dans mon égo, pendant un moment, mais elle ne m’enlève pas le plaisir de la recherche. Et encore moins le plaisir de partager.

Par contre, si Jordi mentionne qu’elle peut porter préjudice au copieur dans ses recherches futures, je rajoute qu’elle peut surtout porter préjudice aux individus copiés (si ce sont des contemporains) et il est absolument nécessaire de protéger les contemporains avant l’export gedcom. Et puis cela porte préjudice à la communauté des généalogistes car la notion de partage est froissée, dénaturée, la crédibilité de certains sites est remise en cause et de nombreux généalogistes parmi les plus illustres vont se refuser à publier leurs données pourtant très bien documentées. Dommage.

Comment aller à l’encontre des pilleurs ?

Une fois que mon point de vue est exposé, on va avoir l’impression que les pilleurs auront de beaux jours devant eux. Je ne crois pas.

Page contact   Clement BECLE  clementbecle    GeneaNetJe pense que l’idée de gennus pour valoriser les généalogistes les mieux documentées, et les généalogies les plus sourcées devrait être reprise par de nombreux sites de partage de données. Geneanet a déjà commencé en placardant un indice Geneanet sur les pages profils.

Il suffirait ensuite à geneanet de repérer via matching les doublons dans sa base de données et de présenter dans la page résultats de l’arbre des données similaires dont l’auteur aurait un meilleur Indice Geneanet.

Ainsi les pilleurs ne se voyant affublés que d’un indice geneanet tout petit serait-il probablement blessé … dans leurs égos. Si cela peut leur permettre de découvrir les joies de la recherche documentaire, ils verraient toutes les possibilités et tous les bonheur de la recherche en salle, ou derrière l’écran des archives en ligne. Cela pourrait avoir un but pédagogique.

Enfin, je pense que la collaboration, la création de belles bases de données bien sourcées et documentées en utilisant les forces de la communauté est ce qu’il y a de mieux pour lutter contre les collectionneurs d’ancêtres. Et c’est pourquoi le résultat du #ProjetTHMPF1418 lancé en 2013 sera en licence CC BY-SA (ou équivalent) afin de pouvoir le diffuser le plus largement possible. 

Comme j’aime cette notion de partage à l’infini, sachez également que toutes les données de ce blog sont en licence CC BY-SA (vous pouvez copier tout l’article, le vendre, le couper, le modifier) et que vous pouvez aussi recopier toute ma généalogie. Je ne vous en voudrai pas. 

tree

Deux start-ups françaises de généalogie prometteuses : #1 Gennus.org

La philosophie des start-up du net est assez simple : une idée = une entreprise (se résumant le plus souvent à quelques employés, un serveur internet, un site, et de l’huile de coude). Et des idées dans le monde de la généalogie, gennus.org et brozer.fr en ont de bonnes.

logo de gennus.org

logo de gennus.org

Gennus.org, une ambition d’arbre généalogique universel, mondial, gratuit, amélioré par la communauté.

La première start-up que je souhaite présenter c’est gennus.org. Actuellement en phase de développement bêta (donc de tests et d’amélioration quotidienne, dans une version instable) ce site est ambitieux. Le projet démarre en janvier 2011 quand Pierre et Bastien commencent à s’intéresser à leurs généalogies. Ces deux informaticiens souhaitent proposer un service innovant de généalogie à base de matching : en mettant en ligne mon arbre généalogique via un import gedcom, gennus.org me proposera un matching (un individu similaire d’un arbre d’un autre utilisateur) que je pourrai valider ou non. Il me proposera ensuite d’enrichir mon arbre avec les données des autres internautes. Mais Pierre et Bastien vont encore plus loin : ils veulent créer un arbre universel de qualité sur une plateforme mondiale (donc multilangue) gratuite et sans utilisation commerciale des données. Quelle ambition ! Mais sans elle, point de travail acharné.

arbre universel gennus.org

L’arbre universel, un vieux fantasme de généalogiste bien plus compliqué à mettre en place qu’il n’y parait.

La qualité de ce service s’évaluera à mon avis sur plusieurs points :

1) La qualité du matching, c’est-à-dire de la pertinence des propositions d’individus similaires. J’ai récemment (suite à cet article) réfléchi à cette problématique qui est compliquée : comment savoir que deux individus sont identiques vu les variations possibles d’écriture de patronymes, des prénoms, des métiers, des dates (et la gestion de calendriers différents), des lieux de vie, des conjoints potentiels etc. J’en était arrivé à une question presque philosophique : « qu’est-ce qui définit un individu ? ». Autant dire que je m’étais perdu dans ma propre réflexion. Pris sous un angle différent, cette problématique se résume à une reconnaissance efficace des doublons dans la base de donnée. Sur ce sujet, Heredis se casse les dents (la gestion des doublons dans ma généalogie est catastrophique), geneanet a du mal, seul MyHeritage propose des SmartMatchs a peu près cohérents. C’est la création de cet algorithme de « gestion des doublons » qui est le cœur de métier de Pierre et Bastien. La qualité du site sera principalement définie par la pertinence des matchings, et donc par la qualité de l’algorithme. Voilà comment travaille l’algorithme : En fait, ce n’est pas seulement l’individu qui est analysé, mais tout son environnement, ce qu’il est mais également ce qu’il a vécu, ses parents, ses conjoints, ses enfants. Pierre nomme cela une empreinte. Dans un premier temps, il faut extraire toutes les empreintes de chaque arbre en ligne, puis l’algorithme compare les empreintes une à une; enfin le site propose les empreintes similaires à l’utilisateur concerné et les soumet à la validation de l’humanae intelligentiae, car c’est bien l’utilisateur qui a le dernier mot et décide si « son » Jean Martin est le même que celui proposé par l’algorithme.

Un algorithme très puissant donc, qui intégrera de nombreuses variables, simulant l’intelligence et la réflexion du généalogiste quand il travaille sur son arbre. Et cet algorithme sera affiné tous les jours par les actions de la communauté.

L'algorithme, difficile à mettre en place, mais indispensable au succès de gennus.org

L’algorithme, difficile à mettre en place, mais indispensable au succès de gennus.org

2) La qualité des données mises en ligne sur le site : en effet, si les données mises en ligne sont fausses, on me proposera des données fausses pour enrichir ma généalogie qui deviendra… fausse également. Bref ce point est crucial et j’avoue qu’une longue discussion récemment avec Pierre sur ce sujet m’a largement rassuré. En effet, le service proposera un système d’authority rank, c’est-à-dire que les arbres et les généalogistes se verront attribuer une « note » de qualité. Par exemple, je m’inscris sur le site avec une généalogie petite, mais complète, bien sourcée, et dont les informations sont fiables : ma généalogie sera bien notée, mon arbre fera autorité parmi les autres. Ainsi si une généalogie X similaire de mon arbre voit le jour sur le site comprenant des erreurs (un cousin moins assidu dans ses recherches, un co-pilleur d’arbre comme sur geneanet) , gennus.org comprendra grâce à mon autorité élevée que mon arbre est plus fiable que celui de M. X. Et les matchings que proposera le site se feront principalement à partir de mes données plutôt que celles de X.

En sera-t-il alors fini des erreurs de généalogie qu’on voit se propager sur tous les arbres geneanet, dont on ne sait plus trier le bon grain de l’ivraie ? Pas si sur, mais nous le verrons à l’usage.

3) La qualité de l’import gedcom : le généalogiste est un passionné, qui aime parfois le labeur des listes et des relevés exhaustifs. Mais le généalogiste n’aime pas devoir faire plusieurs fois la même chose. Ainsi l’import gedcom devra être propre et exhaustif quel que soit le logiciel qui a généré le gedcom. Vu que la norme gedcom est ancienne, vu qu’aucun logiciel ne respecte parfaitement la norme gedcom, vu que les calendriers utilisés peuvent varier, ce travail d’import propre devra être prédominant. C’est d’ailleurs cela qui est principalement analysé dans cette première version bêta.

La communauté, ciment de l'algorithme pour faire marcher gennus.org

La communauté, ciment de l’algorithme pour faire marcher gennus.org

4) La qualité de la communauté : il semble évident à ce stade que gennus.org sera un site communautaire, et nécessitera de nombreuses actions des utilisateurs pour s’affiner, progresser et devenir une référence. Sans une communauté active, efficace et nombreuse, l’algorithme ne s’affinera pas, le nombre de données sera faible et le service rendu inutile. Gennus revendique dans sa version bêta1.0  35 testeurs pour 25.000 fiches créées qui éprouvent chaque jour la plateforme. 250 généalogistes seraient en attente d’un accès pour la prochaine version d’essai.

L’ambition des créateurs de ce site va plus loin : pourquoi ne pas créer un arbre universel de qualité en intégrant les données des meilleures généalogies du site ? Plusieurs grands acteurs se sont déjà cassés les dents sur un tel projet, mais le système d’autorité avec des arbres de grande qualité et des généalogistes fiables pourrait surmonter les problématiques que rencontrent actuellement les grands sites participatifs.

Enfin, je dois signaler que la philosophie du site me plait : une interface qui promet d’être lisible, claire, rapide et simple (« à la google » dira Pierre Ammeloot) le tout propulsé par un site gratuit, sans publicité, sans but lucratif et sans réutilisation commerciale des données (qui a dit wikipédia ?).

Le financement du site devrait se faire via le fundraisings : les utilisateurs de ce service gratuit pourront effectuer des dons à gennus. Mais la participation au site ne sera pas uniquement financière : tous les utilisateurs pourront s’impliquer activement si le coeur leur en dit (traduction, aide, …) et participer à l’amélioration de gennus.org.

Pour en savoir plus :

  1. Demander des informations à pierre@gennus.org 
  2. S’inscrire à la bêta 2 sur gennus.org et espérer être sélectionner pour tester le service
  3. lire une interview de Pierre Ammeloot sur le blog ami rhit-genealogie.blogspot.fr