serge a écrit:il y a plusieurs tableaux et cela prend les données de tous les tableaux. est-il possible de detecter les tableaux pour s'arreter à la fin du 1er ?
Non, avec ce que j'utilsie pour mon bricolage actuel c'est pas top.
Ce qu'on doit pouvoir faire par contre c'est indiquer quelles pages traiter, et découper le pdf au préalable.
serge a écrit:une fois uploadé un fichier avec une configuration, il faudrait pouvoir réavoir le formulaire de l'ordre des colonnes sur la page avec les valeurs entrées préselectionnées pour ne pas à avoir à retourner en arrière et renvoyer un gros fichier pdf (long).
En fait, je peux stocker (temporairement) le fichier pdf, pour éviter en effet d'avoir à renvoyer, et aussi pouvoir le découper si besoin.
ça serait pratique de pouvoir changer l'ordre des colonnes et que ça bouge les valeurs dans le tableau en direct, mais ça nécessite probablement un peu de boulot.
serge a écrit:je pense qu'avoir 2 choix serait encore mieux :
- l'interface actuelle où l'on indique l'ordre des colonnes
- une interface avec juste le fichier à indiquer, où cela sort les résultats avec les colonnes reconnues, ensuite, copier/coller dans un tableur et réorginisation, ceci sans tri, ce qui règle le problème de plusieurs tableaux dans le pdf
L'intérêt que je vois principalement pour mon bricolage c'est d'avoir des préconfs efficaces pour de nombreux pdf, et ainsi éviter de la gestion manuelle.
Avec éventuellement un mode auto, qui cherche un pattern dans le pdf pour voir s'il reconnaît un preset existant. (exemple le mot "dansoft")
serge a écrit:http://www.kikourou.net/photos/courses/26847-97872-872-lesportif867_pub17122015_ugirudenatale10km.pdf
pour le 4ème, il y a des chances que son prénom soit tronqué. conséquence, cela ne fait pas la différence colonne nom et club. Y-a-t il quelque chose à faire de ton coté ?
pour le 16ème, il manque un champ à la fin, d'où catégorie et sexe faux
Là, clairement, on a dépassé de loin les limites de mon bricolage. Je ne peux rien y faire.
Je split les champs par "de 2 à +oo charactères espace" et pour le problème du nom: il y en a qu'un.
Pour le chrono manquant: le fait qu'il manque un champs sert dans mon bricolage pour réaligner les colonnes en supposant que c'est forcément le champs club qui est vide (ce qui est la grosse généralité des cas).
Le problème de mon bricolage est qu'il repose sur le rendu de pdftotext qui n'affiche que du texte, aligné, et que je tente de reconstituer en tableau.
Il faudrait un outil de pdf à csv, mais malheureusement je n'ai rien trouvé de probant. Il y a bien tabula-java, mais le résultat n'a pas l'air forcément super bon non plus.
serge a écrit:les catégories sont dans un format bizarre alors il y a un retraitement à faire.
je n'ai fait aucun traitement car j'ai lu dans la page de doc du format csv que seuls les 2 premiers caractères étaient pris. je peux nettoyer s'il le faut
serge a écrit:la colonne cat est sous cette forme : 1 SEM
il faut donc virer le chiffre et l'espace et c'est bon ensuite.
pour le club, la mention Non Licencié, n'apporte rien et prend de la place en bdd, c'est mieux de l'enlever.
Ok, je note.
Merci pour tes tests. c'est forcément très loin d'être parfait (et ça ne le sera jamais, c'est du bricolage et les contraintes sont fortes) mais ça doit permettre de gagner un peu de temps quand même, qu'en dis tu ?