Cherche une api simple pour ranger des docs par tag

Salut,

Je cherche partout sur les internets et je trouve pas de solution, alors je me dis que chez korben j’ai une chance…

J’ai 200 doc (pdf, .Doc), je voudrais les mettre dans un dossier et assigner a chacun de ces docs des tags.
Ensuite je voudrais pouvoir chercher les docs par tags (ex: je clique sur le tag « stress » et pouf apparaissent tous les docs taggés « stress »)
Enfin je voudrais pouvoir partager ce dossier avec 5 personnes

Simple non?

Et bah :
soit je trouve que des api payantes beaucoup trop chères et trop grosses pour mon besoin (j’ai besoin de qq Go de stockage et partager avec 5 ou 6 personnes)
soit je trouve des logiciels open source de GED et j’ai pas les compétences pour les installer… (Mes plus grands exploits en informatique sont d’avoir fait un site sur WordPress ou de copier/coller des lignes de code dans terminal sans rien comprendre a ce que je fais…)
Soit je trouve des clouds (Google, Zaho, one drive, etc.) qui sont soit trop chers pour mon besoin modeste, soit ne permettent pas de chercher par tag…
Peut être qqun ici a une solution simple et pas chère pour mon besoin pas très ambitieux ?

Merci!!

Salut,
Tu n’as pas dit sur quel OS ni Filesystem tu utilises.

Il y a plein de réponses possibles, cela dépend de ce sur quoi tu stockes tes fichiers et comment tu les partages.

ça pourrais m’intéresser aussi, pour « ranger » les documents sur des partages smb sous windows au taff…

Réponse TL;DR :

Quelques types de solutions :

  1. Dans un FS (FileSystem) NTFS Microsoft a fourni une fonction disponible depuis Vista, qui s’appelle Tag/Keyword. Faut bricoler un peu pour l’étendre aux besoins de chacun.

  2. Les FS Linux incluent une fonction standard XATTR (Extended File Attributes) depuis au moins le FileSystem « ext2 ». Cela permet d’attribuer des Tags. ( xattr(7) — Linux manual page ).

  3. Les mêmes type de tag existent sous Mac/HFS+ depuis 20 ans je pense.

  4. On peut bricoler encore plus simple :

  • Soit avec des techniques de tags dans le nom de fichier
  • Soit avec a) les Symlink/Softlinks (POSIX/Linux/Windows) ou b) les raccourcis Windows :warning: a) et b) sont des choses différentes.
  1. Des Infonuages permettent les tags (e.g. Dropbox)

  2. Des FMGR (File Manager) permettent les tags (sous Mac/Finder donc, mais aussi sous Gnome).

  3. Des formats de fichiers incluent les tags (pdf, images, audio, …)

  4. Plutôt que des tags, des logiciels d’indexation/recherche permettent de répondre aux besoins décrits. Comme @Tige le dit, cela fait partie de ce que les logiciels de Gestion Electronique de Documents incluent.

Un cas particulier connu est le logiciel TagSpaces, un freemium multiplateformes, gratuit en version Lite/Web Lite. Il utilise un mélange de solution n°4 et de fichiers d’indexation, et offre aussi de la gestion de notes, du collaboratif, etc.

Toutes ces solutions :

  • Sont spécifiques
  • Peuvent être outillées, scriptées
  • Ont des limites.
  • Ont des coûts de licence, de formation, d’apprentissage, d’infrastructure (stockage/partage/exécution), de maintenance, de sécurité (y compris backup).

Pour le besoin décrit incomplètement par @Tige (qui n’a toujours pas répondu à ma question permettant de répondre précisément en fonction de son FileSystem et donc ensuite du mode de partage), je dirai qu’a priori la solution 4 semble OK pour lui.

Cela dit, une bonne solution ne peut être trouvée que si on se focalise sur le ‹ Pour quoi ›, pas sur le « comment ».

Parler du tag, c’est parler du « comment », et non décrire correctement le besoin. @Tige a décrit un peu plus que le « comment », mais a mélangé un peu les deux.

Je m’explique : Quand on parle de tag, on parle en fait de besoin de recherche et indexation. Tout cela est plus ou moins outillable ou automatisable, et les TAGS ne sont pas la seule réponse à un cahier des charges de ce domaine.

Pour ta question @Albirew : « ranger des fichiers en partage smb/windows au taff » c’est un peu court comme cahier des charges, c’est pour cela que j’ai fait des réponses de la même longueur.

Par rapport à ce qu’a décrit @Tige, une solution de type 4 ou type 1 me semble appropriée, après il faut discuter les détails, et les règles de l’art, les conventions, les limites, les outils, les coûts, etc.

C’est pour cela que je conseille de prendre un peu de recul et de perspective à moyen/long terme, car en fait, si le besoin final est du travail collaboratif (la bonne question à se poser), et bien … autant viser des logiciels collaboratifs, qui peuvent indexer et retrouver de l’information stucturée, et donc viser du Zimbra, du Nextcloud, Collabora online, LibreOffice online, etc. :wink:

Merci pour ta réponse (moi qui pensait que vu que ce discourse était délaissé par tonton korben, il était abandonné de tous, je suis content de m’être trompé)

Pour compléter mon message, je suis en train de faire le ménage des doublons des dossiers et documentations techniques sur les partages smb du taff.

Certaines documentations ont autant leur place dans « doc constructeur/nom constructeur/modèle/ » que dans « doc produits/produit qu’on vends/matériel utilisé dedans/ » par exemple…

Du coup, j’utilise la méthode 4b (raccourcis windows) car les montages smb sont les mêmes pour tout le monde. J’ai pensé aux metadatas, mais ça risque d’être plus galère qu’autre chose car pas indexé par docfetcher pro et pas assez visible pour certains collègues…

à @Albirew

A) Pour ton choix, une manière de faire avec les RW (Raccourcis Windows) :

  1. Mettre tous les fichiers à taguer dans un répertoire DATA (cela permet de virer les doublons);
  2. Créer dans ce répertoire DATA autant de sous-rép que de tags nécessaires
  3. Créer dans chaque sous-rep (Tag) des raccourcis vers les fichiers concernés par le Tag

B) Le point 3 peut être plus ou moins automatisé.
Tu peux écrire des scripts powershell ou bash qui vont utiliser soit le nom de chaque fichier à taguer, soit le contenu (avec des outils d’extraction de chaînes) pour créer les raccourcis dans chaque répertoire.

C) Le point 2 peut aussi être automatisé, en créant un fichier contenant tous les mots significatifs contenus dans les fichier à taguer. Tu peux restreindre la liste avant de l’utiliser pour limiter les Tags.

D) Les utilisateurs cherchant un fichier selon son tag n’ont qu’à consulter le contenu du répertoire qui porte le nom du Tag.

Bien sûr, cela ne permet que de chercher avec un seul tag à la fois.

E) Cela dit, ces méthodes bricolées, je ne suis pas certain que cela soit mieux que les outils d’indexation/recherche spécialisés.

Tu as cité DocFetcher (Pro), mais il y a les autres :

  • L’indexation Windows (très décriée)
  • Everything
  • Listary

:information_source: Une spécificité des RW est que le RW suit tous les déplacements du fichier pointé, ce qui n’est pas le cas pour des Softlinks Posix/Unix/Linux.

Bonus : La recherche+suppression des doublons est outillable aussi.

1 « J'aime »

Merci @zorg6 pour ta réponse très detaillée, il y’a plusieurs propositions que je vais tester!

Pour répondre à tes questions:

  1. je suis sur mac, les collègues avec qui je veux partager cette base de donnée sont sur mac sauf 1 sur pc

  2. pour décrire mieux mon besoin:

  • j’ai 200 rapports (écrit au cours des 10 dernières années). En gros ces rapports ressemblent à des mémoires de master 2 en socio ou en éco (des rapports de 100/150 pages, très redigés, avec une table des matières, quelques images, schémas et tableaux). Ils sont au format docx, je voudrait les garder dans ce format
  • je voudrais les tagger chacun « manuellement » pour deux raisons : 1/ les tags automatiques sont trop imprécis pour mon besoin 2/ je veux créer une liste raisonnée de tag (pas trop nombreux, cohérents, et possibilité de classer ces tags par thème, etc.)
  • je voudrais que ces 200 rapports et les tags associés soient accessibles en ligne pour moi et mes collègues. (Le total pèse 500Mo)

Le but:
Par exemple Je dois rédiger un rapport qui traite de tensions entre les membres d’un même collectif de travail > pouf je vais dans ma « banque de rapport » qui en ligne (via navigateur ou logiciel dedié), je vais dans le dossier des tags qui traitent des « risques professionnels », je vois qu’il y a un tag « conflits au travail », je clique dessus et > re-pouf ça me sort les rapports qui traitent de ce sujet, je peux alors le télécharger en format word et copier/coller les passages qui m’intéressent.

Simple, magique, mais je trouve pas… Pour l’instant ce qui se rapproche le plus de mon besoin c’est Zotero mais la gestion des tags est très limitée… (Pas possible de ranger les tags par thème).

Je suis sur que qu’un informaticien arriverait aisément a construire un tel outil mais je n’ai pas ces compétences, c’est pour ça que je recherche une solution toute faite…

En tout cas merci pour vos réponses !

Oui @Tige mais tu n’as toujours pas dit par quel moyen tu veux partager en réseau :

  • partage en réseau local ? Qui est le serveur des données, sous quel OS? Un serveur toujours en marche? Mac ou Windows, SMB ?
  • Infonuage (Amazon AWS, Nextcloud, Google(Doc), oneDrive/Microsoft365, Dropbox, …) / Un hébergeur web du marché? / Un serveur avec service FTP ) ?

[EDIT #1]
En mode agile, si j’essaye de deviner ce qui te conviendrait, à la mise en oeuvre la plus rapide et la moins coûteuse, et la plus multi-plateforme :

A) Si tu optes pour une mise en ligne infonuage :

  • Un partage Dropbox. Il gère les tags.
  • Un hébergement Nextcloud, plus confidentiel et plus FOSS. Nextcloud gère des tags. Et NextCloud peut être auto-hébergé, et donc non-externalisé, donc confidentialité et coûts transparents.

(bon je suis de mauvaise foi et moizzzaime pas parler des GAFAM , mais M365/OneDrive et googleDrive gèrent aussi les tags pour fichier ou dossier. :stuck_out_tongue_winking_eye: :stuck_out_tongue_closed_eyes: Cependant, les Tags sont récents chez MSFT (sauf dans la partie Sharepoint spécialisée), et chez GoogleDrive les tags/labels sont réservés aux versions Work et School, et seulement pour les fichiers, pas dossiers)

B) Si tu optes pour un partage de fichier en réseau interne (SMB,…) accessible de partout (via VPN par sécurité) :

  • Gérer les tags par le nom des fichiers, et utiliser les outils de recherche habituels des gestionnaires de fichiers; Je recommande d’inclure dans le nom des tags comme cela entre crochets :

nom_original_du_fichier[ #tag1 #tag2 #tag3 ].ext

  • Recherche des fichiers par tag : Avec les FileManagers habituels, rechercher ensuite par « #tag1 » etc. L’avantage d’utiliser l’astuce du « # » c’est que cela renforce la pertinence des résultats, en évitant les faux positifs qui correspondraient à un mot du nom de fichier hors tags.

Autant que je sache d’ailleurs, le caractère dièse « # » est compatible avec tous les OS/FS.

Bon, vous êtes prévenus, la solution n°4.1, les tags en nom de fichier, c’est du bricolage, limité, mais c’est simple, rapide, peu couteux, multiplateforme, backupable, et sans usage des metadata de fichiers).

Tu peux aussi en plus en parallèle utiliser la solution n°4.2, te servir des tags pour automatiser la technique des raccourcis (mais éventuel pb de compatibilité multiplateforme des raccourcis ou Softlinks. Windows fait des raccourcis, Mac et Linux font des Softlinks. Normalement, Linux et Mac savent lire/écrire NTFS et donc lire les raccourcis Windows).

[EDIT #2]

  1. Tu écris :

et possibilité de classer ces tags par thème, etc.)

Ce que tu décris ressemble à une sémantique/hiérarchie de tags. Cela est d’habitude pris en compte dans un ou plusieurs thésaurus. Là, il me semble que tes ambitions deviennent difficiles à gérer avec un bricolage, et que les solutions qui gèrent un thésaurus sont justement les GED.
Bref, je suis en train de te dire que tu veux le beurre, l’argent du beurre, et la casquette du crémier.

Néanmoins, si tu veux rester au niveau du bricolage par nom de fichier, une soluce peut être :

  • Utiliser un pseudo « espace de nommage ».
    Exemple : en anglais, « chip » peut s’appliquer à « electronic chip » et « potato chip », donc la frite in french, ce qui n’a pas le même goût. (le « chips » français se dit « crisps » en anglais, pas « chips ». )

Tu peux donc t’amuser à préfixer chacun de tes mot-clés par leur domaine pour constituer chaque tag:

  • #electronics.chip
  • #food.chip

… pour les distinguer. Encore faut-il avoir défini un thésaurus (les domaines) qui tienne la route, le partager et l’enseigner à tes utilisateurs, et voir combien de niveaux sont nécessaires dans la hiérarchie du thésaurus. (tag: #domaine1.sousdomaine1.etc.mot-clé) .

Remarques :

  • Tu risques d’atteindre rapidement les limites de la solution n°4.1, en termes de longueur de nom de fichier/filepath.
  • Tu n’as pas indiqué dans ton cahier des charges si la solution devait être multilingue, avec tes collègues. Comme quoi, le bonheur informatique se cache dans les détails du cahier des charges … :wink:

@Albirew et @Tige

Merci d’avoir donné un premier retour sur les réponses fournies, et pensez à donner aussi un retour sur la mise en oeuvre réelle, y compris si c’est un échec total, c’est important pour tous y compris pour moi pour avoir un retour d’expérience et savoir ce que je peux en apprendre, et chercher de nouvelles solutions, comme pour tous ceux qui nous lisent ( :shushing_face: enfin la douzaine qui reste :face_with_hand_over_mouth:). Bonne chance!

1 « J'aime »

Pas de souci!
Je pense pas pouvoir commencer à mettre ça en place avant la mi-décembre/début janvier à cause des dossiers urgents ainsi que de de la R&D qui me prends le plus gros de mon temps, mais je te ferais un retex sans souci dés que ce sera en place =)

1 « J'aime »