Un outil en ligne de commande pour extraire des données depuis du HTML

Publié initialement à : Un outil en ligne de commande pour extraire des données depuis du HTML

Par le passé, j’ai déjà évoqué la commande jq au détour d’un article. Pour rappel, jq permet de transformer des données textuelles provenant de commandes ou de scripts en données structurées de type JSON. Et aujourd’hui, j’aimerais vous parler de htmlq qui reprend le principe de fonctionnement de jq sauf que là, on bosse sur…

P.I.

Je pense qu’il y a une confusion ici entre jc (dont @Korben a effectivement parlé dans le passé - et qui est le sujet du lien mentionné) et jq qui lui est mentionné comme inspiration dans le README du projet htmlq sur GitHub :

Like jq, but for HTML. Uses CSS selectors to extract bits of content from HTML files.

En fait :

  • jc : CLI tool and python library that converts the output of popular command-line tools, file-types, and common strings to JSON, YAML, or Dictionaries. This allows piping of output to tools like jq …

  • jq : jq is a lightweight and flexible command-line JSON processor. jq is like sed for JSON data.