Shaare your links...
376 links
Filou GeekNik : Sécurité / libre / p2P / réseaux / bidouilles / no net / etc Home Login RSS Feed ATOM Feed Tag cloud Picture wall Daily
Links per page: 20 50 100
page 1 / 1
  • Recueillir des données sur le Web - Guide du datajournalisme
    << parle des extensions :   Readability > permet d’extraire manuellement le texte d’une page web et du concept général
    et aussi
    https://wydden.com/10-outils-pour-scraper-des-donnees-sans-coder-ou-presque/ (services en ligne, plugin, cadriciel)

    # Web_scraping
    https://fr.wikipedia.org/wiki/Web_scraping

    # Solutions / cadriciels
    https://fr.wikipedia.org/wiki/Scrapy (ligne de commande et Phyton) https://github.com/scrapy/scrapy
    https://fr.wikipedia.org/wiki/Weboob (sites préréglés) http://weboob.org/modules http://planet.weboob.org/

    https://linuxfr.org/news/weboob-sort-une-nouvelle-version-qui-va-vous-porter-chance
    https://linuxfr.org/news/weboob-une-version-1-1-pour-son-sixieme-anniversaire
    https://linuxfr.org/news/weboob-sort-une-nouvelle-version-qui-va-vous-porter-chance
    https://www.pycon.fr/2017/programme.html#la-puissance-du-scraping-web-avec-weboob
    https://www.pycon.fr/2017/programme.html#weboob-le-navigatueur

    L'utilisateur qui cherche une boîte à outils s'oriente vers scrapy, et celui que veut du clé-en-main va vers weboob.
    https://linuxfr.org/users/lebouquetin/journaux/extraction-de-donnees-du-web-introduction-a-scrapy-journal-bookmark (parle des deux dans les commentaires, Tuto, XPATH )
    https://linuxfr.org/users/lebouquetin/journaux/pyjobs-un-job-board-pour-les-agreger-tous
    https://fr.wikipedia.org/wiki/XPath (langage d'exploration)

    https://fr.wikipedia.org/wiki/OutWit_Hub
    https://pypi.org/project/scraperwiki/
    https://pypi.org/user/scraperwiki/ (service en ligne uniquement ?)

    # Navigateur web sans tête (sans interface graphique) scriptable utilisé pour automatiser des interactions avec des pages web
    https://fr.wikipedia.org/wiki/Navigateur_sans_t%C3%AAte
    https://fr.wikipedia.org/wiki/PhantomJS Le projet est abandonné en  2017 du fait de l'ajout du mode sans tête dans Chrome 59 et 60.
    https://developer.mozilla.org/fr/docs/Mozilla/Firefox/Headless_mode

    https://www.youtube.com/watch?v=JvaQ7kS2hEM&t=197s
    https://www.automation-facile.fr/

    https://fr.wikipedia.org/wiki/Selenium_(informatique)
    https://en.wikipedia.org/wiki/Katalon_Studio https://github.com/katalon-studio
    https://en.wikipedia.org/wiki/Comparison_of_GUI_testing_tools

    # Extension navigateur
    https://addons.mozilla.org/fr/firefox/search/?platform=Linux&q=Scraper&sort=users&type=extension
    https://addons.mozilla.org/fr/firefox/addon/web-scraper (c'est aussi un service en ligne)
    https://addons.mozilla.org/fr/firefox/addon/datascraper/
    https://data-miner.io/ (Chrome)


    # Autres
    https://pypi.org/search/?q=scrap
    https://pypi.org/search/?q=scrappe
    https://pypi.org/search/?q=scrapper
    https://pypi.org/search/?q=scraping
    https://pypi.org/search/?q=scrapping

    https://gitlab.com/search?search=scrap
    https://gitlab.com/search?search=scrappe
    https://gitlab.com/search?search=scrapper
    https://gitlab.com/search?search=scraping
    https://gitlab.com/search?search=scrapping

    https://korben.info/extraire-des-donnees-structurees-partir-dun-pdf.html
    https://fr.wikipedia.org/wiki/Aspirateur_de_site_web
    https://fr.wikipedia.org/wiki/HTTrack
    https://github.com/OWASP/Amass (liste les adresses d'un site)
    Wed Sep 20 21:08:08 2023 - permalink -
    - http://jplusplus.github.io/guide-du-datajournalisme/pages/0504.html
    aspiration automatisation data DEV extraction harvesting information journalisme mining navigateur osint scraping semantique service SITE sémantique web
Links per page: 20 50 100
page 1 / 1
Shaarli 0.0.41 beta - The personal, minimalist, super-fast, no-database delicious clone. By sebsauvage.net. Theme by idleman.fr.