Shaare your links...
350 links
Filou GeekNik : Sécurité / libre / p2P / réseaux / bidouilles / no net / etc
Home
Login
RSS Feed
ATOM Feed
Tag cloud
Picture wall
Daily
Links per page:
20
50
100
page 1 / 1
1 results for tags
mining
x
Recueillir des données sur le Web - Guide du datajournalisme
<< parle des extensions : Readability > permet d’extraire manuellement le texte d’une page web et du concept général
et aussi
https://wydden.com/10-outils-pour-scraper-des-donnees-sans-coder-ou-presque/
(services en ligne, plugin, cadriciel)
# Web_scraping
https://fr.wikipedia.org/wiki/Web_scraping
# Solutions / cadriciels
https://fr.wikipedia.org/wiki/Scrapy
(ligne de commande et Phyton)
https://github.com/scrapy/scrapy
https://fr.wikipedia.org/wiki/Weboob
(sites préréglés)
http://weboob.org/modules
http://planet.weboob.org/
https://linuxfr.org/news/weboob-sort-une-nouvelle-version-qui-va-vous-porter-chance
https://linuxfr.org/news/weboob-une-version-1-1-pour-son-sixieme-anniversaire
https://linuxfr.org/news/weboob-sort-une-nouvelle-version-qui-va-vous-porter-chance
https://www.pycon.fr/2017/programme.html#la-puissance-du-scraping-web-avec-weboob
https://www.pycon.fr/2017/programme.html#weboob-le-navigatueur
L'utilisateur qui cherche une boîte à outils s'oriente vers scrapy, et celui que veut du clé-en-main va vers weboob.
https://linuxfr.org/users/lebouquetin/journaux/extraction-de-donnees-du-web-introduction-a-scrapy-journal-bookmark
(parle des deux dans les commentaires, Tuto, XPATH )
https://linuxfr.org/users/lebouquetin/journaux/pyjobs-un-job-board-pour-les-agreger-tous
https://fr.wikipedia.org/wiki/XPath
(langage d'exploration)
https://fr.wikipedia.org/wiki/OutWit_Hub
https://pypi.org/project/scraperwiki/
https://pypi.org/user/scraperwiki/
(service en ligne uniquement ?)
# Navigateur web sans tête (sans interface graphique) scriptable utilisé pour automatiser des interactions avec des pages web
https://fr.wikipedia.org/wiki/Navigateur_sans_t%C3%AAte
https://fr.wikipedia.org/wiki/PhantomJS
Le projet est abandonné en 2017 du fait de l'ajout du mode sans tête dans Chrome 59 et 60.
https://developer.mozilla.org/fr/docs/Mozilla/Firefox/Headless_mode
https://www.youtube.com/watch?v=JvaQ7kS2hEM&t=197s
https://www.automation-facile.fr/
https://fr.wikipedia.org/wiki/Selenium_(informatique
)
https://en.wikipedia.org/wiki/Katalon_Studio
https://github.com/katalon-studio
https://en.wikipedia.org/wiki/Comparison_of_GUI_testing_tools
# Extension navigateur
https://addons.mozilla.org/fr/firefox/search/?platform=Linux&q=Scraper&sort=users&type=extension
https://addons.mozilla.org/fr/firefox/addon/web-scraper
(c'est aussi un service en ligne)
https://addons.mozilla.org/fr/firefox/addon/datascraper/
https://data-miner.io/
(Chrome)
# Autres
https://pypi.org/search/?q=scrap
https://pypi.org/search/?q=scrappe
https://pypi.org/search/?q=scrapper
https://pypi.org/search/?q=scraping
https://pypi.org/search/?q=scrapping
https://gitlab.com/search?search=scrap
https://gitlab.com/search?search=scrappe
https://gitlab.com/search?search=scrapper
https://gitlab.com/search?search=scraping
https://gitlab.com/search?search=scrapping
https://korben.info/extraire-des-donnees-structurees-partir-dun-pdf.html
https://fr.wikipedia.org/wiki/Aspirateur_de_site_web
https://fr.wikipedia.org/wiki/HTTrack
https://github.com/OWASP/Amass
(liste les adresses d'un site)
Wed Sep 20 21:08:08 2023 - permalink
-
-
http://jplusplus.github.io/guide-du-datajournalisme/pages/0504.html
aspiration
automatisation
data
DEV
extraction
harvesting
information
journalisme
mining
osint
scraping
semantique
service
SITE
sémantique
web
Links per page:
20
50
100
page 1 / 1