Scraping et APIs Web

Le Web scraping

Définition

Le Web Scraping est le processus d'extraction de données spécifiques d'un site Web.

Utilisations courantes

Collecte de données dans le domaine du data mining (analyse plus approfondie).

la veille concurrentielle,
l'agrégation de données de médias sociaux,
le recrutement,
la collecte de données de produits pour la comparaison de prix,
création de graphes de connaissances...

Un processus simple en apparence

Obtenir le contenu HTML de la page Web
Extraire les données souhaitées
Stocker les données extraites
Répéter le processus pour d'autres pages

Attention !

Il ne faut pas confondre le Web Scraping avec le Web Crawling.

Différences entre Web Crawling et Web Scraping

Portée

Web crawling $\rightarrow$ indexer un site complet (ou le Web)
Web scraping $\rightarrow$ extraire des informations spécifiques

Différences entre Web Crawling et Web Scraping

Profondeur

Web crawling $\rightarrow$ suit les liens de page en page
Web scraping $\rightarrow$ fonctionne au niveau de l'élément

Différences entre Web Crawling et Web Scraping

Outils

Web crawling $\rightarrow$ outils complexes (navigation + quantité de données)
Web scraping $\rightarrow$ plus simples (extraction de données HTML)

Les défis du scraping

Adaptation à la dynamique des sites web (modification / suppression de contenu),
Contenu généré par JavaScript,
Gestion des politiques de robots.txt,
Politesse du scraper (ne pas surcharger les serveurs du site).

Difficulté d'extraire des données : Les sites Web sont souvent conçus pour être attrayants pour les humains, pas pour être faciles à naviguer pour les robots. Ils peuvent avoir des structures de pages complexes, du contenu généré par JavaScript, ou des stratégies pour déjouer le scraping.
Performance : Le Web Crawling et le Web Scraping peuvent être des processus intensifs en ressources, en particulier lorsqu'ils sont effectués à grande échelle. Il est essentiel de gérer efficacement les ressources pour éviter de surcharger le serveur du site Web ou votre propre système.
Respect de la politesse du robot : Il est important de respecter les directives du fichier robots.txt d'un site et de ne pas surcharger un site avec trop de requêtes en peu de temps.

Tag soup

De nombreux documents HTML du Web datent d'avant HTML 4.01

De nombreuses pages Web ne respectent pas strictement un des standards
Les navigateurs ne respectent pas strictement un des standards

$\rightarrow$ tag soup !

Appliquer des heuristiques pour interpréter les pages

Quiz

Lequel des énoncés suivants décrit le mieux les conséquences potentielles de la présence de tag soup sur un site web ou une application web ?

Réponses: 0

Quiz

Lequel des extraits suivants est mal formé :

Réponses: 0

Analyse de page

Du très empirique…
- fragile dans le temps si la page évolue
Au très sophistiqué
- Règles d'analyse
- Analyses linguistiques ou sémantiques
- Apprentissage
Cas particuliers
- Recherche de suites de mots
- Recherche d'un "motif" à partir de regex

L'éthique et la légalité

Considérations éthiques du Web Scraping

Privacy
Respect des conditions d'utilisation
Intégrité des données

Légalité du Web Scraping

Loi sur la fraude et l'abus informatiques (CFAA aux États-Unis)
Règlement général sur la protection des données (RGPD en Europe)
Lois sur le droit d'auteur

Loi sur la fraude et l'abus informatiques (CFAA aux États-Unis) : Cette loi interdit l'accès non autorisé aux systèmes informatiques. Cependant, la question de savoir si le Web Scraping d'un site public constitue un "accès non autorisé" reste un sujet de débat juridique.
Règlement général sur la protection des données (RGPD en Europe) : Le RGPD impose des restrictions sur la manière dont les données personnelles peuvent être collectées, stockées et utilisées, ce qui peut avoir un impact sur certaines pratiques de Web Scraping.
Lois sur le droit d'auteur : Les données collectées par le Web Scraping et le Web Crawling sont souvent protégées par le droit d'auteur. Il est important de ne pas enfreindre ces droits lors de la collecte de données.

Licences

Jungle complexe :

Licences propriétaires
Licence de marque commerciale
Licence open source
- Avec copyleft
  - Licence Art Libre, Licence CeCILL, CC-BY-SA, GFDL, GPL, LGPL, ODbL
- Sans copyleft
  - Licence BSD, Licence CC-BY, Licence X11

LinkedIn vs hiQ Labs

hiQ Labs collectaient des données en grattant les profils publics de LinkedIn.
LinkedIn a bloqué les outils de hiQ Labs.
hiQ Labs a déposé une plainte en 2017.
Le tribunal a conclu que hiQ avait "probablement raison".
La 9ème cour d'appel des États-Unis a confirmé l'injonction de hiQ en septembre 2019.

hiQ Labs est une entreprise d'analyse de données axée sur les données de la main-d'œuvre et l'analytique des personnes. Ils collectaient des données en grattant les profils publics de LinkedIn.
En réponse, LinkedIn a bloqué les outils de hiQ Labs pour accéder à ces données publiquement disponibles et leur a envoyé une lettre de cessation et de désistement. LinkedIn a affirmé que les activités de hiQ Labs violaient la Computer Fraud and Abuse Act (CFAA).
hiQ Labs a riposté en déposant une plainte et en obtenant une injonction préliminaire en 2017. Le tribunal de district a conclu que hiQ avait "probablement raison" sur ses allégations selon lesquelles l'accès aux données publiquement disponibles n'était pas une violation de la CFAA.
La 9ème cour d'appel des États-Unis a confirmé l'injonction de hiQ en septembre 2019.

Outils

Récupérer le code HTML d'une page


						from urllib.request import urlopen
						url = "https://fr.wikipedia.org/wiki/The_Thing_(film,_1982)"
						page = urlopen(url)
						html_bytes = page.read()
						html = html_bytes.decode("utf-8")

Méthodes de string


						start_index = title_index + len("<title>")
						end_index = html.find("</title>")
						title = html[start_index:end_index]

Quiz

En appliquant la méthode précédente quel est le résultat obtenu ?

						
							<head>
								<title >Mon super site</title>
							</head>

Le résultat obtenu est le suivant en raison de l'espace avant le chevron fermant de la balise ouvrante 'title' :

'\n<head>\n<title >Mon super site'

Méthodes de string

Ces problèmes peuvent survenir de manière imprévisible et innombrable. Vous avez besoin d'un moyen plus fiable pour extraire du texte de HTML.

Regex

Définition

Une regex est une chaîne de caractères qui décrit, selon une syntaxe précise, un ensemble de chaînes de caractères possibles.


						import re
						pattern = "<title.*?>.*?</title.*?>"
						match_results = re.search(pattern, html, re.IGNORECASE)
						title = match_results.group()
						title = re.sub("<.*?>", "", title) # Remove HTML tags

Bien que les expressions régulières soient très utiles pour la recherche de motifs en général, il est parfois plus facile d'utiliser un parseur HTML qui est explicitement conçu pour traiter les pages HTML.

BeautifulSoup

Bibliothèque Python pour parser le HTML et le XML.
Arbre de parsing à partir de la page.
Extraction de données.
Démo

BeautifulSoup

Avantages :

Facile à utiliser.
Excellent pour le parsing de HTML et de XML.
Méthodes simples pour naviguer, rechercher et modifier l'arbre de parsing.

Inconvénients :

Ne télécharge pas les pages web.
Lent.

Installation de BeautifulSoup

En utilisant pip :

python -m pip install beautifulsoup4

Usage :


						from bs4 import BeautifulSoup
						from urllib.request import urlopen

						url = "https://fr.wikipedia.org/wiki/The_Thing_(film,_1982)"
						page = urlopen(url)
						html = page.read().decode("utf-8")
						soup = BeautifulSoup(html, "html.parser")

Vous pouvez utiliser find_all() pour retourner une liste de toutes les instances d'un tag particulier :

						
							>>> soup.find_all("img")
							[<img src="/static/images/icons/wikipedia.png"/>, ...]

Chaque objet Tag possède une propriété .name qui renvoie une chaîne de caractères contenant le type de balise HTML :

						
							>>> image1 = soup.find_all("img")[0]
							>>> image1.name
							'img'
							>>> # Vous pouvez accéder aux attributs HTML de 
							>>> # l'objet Tag en plaçant leurs noms entre crochets
							>>> image1["src"]
							'/static/images/icons/wikipedia.png'

Certaines balises des documents HTML sont accessibles par les propriétés de l'objet Tag.

						
							>>> soup.title
							The Thing (film, 1982) — Wikipédia
							>>> soup.title.string
							'The Thing (film, 1982) — Wikipédia'

L'une des caractéristiques de Beautiful Soup est la possibilité de rechercher des types de balises spécifiques dont les attributs correspondent à certaines valeurs.

						
							>>> soup.find_all("img", src="my_image.png")
							[<img src="my_image.png"/>]

Notez bien que Beautiful Soup nettoie automatiquement les balises pour vous en supprimant, par exemple, les espaces supplémentaires dans la balise d'ouverture ou les barres obliques (/) dans la balise de fermeture. Cette commande renvoie une liste de toutes les balises <img> du document HTML. Les objets de la liste semblent être des chaînes de caractères représentant les balises, mais il s'agit en fait d'instances de l'objet Tag fourni par Beautiful Soup. Les objets Tag fournissent une interface simple pour travailler avec les informations qu'ils contiennent.

Les Web APIs

Types de sources de données sur le Web

Web classique (voir cours HTML)
- Pages Web HTML
- Pages dynamiques
Dont négociation de contenu
- Autres types de contenus (voir cours NLP)
PDF, Gif, fichiers txt…
Pages Web sémantique (voir prochain cours)
APIs, Web Services
OpenData

Web Services

Logiciel accessible via HTTP/HTTPS.
Utilise des protocoles comme GraphQL, SOAP ou REST.
Emploie des méthodes standards : GET, POST, PUT, DELETE.
Formats de données indépendants : XML, JSON.

Avantages des services Web

Accessible où le Web est disponible.
Services partagés entre applications.
Composition de services avancés.
Profite d'une infrastructure réseau solide.

REST: Representational state transfer

Style d'architecture pour systèmes distribués, non un protocole ou format.
Basé sur la thèse de Roy Fielding.
Principes :
- Utilisation de l'URI pour l'accès au service.
- Exploitation des fonctions HTTP : GET, PUT, POST, DELETE.
- Les codes de statut HTTP
- Fonctionnement sans état.

REST: Fonctionnement sans état

Pas de stockage d'information entre requêtes.
Réduit la charge du serveur.
Facilite le débogage et la répartition de la charge.

Avantages de REST

Facile à implémenter, particulièrement pour les développeurs web.
Intégration fluide avec HTTP.
Utilisation de caches via l'association URL/ressource.

GraphQL

Langage de requête pour les API.
Alternative efficace à REST.
Créé par Facebook en 2015, open source.

Caractéristiques de GraphQL

Un seul point de terminaison.
Structure de requête définie par le client.
Permet des requêtes complexes.
Réduit le sur- et sous-chargement de données.

OpenData

Données librement disponibles pour tous.
Utilisé pour augmenter la transparence et favoriser l'innovation.
Formats communs : CSV, JSON, XML.

Vous pouvez trouver des jeux de données sur le site du gouvernement : data.gouv.fr

API Web

On parle souvent d'API Web pour les services accessibles sur Internet

Exemple de répertoire d'API : public-apis

Géographiques (curl),
Informations,
Animés,
Musique (curl, py)
...

FastAPI

Un framework moderne, rapide (haute performance) pour construire des API avec Python 3.6+ basé sur des standards comme OpenAPI et JSON Schema.
Asynchrone et prêt pour la production.

pip install fastapi[all]

Pourquoi FastAPI ?

Performance : Comparable à Node.js et Go grâce à Starlette et Pydantic.
Rapide à coder : Réduit jusqu'à 40 % les erreurs humaines grâce à un système de type strict.
Facile à apprendre : Code minimaliste et documentation claire.
Génère une documentation interactive : Intégration automatique de Swagger UI pour tester les API directement depuis le navigateur.

Alternatives à FastAPI

Flask : Plus traditionnel, flexible, et avec une grande communauté.
Django : Framework complet avec ORM, authentification et modèles, mieux pour des applications web de grande envergure.
Tornado : Adapté pour des applications Web en temps réel, utilise intensément l'asynchrone.
AIOHTTP : Basé sur Asyncio, pour des applications serveur asynchrones.

Avantages et Inconvénients de FastAPI

Avantages :

Très haute performance.
Validation automatique des requêtes et réponses.
Support robuste pour l'asynchrone.

Inconvénients :

Communauté plus petite par rapport à Flask et Django.
Moins de ressources et de plugins comparés aux frameworks plus établis.

Tutoriel Basique avec FastAPI


					from fastapi import FastAPI

					app = FastAPI()

					@app.get("/")
					def read_root():
						return {"Hello": "World"}

					if __name__ == "__main__":
						import uvicorn
						uvicorn.run(app, host="0.0.0.0", port=8000)

Exécution et test

Lancer l'API : uvicorn main:app --reload
Accéder à http://127.0.0.1:8000 pour voir la réponse.
Utiliser l'interface Swagger à http://127.0.0.1:8000/docs pour tester l'API interactivement.

Ressources supplémentaires

Livres

"Web Scraping with Python: A Comprehensive Guide" par Ryan Mitchell.
"Learning Scrapy" par Dimitris Kouzis - Loukas.
"Python Web Scraping - Second Edition" par Katharine Jarmul et Richard Lawson.

Cours en ligne

"Web Scraping and API Fundamentals in Python" sur Udemy.
"Scrapy: Powerful Web Scraping & Crawling with Python" sur Udemy.
"Web Scraping in Python" sur DataCamp.

Autres ressources

La documentation de BeautifulSoup
La documentation de FastAPI
Des blogs ou sites comme Real Python
Les forums de discussion en ligne, comme Stack Overflow

Export PDF

Cliquez ici
Ouvrez la boîte de dialogue d'impression du navigateur (CTRL/CMD+P).
Changez le paramètre de destination en "Enregistrer en PDF".
Modifiez la mise en page en "Paysage".
Réglez les marges sur "Aucune".
Activez l'option "Graphiques d'arrière-plan".
Cliquez sur "Enregistrer" 🎉