📚 Scraping — Google Books → CSV & SQLite

Ce projet illustre un petit pipeline éducatif pour collecter → nettoyer → stocker des données de livres à partir de l’API Google Books, avec export en CSV et insertion dans une base SQLite.

🚀 Fonctionnalités

Récupération de livres via Google Books API avec les paramètres : q=food, filter=paid-ebooks, orderBy=relevance, maxResults=40
Transformation de la réponse API → liste de dictionnaires → DataFrame pandas
Nettoyage des données : suppression des valeurs manquantes (price, rating), ajout d’une colonne availability, réinitialisation des index
Sauvegarde en CSV brut (data/data_api.csv)
Insertion dans une base SQLite (book_store.db, table book_store)
Fonction principale run_api_pipeline() qui exécute toutes les étapes automatiquement

🗂️ Structure du projet

scraping/
├─ data/                  # Exports CSV
├─ get_data/              # Récupération de données (API / scraping)
├─ process_data/          # Nettoyage et typage
├─ pipelines/             # Fonctions de chargement et pipeline complet
├─ notebooks/             # (Optionnel) Exploration
├─ main.py                # Point d’entrée principal
└─ requirements.txt       # Dépendances Python

⚙️ Installation

Prérequis : Python 3.10 ou plus

git clone https://github.com/emese007/scraping.git
cd scraping

# (Optionnel) environnement virtuel
python -m venv .venv
source .venv/bin/activate  # sous Windows : .venv\Scripts\activate

# Installation des dépendances
pip install -r requirements.txt

Si le fichier requirements.txt est incomplet, ajoutez :

pandas
requests

▶️ Exécution du pipeline

Lancer simplement :

python main.py

Le script :

interroge l’API Google Books,
crée une liste de dictionnaires,
convertit la liste en DataFrame,
enregistre les données brutes en CSV,
nettoie les données,
insère les résultats dans la base SQLite.

🧾 Données générées

CSV brut : data/data_api.csv
Base SQLite : data/book_store.db (table book_store)

Colonnes principales :

title → titre du livre
price → prix (float)
rating → note moyenne (float ou entier)
availability → booléen (par défaut False)

👤 Auteurs

Projet réalisé par [@emese007] Formation IA - Simplon Montpellier (2025–2026)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

📚 Scraping — Google Books → CSV & SQLite

🚀 Fonctionnalités

🗂️ Structure du projet

⚙️ Installation

▶️ Exécution du pipeline

🧾 Données générées

👤 Auteurs

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
data		data
database		database
get_data		get_data
notebooks		notebooks
pipelines		pipelines
process_data		process_data
.gitignore		.gitignore
README.md		README.md
all_books.csv		all_books.csv
book_store.db		book_store.db
main.py		main.py
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

📚 Scraping — Google Books → CSV & SQLite

🚀 Fonctionnalités

🗂️ Structure du projet

⚙️ Installation

▶️ Exécution du pipeline

🧾 Données générées

👤 Auteurs

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages