Exercices
Standardisation (Z-score)
Pour $x=[-10,20,-30,40,-50]$, calculez la médiane, puis calculez les z-scores $z_i=\dfrac{x_i-\mu}{\sigma}$ (avec $\mu$ moyenne et $\sigma$ écart-type).
Identifiez la valeur ayant le plus grand $|z_i|$.Softmax (stabilité numérique) + probabilités
Pour un vecteur de logits $s=[2,1,0]$, calculez $$ \mathrm{softmax}(s)_i=\frac{e^{s_i-\max(s)}}{\sum_j e^{s_j-\max(s)}}. $$ Donnez les trois probabilités (arrondies à $10^{-3}$).Normalisation Min–Max (avec et sans outlier)
Soit $x=[2,4,5,9]$. Calculez $x’=\dfrac{x-\min(x)}{\max(x)-\min(x)}$.
Ajoutez ensuite un outlier $x_5=100$ et recalculez les 4 valeurs normalisées initiales (celles de $2,4,5,9$).Stabilité numérique : sigmoid et clipping
On utilise $\sigma(z)=\dfrac{1}{1+e^{-z}}$.
(a) Calculez $\sigma(0)$, $\sigma(5)$, $\sigma(-5)$ (arrondir à $10^{-4}$).
(b) On clippe $z$ dans $[-5,5]$. Donnez la sortie pour $z=10$ et $z=-10$ après clipping.Régression linéaire : prédictions et MSE
Données : $(x,y)\in{(0,1),(1,3),(2,5)}$. Modèle $\hat y = wx+b$ avec $w=2$, $b=1$.
(a) Calculez $\hat y$ pour chaque point.
(b) Calculez la MSE.Descente de gradient (1 itération) pour régression linéaire
Même données que l’exercice 5. Coût $\text{MSE}=\frac{1}{N}\sum (y_i-\hat y_i)^2$.
On donne les gradients à un instant $t$ : $\frac{\partial \text{Cost}}{\partial w}=4$, $\frac{\partial \text{Cost}}{\partial b}=2$.
Avec $\eta=0{,}1$, calculez $w_{t+1}$ et $b_{t+1}$ si $w_t=2$, $b_t=1$.Ridge (L2) : coût régularisé
On a une MSE non régularisée de 10. Poids $w=[3,-4]$. (a) Calculez $\sum w^2$.
(b) Calculez le coût régularisé $10+\lambda\sum w^2$ pour $\lambda=0{,}1$ puis $\lambda=1$.Binary cross-entropy (BCE)
Pour $y=[1,0,1,1]$ et $\hat y=[0{,}9,0{,}2,0{,}4,0{,}8]$, calculez $$ \mathrm{BCE}=-\frac{1}{n}\sum_{i=1}^n\left(y_i\log(\hat y_i)+(1-y_i)\log(1-\hat y_i)\right). $$ Exprimez un résultat numérique (log naturel).Matrice de confusion → accuracy, precision, recall, F1
Sur 100 exemples : $TP=30$, $FP=10$, $FN=20$, $TN=40$.
Calculez accuracy, precision, recall, F1.Régression : MSE, RMSE, $R^2$
Vérités $y=[3, -1, 2, 7]$, prédictions $\hat y=[2, -1, 2, 8]$.
(a) Calculez la MSE puis la RMSE.
(b) Calculez $\mathrm{Var}(y)$ (variance population, diviser par $n$).
(c) Calculez $R^2 = 1-\frac{\mathrm{MSE}}{\mathrm{Var}(y)}$.Entropie d’un noeud racine
Un jeu de données contient 14 exemples : 9 positifs, 5 négatifs.
Calculez l’entropie du noeud racine $\log_2$. Donnez une valeur numérique arrondie à $10^{-3}$.Impureté de Gini (comparaison)
Même distribution que l’exercice 11.
Calculez l’impureté de Gini du noeud racine. Comparez numériquement entropie et Gini.Entropie de sous-ensembles
Après un split, on obtient deux sous-ensembles :- $S_1$ : 6 exemples $6+, 0−$
- $S_2$ : 8 exemples $3+, 5−$
Calculez l’entropie de $S_1$ et $S_2$.
Gain d’information d’un split
À partir des résultats des exercices 11 et 13, calculez le gain d’information du split.
Précisez le poids de chaque sous-ensemble dans la moyenne pondérée.Bootstrap (échantillonnage avec remise)
Un dataset contient $N=10$ observations.
(a) Calculez le nombre attendu d’observations distinctes dans un échantillon bootstrap de taille 10.
(b) Donnez la proportion attendue d’observations non sélectionnées.Vote majoritaire (classification)
Une forêt contient 7 arbres qui prédisent les classes suivantes pour un même exemple :
$[1,1,0,1,0,1,0]$.
(a) Donnez la classe finale prédite.
(b) Calculez la proportion de votes pour chaque classe.Boosting : pondération des exemples (AdaBoost)
Un classifieur faible a une erreur $\varepsilon = 0{,}25$.
Calculez son poids
$$ \alpha = \frac{1}{2}\ln\left(\frac{1-\varepsilon}{\varepsilon}\right). $$
Mise à jour des poids (AdaBoost)
Un exemple a un poids initial $w=0{,}1$.
(a) Donnez son nouveau poids (avant normalisation) s’il est mal classé.
(b) Donnez son nouveau poids (avant normalisation) s’il est correctement classé.
Utilisez la valeur de $\alpha$ calculée à l’exercice 17.Contraintes SVM (séparabilité)
On considère trois points étiquetés :
$$ (x_1,y_1)=((1,0),+1),\quad (x_2,y_2)=((0,1),+1),\quad (x_3,y_3)=((-1,0),-1). $$ Vérifiez numériquement si les contraintes $y_i(w\cdot x_i+b)\ge 1$ sont satisfaites pour $w=(1,1)$, $b=0$.
Noyau RBF (influence de $\gamma$)
Soient $x=(0,0)$, $x’=(1,1)$.
Calculez $K(x,x’)=\exp(-\gamma|x-x’|^2)$ pour $\gamma=0.5$ puis $\gamma=2$.
Comparez numériquement.One-vs-Rest (OvR)
Un problème comporte 4 classes.
Calculez le nombre de classifieurs SVM entraînés en stratégie OvR.One-vs-One (OvO)
Même problème à 4 classes.
Calculez le nombre de classifieurs nécessaires en stratégie OvO.Backpropagation
Compute gradients for a simple neural network.Setup (two-layer network):
- Input: $$X \in \mathbb{R}^{1 \times 2},\quad X = [0.5, -0.2]$$
- First-layer weights: $$ W_1 \in \mathbb{R}^{2 \times 2},\quad W_1 = \begin{bmatrix} 0.1 & 0.3 \ -0.2 & 0.4 \end{bmatrix} $$
- First-layer biases (for simplicity): $$b_1 = [0, 0]$$
- Hidden representation: $$Z_1 = X W_1 + b_1,\quad H = \text{ReLU}(Z_1)$$
- Output-layer weights (binary output): $$W_2 \in \mathbb{R}^{2\times 1},\quad W_2 = \begin{bmatrix}0.2\ -0.5\end{bmatrix}$$
- Output bias: $$b_2 = 0$$
- Output pre-activation and prediction: $$z_2 = H \cdot W_2 + b_2,\quad \hat y = \sigma(z_2)$$
- True label: $y = 1$
Tasks:
- Perform the forward pass as defined above (ReLU for the hidden layer, Sigmoid for the output).
- Calculate the binary cross-entropy loss: $$ L = -\bigl(y \log(\hat y) + (1-y)\log(1-\hat y)\bigr). $$
- Derive the gradients $\frac{\partial L}{\partial W_1}$ and $\frac{\partial L}{\partial W_2}$ using backpropagation (apply the chain rule).