Exercices

  1. Standardisation (Z-score)
    Pour $x=[-10,20,-30,40,-50]$, calculez la médiane, puis calculez les z-scores $z_i=\dfrac{x_i-\mu}{\sigma}$ (avec $\mu$ moyenne et $\sigma$ écart-type).
    Identifiez la valeur ayant le plus grand $|z_i|$.

  2. Softmax (stabilité numérique) + probabilités
    Pour un vecteur de logits $s=[2,1,0]$, calculez $$ \mathrm{softmax}(s)_i=\frac{e^{s_i-\max(s)}}{\sum_j e^{s_j-\max(s)}}. $$ Donnez les trois probabilités (arrondies à $10^{-3}$).

  3. Normalisation Min–Max (avec et sans outlier)
    Soit $x=[2,4,5,9]$. Calculez $x’=\dfrac{x-\min(x)}{\max(x)-\min(x)}$.
    Ajoutez ensuite un outlier $x_5=100$ et recalculez les 4 valeurs normalisées initiales (celles de $2,4,5,9$).

  4. Stabilité numérique : sigmoid et clipping
    On utilise $\sigma(z)=\dfrac{1}{1+e^{-z}}$.
    (a) Calculez $\sigma(0)$, $\sigma(5)$, $\sigma(-5)$ (arrondir à $10^{-4}$).
    (b) On clippe $z$ dans $[-5,5]$. Donnez la sortie pour $z=10$ et $z=-10$ après clipping.

  5. Régression linéaire : prédictions et MSE
    Données : $(x,y)\in{(0,1),(1,3),(2,5)}$. Modèle $\hat y = wx+b$ avec $w=2$, $b=1$.
    (a) Calculez $\hat y$ pour chaque point.
    (b) Calculez la MSE.

  6. Descente de gradient (1 itération) pour régression linéaire
    Même données que l’exercice 5. Coût $\text{MSE}=\frac{1}{N}\sum (y_i-\hat y_i)^2$.
    On donne les gradients à un instant $t$ : $\frac{\partial \text{Cost}}{\partial w}=4$, $\frac{\partial \text{Cost}}{\partial b}=2$.
    Avec $\eta=0{,}1$, calculez $w_{t+1}$ et $b_{t+1}$ si $w_t=2$, $b_t=1$.

  7. Ridge (L2) : coût régularisé
    On a une MSE non régularisée de 10. Poids $w=[3,-4]$. (a) Calculez $\sum w^2$.
    (b) Calculez le coût régularisé $10+\lambda\sum w^2$ pour $\lambda=0{,}1$ puis $\lambda=1$.

  8. Binary cross-entropy (BCE)
    Pour $y=[1,0,1,1]$ et $\hat y=[0{,}9,0{,}2,0{,}4,0{,}8]$, calculez $$ \mathrm{BCE}=-\frac{1}{n}\sum_{i=1}^n\left(y_i\log(\hat y_i)+(1-y_i)\log(1-\hat y_i)\right). $$ Exprimez un résultat numérique (log naturel).

  9. Matrice de confusion → accuracy, precision, recall, F1
    Sur 100 exemples : $TP=30$, $FP=10$, $FN=20$, $TN=40$.
    Calculez accuracy, precision, recall, F1.

  10. Régression : MSE, RMSE, $R^2$
    Vérités $y=[3, -1, 2, 7]$, prédictions $\hat y=[2, -1, 2, 8]$.
    (a) Calculez la MSE puis la RMSE.
    (b) Calculez $\mathrm{Var}(y)$ (variance population, diviser par $n$).
    (c) Calculez $R^2 = 1-\frac{\mathrm{MSE}}{\mathrm{Var}(y)}$.

  11. Entropie d’un noeud racine
    Un jeu de données contient 14 exemples : 9 positifs, 5 négatifs.
    Calculez l’entropie du noeud racine $\log_2$. Donnez une valeur numérique arrondie à $10^{-3}$.

  12. Impureté de Gini (comparaison)
    Même distribution que l’exercice 11.
    Calculez l’impureté de Gini du noeud racine. Comparez numériquement entropie et Gini.

  13. Entropie de sous-ensembles
    Après un split, on obtient deux sous-ensembles :

    • $S_1$ : 6 exemples $6+, 0−$
    • $S_2$ : 8 exemples $3+, 5−$

Calculez l’entropie de $S_1$ et $S_2$.

  1. Gain d’information d’un split
    À partir des résultats des exercices 11 et 13, calculez le gain d’information du split.
    Précisez le poids de chaque sous-ensemble dans la moyenne pondérée.

  2. Bootstrap (échantillonnage avec remise)
    Un dataset contient $N=10$ observations.
    (a) Calculez le nombre attendu d’observations distinctes dans un échantillon bootstrap de taille 10.
    (b) Donnez la proportion attendue d’observations non sélectionnées.

  3. Vote majoritaire (classification)
    Une forêt contient 7 arbres qui prédisent les classes suivantes pour un même exemple :
    $[1,1,0,1,0,1,0]$.
    (a) Donnez la classe finale prédite.
    (b) Calculez la proportion de votes pour chaque classe.

  4. Boosting : pondération des exemples (AdaBoost)
    Un classifieur faible a une erreur $\varepsilon = 0{,}25$.
    Calculez son poids

$$ \alpha = \frac{1}{2}\ln\left(\frac{1-\varepsilon}{\varepsilon}\right). $$

  1. Mise à jour des poids (AdaBoost)
    Un exemple a un poids initial $w=0{,}1$.
    (a) Donnez son nouveau poids (avant normalisation) s’il est mal classé.
    (b) Donnez son nouveau poids (avant normalisation) s’il est correctement classé.
    Utilisez la valeur de $\alpha$ calculée à l’exercice 17.

  2. Contraintes SVM (séparabilité)
    On considère trois points étiquetés :

$$ (x_1,y_1)=((1,0),+1),\quad (x_2,y_2)=((0,1),+1),\quad (x_3,y_3)=((-1,0),-1). $$ Vérifiez numériquement si les contraintes $y_i(w\cdot x_i+b)\ge 1$ sont satisfaites pour $w=(1,1)$, $b=0$.

  1. Noyau RBF (influence de $\gamma$)
    Soient $x=(0,0)$, $x’=(1,1)$.
    Calculez $K(x,x’)=\exp(-\gamma|x-x’|^2)$ pour $\gamma=0.5$ puis $\gamma=2$.
    Comparez numériquement.

  2. One-vs-Rest (OvR)
    Un problème comporte 4 classes.
    Calculez le nombre de classifieurs SVM entraînés en stratégie OvR.

  3. One-vs-One (OvO)
    Même problème à 4 classes.
    Calculez le nombre de classifieurs nécessaires en stratégie OvO.

  4. Backpropagation
    Compute gradients for a simple neural network.

    • Setup (two-layer network):

      • Input: $$X \in \mathbb{R}^{1 \times 2},\quad X = [0.5, -0.2]$$
      • First-layer weights: $$ W_1 \in \mathbb{R}^{2 \times 2},\quad W_1 = \begin{bmatrix} 0.1 & 0.3 \ -0.2 & 0.4 \end{bmatrix} $$
      • First-layer biases (for simplicity): $$b_1 = [0, 0]$$
      • Hidden representation: $$Z_1 = X W_1 + b_1,\quad H = \text{ReLU}(Z_1)$$
      • Output-layer weights (binary output): $$W_2 \in \mathbb{R}^{2\times 1},\quad W_2 = \begin{bmatrix}0.2\ -0.5\end{bmatrix}$$
      • Output bias: $$b_2 = 0$$
      • Output pre-activation and prediction: $$z_2 = H \cdot W_2 + b_2,\quad \hat y = \sigma(z_2)$$
      • True label: $y = 1$
    • Tasks:

      • Perform the forward pass as defined above (ReLU for the hidden layer, Sigmoid for the output).
      • Calculate the binary cross-entropy loss: $$ L = -\bigl(y \log(\hat y) + (1-y)\log(1-\hat y)\bigr). $$
      • Derive the gradients $\frac{\partial L}{\partial W_1}$ and $\frac{\partial L}{\partial W_2}$ using backpropagation (apply the chain rule).
Pierre-Henri Paris
Pierre-Henri Paris
Associate Professor in Artificial Intelligence

My research interests include Knowlegde Graphs, Information Extraction, and NLP.