Introduction to Machine Learning

Support Vector Machine

Hyperparameter Tuning

$C$ (Regularization parameter): Controls trade-off between maximizing margin and minimizing misclassification.
$\gamma$ (Gamma): Defines the influence of individual training examples in RBF kernels.
Importance of cross-validation in hyperparameter tuning.

Model Evaluation for SVMs

Performance Metrics:

Accuracy: Fraction of correctly classified instances.
Precision and Recall: Balance between false positives and false negatives.
F1 Score: Harmonic mean of precision and recall.

Cross-Validation:

Divide dataset into $k$ subsets (folds).
Train on $k-1$ folds and validate on the remaining fold.
Avoids overfitting by testing on unseen data.

Common Mistakes and Best Practices

Feature Scaling: Always standardize features for SVMs.
Kernel Selection: Experiment with different kernels for non-linear data.
Overfitting: Use cross-validation and regularization to avoid overfitting.
Hyperparameter Tuning: Optimize $C$ and $\gamma$ for the best results.

Multi-Class SVMs

SVMs are inherently binary classifiers.
Strategies for multi-class classification:

One-vs-One (OvO): Train $\frac{n(n-1)}{2}$ classifiers for $n$ classes.
One-vs-Rest (OvR): Train $n$ classifiers, each separating one class from the rest.

Practical applications: Handwritten digit classification, object recognition.

Grid Search for Hyperparameter Tuning

from sklearn.model_selection import GridSearchCV
param_grid = {'C': [0.1, 1, 10], 
    'gamma': [1, 0.1, 0.01], 'kernel': ['rbf']}
grid = GridSearchCV(SVC(), param_grid, refit=True, verbose=2)
grid.fit(X_train, y_train)

Best parameters: grid.best_params_
Best estimator: grid.best_estimator_

Limitations of SVMs

Computational Complexity:
- Training time scales approximately $O(n^2)$ or $O(n^3)$ , where $n$ is the number of training samples.
- Can be impractical for large datasets with thousands or millions of samples.
Memory Usage:
- SVMs store support vectors, which can be numerous for complex datasets.
- High-dimensional datasets further increase memory requirements.
Kernel and Hyperparameter Selection:
- Performance is sensitive to the choice of kernel (e.g., linear, RBF, polynomial).
- Requires careful tuning of hyperparameters like $C$ and $\gamma$ , which can be computationally expensive.
Interpretability:
- Decision boundaries are less intuitive compared to simpler models like decision trees.
- Difficult to explain results to non-technical stakeholders.
Scalability:
- Not suitable for datasets with millions of samples without specialized implementations (e.g., linear SVMs in Scikit-learn).

1 / 32

Introduction to Machine Learning

Support Vector Machine

Introduction to SVMs

Support Vector Machines (SVMs)

Core Concepts of SVMs

Visualization: SVM Decision Boundary

SVM with Linear Kernels

Linear SVMs

Linear SVMs: Example

Optimization Techniques in SVMs

Non-Linear SVMs

Challenges with Linear SVMs

Introducing the Kernel Trick

Visualization: Kernel Trick

Popular Kernel Functions

Tuning and Practical Considerations

Hyperparameter Tuning

Model Evaluation for SVMs

Common Mistakes and Best Practices

Advanced Topics and Applications

Multi-Class SVMs

Visualization: Multi-Class SVMs

Support Vector Regression (SVR)

Practical Tips for SVM Implementation

Practical Implementation in Scikit-learn

Grid Search for Hyperparameter Tuning

Advantages of SVMs

Limitations of SVMs

Comparison of SVMs with Other Algorithms

SVM Applications

Real-World Example: SVMs for Spam Detection

Conclusion and Summary