Introduction
Cas d'usage
Agents conversationnels et assistants virtuels
Génération de code et debuggage
Analyse de sentiments / opinions
Classification de texte et clusterisation
Synthèse de texte ou corpus
Traduction
Génération de contenu
Fondations
Le traitement du langage naturel (TAL)
L’architecture disruptive des Transformers
La tokenisation des textes
L’encodeur d’un Transformer
La couche d’embedding
L’encodage et le Vecteur de positionnement
Le mécanisme d’attention multi-têtes
Addition et Normalisation des sorties
Le Décodeur d’un Tranformer
La couche d’auto-attention masquée
La couche d’attention du décodeur
Les couches supérieures du décodeur
En pratique
Choisir un LLM
Critères de choix
Modèles à encodeur simple
Focus modèles BERTs
Modèles à décodeur simple
Focus modèles GPTs
Un foisonnement de modèles dérivés
Approches de réduction
Écosystèmes clés
APIs de modèles Fermés
HuggingFace et les modèles ouverts
Écosystèmes applicatifs type LangChain
LLMops et MLFlow
Mise en oeuvre
Choix service / in house / hybrid
In house workflow
Service workflow
L'entraînement d'un modèle massif
L'étape d'évaluation des modèles
Le réglage des hyperparamètres
Déploiement d'un modèle
Model fine-tuning
Prompt engineering
MLOps d'un LLMs
Le Prompt Engineering
Configuration des paramètres des LLMs
Qu’est ce qu’un token ?
Notion de distribution des probabilités des LLMs
Les échantillonnages Top-K et top-p
La température du modèle
Le réglage des paramètres en pratique
Les composantes d’un prompt
Règles générales
L’approche Few-Shot Learning
Zero, one to Few-shot learning
L’approche Chain of thoughts
L’incitation par chaînes de pensées
Des approches plus avancées
ReAct Prompting
Méthode ReAct
LLMs augmentés
L’enrichissement des LLMs
Ajout de capacité mémorielle
Mémoire tampon (Buffer Memory)
Mécanismes de mémorisation
Les mémoires de l’écosystème LangChain
Retrieval Augmented Generation (RAG)
Le partitionnement des textes externes
Projection sémantique des documents (Embeddings)
Les bases de données vectorielles
Les algorithmes du search dans les bases vectorielles
Une galaxie d’outils possibles !
Déploiement de LLMs
Quand le prompt engineering ne suffit plus
Qu’est ce que le réglage fin
Techniques classiques
Reinforcement learning by Human feedback (RLHF)
Détails d’un réglage fin Supervisé
Les options pour l’ajustement des paramètres
Les approches PEFT (Parameter Efficient Tuning)
La méthode LoRA (Low Rank Adaptation)
Une variante efficiente : QLoRA
Qu’est ce que la mise en service d’un LLM
Journaliser le modèle dans le registre des modèles
Création d’un point de terminaison vers le modèle
Interroger le point de terminaison