lundi 29 juillet 2024

C'est quoi une base de données vectorielles?

 

Une base de données vectorielle est une base de données qui stocke des informations sous forme de vecteurs, c'est-à-dire des représentations numériques d'objets de données.

🔜 Qu'est-ce qu'un vecteur ?

Pour faire simple, les vecteurs sont une représentation numérique du texte.

Il y a du texte d'entrée (également appelé Prompt)

Vous le transmettez via ce qu'on appelle un modèle d'intégration , que vous considérez comme une fonction sans état. Vous obtenez une sortie qui est un tableau de nombres à virgule flottante

Ce qu'il est important de comprendre, c'est que les vecteurs capturent le sens sémantique . Ils peuvent donc être utilisés pour une recherche basée sur la pertinence ou le contexte , plutôt que pour une simple recherche de texte.

La base de donnée vectorielle tire parti de la puissance de ces plongements vectoriels pour indexer un ensemble volumineux de données non structurées et de données semi-structurées, comme les images, les textes ou les données de capteur, et pour y faire des recherches. Les bases de données vectorielles sont conçues pour gérer les plongements vectoriels, et ainsi offrir une solution complète pour la gestion des données non structurées et semi-structurées.

Une base de données vectorielle organise les données selon des vecteurs à haute dimensionnalité. Les vecteurs à haute dimensionnalité contiennent des centaines de dimensions, qui correspondent chacune à une fonctionnalité ou à une propriété spécifique de l'objet de données qu'elles représentent.


On peut classer les bases de données vectorielles en deux types :

1️⃣ Prise en charge du type de données vectorielles dans les bases de données existantes, telles que PostgreSQL, Redis, OpenSearch, MongoDB, Cassandra, etc.

2️⃣ Et l'autre catégorie est destinée aux bases de données vectorielles spécialisées, comme

Pinecone, https://www.pinecone.io/

Weaviate, https://weaviate.io/

Milvus, https://nebius.ai/marketplace/products/nebius/milvus (open source)

Qdrant, https://qdrant.tech/ (open source)

ChromaDB, https://www.trychroma.com/ (open source)

Ce domaine évolue également très rapidement et cette liste risque d’évoluer dans un avenir proche !

Exemple dans Ollama on utilise ChromaDB depuis le mois d'avril 2024

🔗 source : Open Source & Self-hosted RAG LLM Server with ChromaDB, Docker & Ollama

⚠ Bases de données vectorielles sont de plus en plus utilisées pour les applications d'IA générative

Elles sont un composant essentiel pour surmonter les limitations des LLM notamment dans le processus RAG


lundi 15 juillet 2024

GraphRAG projet Open Source

 

📢 GraphRAG est un nouveau projet Open Source qui permet d'interpréter et de rechercher de grands ensembles de données en utilisant des modèles de langage volumineux (LLM) pour créer des graphes de connaissances.


samedi 29 juin 2024

Les IA plus intelligentes que l'homme


 
❓ Les IA plus intelligentes que l'homme ?

ça dépend...sur les questions à la con oui, mais après ça se mesure ! 📏

lundi 3 juin 2024

jeudi 30 mai 2024

Mais y a combien de modèles d'IA à + de 10^23 FLOP ?


J'ai fait un post précédemment dans mon blog post précédemment dans mon blog sur la puissance de calcul nécessaire pour l'IA. Les calculs de formations pour générer les LLM ont doublé tous les 6 mois depuis l'émergence de l'ère du Deep Learning. On trouve de nombreux modèles ayant demandé plus de 10Exp23 Flops. 

mercredi 22 mai 2024

l'IA c'est du calcul! le calcul c'est de l'argent et de l'énergie



👾 La puissance de calcul est un moteur clé de l'accélération des progrès de l’IA que nous observons actuellement .


📈 Au cours des treize dernières années, la quantité de calcul utilisée pour former des systèmes d’IA a été multipliée par 350 millions.
(Graphique ci dessous)

lundi 6 mai 2024

Adaptive Learning et l'apport de l'IA dans ce domaine

 

Lors de cette deuxième édition des Ludoviales, j'ai eu le plaisir d'animer un atelier autour de l'Adaptive Learning et de l'apport de l'IA dans ce domaine.
C'est aussi le moment de rappeler que l'IA dans le monde de l'éducation ce n'est pas que les IA génératives dont certains processus dont les bases théoriques remontant à la moitié du XXeme siécle.



mardi 6 février 2024

IA4Sup : Une veille collaborative autour de l'IA dans l'enseignement supérieur


L’idée autour de la création de cet espace est de favoriser la collaboration entre les acteurs dans nos établissements enseignement supérieur sur la veille autour de l'IA.
 Avec plusieurs intervenants, nous nous sommes réunis pour mutualiser autour d’une communauté d’intérêt et de partage en proposant un cadre de 
travail collaboratif avec 3 axes 

1-Les acteurs 
Pour 
Identifier dans nos établissements des personnes intéressées par différents domaines de l’IA:

-d’un point de vue informatique Installation de serveurs, sécurisation des données, programmation, mise en place d’API, interconnexion avec des dispositifs existants…)

-d’un point de vue fonctionnel : quelle IA pour faire quoi? quels services dans l’Université pourrait être intéressés? J’ai mis en œuvre une IA , je partage mon expérience

-d’un point de vue juridique RGPD, droit d’auteur, plagiat, confidentialité

-d’un point de vue pédagogique ce que cela peut changer coté enseignant, comme coté étudiants

-d’un point de vue éthique et philosophique




lundi 18 décembre 2023

La simulation pour motiver et former les élèves

 

La semaine dernière (vendredi 15 décembre 2023), je me suis rendu au mondial des métiers à Lyon. L'idée des organisateurs est de proposer une présentation des différents métiers pour permettre aux élèves une meilleure orientation. Et plus qu'une simple présentation cet évènement est construit pour permettre aux visiteurs de plonger dans l'univers professionnel, d'interroger des experts, et de vivre des démonstrations captivantes.

jeudi 14 décembre 2023

L'IA arrive dans les Rapidmooc


Quand Sarah et Fabrice m'ont demandé de participer à un webinaire pour parler de l'intérêt de la vidéo en pédagogie, je n'ai pas pu refuser pour plusieurs raisons:

- C'est un sujet qui est toujours d'actualité ( Ref )
- Au delà de l'aspect technique les différents types de vidéo ( Ref ) pédagogique que l'on peut produire rapidement avec un Rapidmooc permettent de structurer la scénarisation de dispositifs hybride en allant plus loin que de la simple diffusion de contenu.