Aller au contenu

IA Limos/Isima

Point d'accès

Services

  • Chat - Chat avec les modèles de langage
  • RAG - Retrieval-Augmented Generation pour interroger vos documents
  • API - Accès programmatique aux modèles de langage

Models actuels

dev-model: Orienté vers les tâches de développement et pour l'agentic
general: Modèle généraliste pour les tâches de chat classiques avec raisonnement
general_nothink: Variante de general sans capacités de raisonnement

Model Tokens Params Active Aliases Capacités
MiniMax-M2.7 196608 230B 10B dev-model Chat, Agentic
Mistral-Small4 262144 119B 6.5B general, general_nothink Chat, Agentic, VL (img)
bge-m3 8192 1B embedding Embedding

Hardware

  • 4x H100 (90GB RAM chacune) = 360GB total
  • 1x H200 (140GB RAM)

Changelogs

v1 (20/04/2026)

  • Changements d'URLs
  • Reset de OpenWebUI
  • Reset de toutes les clés LiteLLM
  • Ouverture aux enseignants/chercheurs
  • Déploiement de Ragondin (rag.ia.limos.fr)
  • Re déploiement des différents services

v0.5 (13/04/2026)

  • Mise a jour vers Minimax M2.7
  • Mise en place de Proxy pour Searxng

v0.4 (31/03/2026)

  • Les call API passent désormais par LiteLLM
  • Connexion a OpenWebUI avec le SSO
  • Gestion des tokens depuis https://keymgr.limos.fr
  • Mistral Small4 remplace Qwen3.5
  • Ajout d'un alias general-nothink qui désactive le raisonnement
  • Model d'embedding BAAI/bge-m3

Modifier l'API_URL dans vos configs par https://litellm.limos.fr/v1
Le token se gènère sur https://keymgr.limos.fr

v0.3 (25/02/2026)

  • Changement des models : MiniMax (dev) et Qwen3.5 (generaliste)
  • Qwen3.5 supporte le VL nativement (image, vidéo, audio, screenshot)
  • Export des métriques des VLLm via Prometheus
  • Graphiques d'utilisation des ressources dans Grafana

v0.2 (12/02/2026)

  • Changement des models : DevStral remplacé par GLM-4.7
  • Ajout d'une CLI pour piloter les modèles
  • Gestion des clés API via LiteLLM

v0.1 (06/01/2026)

  • Mise à disposition d'OpenWebUI utilisant LiteLLM
  • Recherche web via SearxNG (auto-hébergé, service séparé)
  • Génération de clés API via OpenWebUI
  • Models disponibles : DevStral-123b, gpt-oss-120b