Wie werden LLM-Systeme getestet?

Wenn von neuen oder verbesserten LLMs (Large Language Models) berichtet wird, wie in letzter Zeit bei OpenChat oder Mistral, oder auch wenn es nur um die Leistungsfähigkeit von ChatGPT geht, werden immer wieder Benchmarkwerte angezeigt und ins Spiel gebracht. Die Benchmarks sollen dabei zum einen die Leistungsfähigkeit der LLMs darstellen und zum anderen eine Vergleichbarkeit… Wie werden LLM-Systeme getestet? weiterlesen

Claude 2.1 gestartet

Claude 2.1: Ein Sprung nach vorn in der KI-Technologie Claude 2.1 stellt einen bedeutenden Fortschritt in der KI-Entwicklung dar, mit Verbesserungen, die seine Anwendungsbreite und Zuverlässigkeit erheblich erweitern. Erweitertes Kontextfenster Das Update auf ein 200.000-Token-Kontextfenster ermöglicht es Claude 2.1, umfangreiche Datenmengen effizient zu verarbeiten. Diese Fähigkeit zur Handhabung großer Inhaltsmengen, wie komplette Codebasen oder umfangreiche… Claude 2.1 gestartet weiterlesen