La nouvelle référence TrueBench AI de Samsung teste les tâches du monde réel

Samsung n'est pas une entreprise entièrement axée sur l'IA comme la perplexité ou l'Openai. Cependant, sa stratégie actuelle et à long terme consiste à intégrer l'intelligence artificielle dans la grande majorité de ses produits dans tous les segments possibles. Les fonctionnalités de la suite Galaxy AI dans les smartphones et tablettes de l'entreprise en sont un exemple clair. Compte tenu de ce scénario, Samsung Research a développé une nouvelle référence propriétaire pour évaluer la productivité de l'IA appelée TrueBench.

TrueBench: la référence AI de Samsung pour les performances de l'IA du monde réel

Rencontrez le nouveau TrueBench de Samsung (référence de référence d'évaluation de l'utilisation du monde réel digne de confiance). La société a déclaré avoir créé l'outil pour aborder les limitations trouvées dans les repères d'IA existants. La société affirme que les outils actuels se concentrent trop sur l'anglais. Aussi qu'ils comptent souvent sur des structures de questions et de réponses simples et à tour. Cela a restreint leur capacité à refléter avec précision comment l'IA est utilisée dans un environnement de travail du monde réel.

Pour surmonter ces limitations, TrueBench vise à fournir une évaluation plus complète et réaliste de la fonctionnalité des modèles de langage dans des contextes professionnels. La référence évalue les performances de l'IA sur les tâches d'entreprise couramment utilisées. La liste comprend la génération de contenu, l'analyse des données, le résumé et la traduction. Ces tâches font partie d'une collection massive de 2 485 ensembles de test qui s'étendent sur dix catégories et 46 sous-catégories et intègrent divers scénarios de dialogue dans douze langues.

Les ensembles de test eux-mêmes vont de huit caractères aussi courts à plus de 20 000 caractères pour refléter une variété de tâches. Ils vont des demandes simples pour résumer de longs documents.

Le système d'évaluation implique également des humains

Pour assurer une notation fiable et précise, TrueBench utilise un système d'évaluation collaboratif unique qui implique à la fois la revue humaine et l'IA. Premièrement, les annotateurs humains établissent les critères d'évaluation initiaux. Ensuite, une IA examine les critères pour vérifier les erreurs, les contradictions ou les contraintes inutiles. Les annotateurs humains affinent ensuite les critères en fonction de la rétroaction de l'IA, répétant ce processus pour créer une norme d'évaluation de plus en plus précise. Ce système croisé vise à minimiser les biais subjectifs. Pour passer ce test, un modèle d'IA doit remplir toutes les conditions requises, ce qui permet une notation plus détaillée et précise entre les tâches.

Samsung a rendu les échantillons de données de TrueBench et les classements disponibles sur la plate-forme open source étreignant le visage. La plate-forme permet aux développeurs et aux chercheurs de comparer les performances et l'efficacité de jusqu'à cinq modèles d'IA différents simultanément. La société publiera également les données sur la durée moyenne des réponses d'un modèle. Cela fournira une comparaison en un coup de verre des performances et de l'efficacité.

Selon Samsung, l'objectif de TrueBench est d'établir de nouvelles normes d'évaluation pour la productivité et de renforcer la position technologique de l'entreprise. Fondamentalement, il promet des mesures d'IA plus réalistes et fiables.