Agentic AI Library

Curated Open Source Library

Start Here Library Glossary About the CreatorRoadmap Provide Feedback

Resource

Loading…

Agentic AI LibraryOpen Source · Last Reviewed 2026-06-07

Library About the Creator Roadmap PrivacyProvide Feedback LinkedIn Author Portfolio

All Rights Reserved @2026 Georgi Naydenov

Home/Library/AI Agent Benchmark Results Index | Steel.dev

Evaluation, Testing & Observability

AI Agent Benchmark Results Index | Steel.dev

Details

Publisher: Steel
Domain: Engineering & Architecture
Category: Evaluation, Testing & Observability
Type Group: Benchmarks & Datasets
Type: Benchmark
Best For: Developer
Skill Level: Intermediate
Access: Free
Topic: Agent evaluation

Related in Evaluation, Testing & Observability

WebArena: Realistic Web EnvironmentEmergentmind
WebArena: A Realistic Web Environment for Building Autonomous Agents - ADSHarvard
Published in Transactions on Machine Learning Research (05/2025)Openreview
GAIA:A Benchmark for General AI Assistants - ar5iv - arXivarXiv
Synthesizing Agent Trajectories via Test-Time Exploration ...arXiv
Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM AgentsarXiv

Open ResourceBack to library