Agentic AI Library

Curated Open Source Library

Start Here Library Glossary About the CreatorRoadmap Provide Feedback

Resource

Loading…

Agentic AI LibraryOpen Source · Last Reviewed 2026-06-07

Library About the Creator Roadmap PrivacyProvide Feedback LinkedIn Author Portfolio

All Rights Reserved @2026 Georgi Naydenov

Home/Library/OpenAI Evals

Evaluation, Testing & Observability

OpenAI Evals

Details

Publisher: OpenAI
Domain: Engineering & Architecture
Category: Evaluation, Testing & Observability
Type Group: Tools & Platforms
Type: Tool
Best For: Developer
Skill Level: Intermediate
Access: Free
Topic: Evaluation harness

Related in Evaluation, Testing & Observability

WebArena: Realistic Web EnvironmentEmergentmind
WebArena: A Realistic Web Environment for Building Autonomous Agents - ADSHarvard
Published in Transactions on Machine Learning Research (05/2025)Openreview
GAIA:A Benchmark for General AI Assistants - ar5iv - arXivarXiv
Synthesizing Agent Trajectories via Test-Time Exploration ...arXiv
Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM AgentsarXiv

Open ResourceBack to library