Agentic AI Library

Curated Open Source Library

Start Here Library Glossary About the CreatorRoadmap Provide Feedback

Resource

Loading…

Agentic AI LibraryOpen Source · Last Reviewed 2026-06-07

Library About the Creator Roadmap PrivacyProvide Feedback LinkedIn Author Portfolio

All Rights Reserved @2026 Georgi Naydenov

Home/Library/GitHub - UKGovernmentBEIS/inspect_ai: Inspect: A framework for large language model evaluations · GitHub

Evaluation, Testing & Observability

GitHub - UKGovernmentBEIS/inspect_ai: Inspect: A framework for large language model evaluations · GitHub

Details

Publisher: GitHub
Domain: Engineering & Architecture
Category: Evaluation, Testing & Observability
Type Group: Benchmarks & Datasets
Type: Benchmark
Best For: Developer
Skill Level: Intermediate
Access: Free
Topic: Agent evaluation

Related in Evaluation, Testing & Observability

WebArena: Realistic Web EnvironmentEmergentmind
WebArena: A Realistic Web Environment for Building Autonomous Agents - ADSHarvard
Published in Transactions on Machine Learning Research (05/2025)Openreview
GAIA:A Benchmark for General AI Assistants - ar5iv - arXivarXiv
Synthesizing Agent Trajectories via Test-Time Exploration ...arXiv
Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM AgentsarXiv

Open ResourceBack to library