AI 에이전트를 위한 로컬 전용 평가 실행기를 구축했습니다(quickbench).

hackernews | | 📦 오픈소스
#ai 에이전트 #로컬 평가 #머신러닝 #머신러닝/연구 #성능 측정 #오픈소스
원문 출처: hackernews · Genesis Park에서 요약 및 분석

요약

AI 에이전트의 성능을 클라우드 API 의존 없이 로컬 환경에서 검증할 수 있는 오픈소스 도구 ‘Quickbench’가 공개되었습니다. 이 툴은 정확도, 지연 시간, 공정성 등의 지표를 측정하며, HMAC-SHA256을 통한 서명으로 결과의 무결성을 보장하고 개인정보 없이 안전하게 평가할 수 있습니다. 또한 고정된 시드를 사용해 테스트 재현성을 확보하여, 개발자가 에이전트 로직을 안정적으로 검증하고 최적화하는 데 도움을 줍니다.

본문

Stop guessing if your agent works. Run reproducible, sovereign evaluations locally. npm install quickbench npm run demo See signed report instantly with accuracy, latency, fairness metrics. | Metric | Description | Formula | |---|---|---| | Accuracy | Exact match rate | correct/total | | Latency | Response time | Mean + P95 (ms) | | Fairness | Demographic parity | StdDev(accuracy per demographic) | | Cost | Token cost | Placeholder (future LLM) | import { runEvaluation, createMockAgent } from 'quickbench'; import { loadDataset } from 'quickbench'; const agent = (input: string) => 'your agent logic'; const dataset = await loadDataset('./my-data.csv'); const result = await runEvaluation({ agent, dataset }); console.log(result.scores.accuracy); // 0.87 - Zero Cloud: No APIs, no telemetry - Local Signing: HMAC-SHA256 receipts - No PII: Metadata-only tracking - Deterministic: Fixed seeds, reproducible input,expected,metadata "This is great!",positive,{"region":"en","demographic":"A"} "Awful service.",negative === Quickbench Signed Report === scores: accuracy: 0.7 latency: mean: 2ms p95: 5ms fairness: demographicParity: 0.02 signature: abc123... npm i capkit quickbench # Secure agent with capkit, eval with quickbench Part of the Agent Builder Suite → capkit: Scoped capabilities for agents → quickbench: Reproducible agent evaluation → edge-run: Offline-first orchestration (coming soon) → connector-starter: Generate adapters fast (coming soon) Built for builders who ship. MIT licensed. Local-first by design. MIT - Ships sovereign, stays sovereign.

Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.

공유

관련 저널 읽기

전체 보기 →