ETL-D – AI 에이전트(MCP 서버)에 대한 결정적 데이터 구문 분석

hackernews | | 📦 오픈소스
#ai 모델 #ai 미들웨어 #ai 에이전트 #claude #etl-d #llama #mcp 서버 #데이터 파싱
원문 출처: hackernews · Genesis Park에서 요약 및 분석

요약

ETL-D는 거대 언어 모델(LLM)이 복잡한 B2B 데이터를 직접 처리할 때 발생하는 토큰 과다 사용, 환각, 그리고 비결정론적 오류를 해결하기 위해 고안된 결정적 데이터 미들웨어입니다. 이 도구는 파이썬 파서, 의미론적 라우팅, LLM 폴백의 3단계 워터폴 아키텍처를 사용하여 스페인 은행 명세서(N43), EDI 문서 등을 정교한 JSON으로 변환합니다. 사용자는 Claude 데스크톱의 설정 파일에 MCP 서버 정보를 추가하고 API 키를 발급받아 계정 정보 추출 및 송장 처리 등의 강력한 파이프라인을 에이전트에 연결할 수 있습니다. 이를 통해 AI 에이전트는 데이터 정제 작업을 ETL-D 서버에 위임하고 신뢰할 수 있는 구조화된 정보를 즉시 활용할 수 있게 됩니다.

본문

ETL-D is a deterministic data middleware designed to act as a shield for AI Agents. It stops LLMs from "hallucinating" over structured data by providing a strict, 3-layer parsing architecture via the Model Context Protocol (MCP). Standard LLMs are terrible at reading raw B2B files (CSV, PDF, EDI, Norma 43). They suffer from: - Token Exhaustion: Sending a 5,000-row CSV to context is a waste of money. - Precision Loss: LLMs struggle with spatial alignment. A misplaced comma in a bank statement is a financial catastrophe. - Non-Determinism: You can't build a reliable pipeline if the output format depends on the LLM's "mood." The ETL-D engine processes every request through a strict hierarchy: - Layer 1 (Heuristic): 100% Python-native deterministic parsers. 0% Hallucination risk. ~70ms latency. - Layer 2 (Semantic): Column-to-Schema alignment using embedding-based routing. - Layer 3 (LLM Shield): Strict JSON enforcement using Llama 3.3 70B with additionalProperties: false constraints for high-entropy noise. - Open your claude_desktop_config.json . - Add the ETL-D server (Ensure you use version 3.3.3 ): { "mcpServers": { "etld": { "command": "npx", "args": [ "-y", "@pablixnieto2/[email protected]" ], "env": { "ETLD_API_KEY": "YOUR_API_KEY_HERE" } } } } - Option A: Manual Purchase (Human) Get a Starter Pack ($5 / 5,000 credits) or a Subscription at api.etl-d.net. - Option B: Zero-Touch Provisioning (Agent-Led) 🤖 If you don't have a key, simply ask Claude: "I don't have an ETL-D key, can you help me get one?". The agent will call the /provision tool, generate a Stripe Checkout link for you, and automatically set up the key once paid. Zero-touch, human-in-the-loop. - Financial & B2B Heavy Lifting parse_bank_statement: Support for Spanish Norma 43 (N43). Turns raw bank files into clean JSON. parse_trade_history: Deterministic extraction of trades, fees, and dividends from complex broker exports. parse_edi: ANSI X12 EDI parser (Optimized for 850 Purchase Orders). generate_sepa_xml: JSON to PAIN.008 (Direct Debit) XML generator. - Document Intelligence pdf_to_spatial_markdown: Crucial for Agents. Converts PDFs to Markdown preserving table structures before the LLM reads them. extract_invoice / extract_resume: High-accuracy schema extraction for standard B2B documents. - Atomic Enrichment (1 Credit/call) enrich_amount: Cleans "Total: 1.240,50€" into {amount: 1240.50, currency: "EUR"}. enrich_date: Resolves human-readable dates ("next Friday at 5pm") with Timezone awareness. enrich_address: Standardizes global messy addresses into structured components. accounting_map: Maps concepts to ES PGC, US GAAP, or IFRS. Cloud Engine: Hosted at api.etl-d.net (Python/FastAPI). Python SDK: pip install etld. n8n Nodes: Available in the n8n community as n8n-nodes-etld. MIT - Created by Pablixnieto2

Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.

공유

관련 저널 읽기

전체 보기 →