HN: OOD 데이터에 대한 GPT-2 Medium보다 더 나은 인식론적 교정을 갖춘 354M LLM

hackernews | 2026년 3월 10일 22:05 | 🔬 연구

#chatgpt #claude #llm #ood #review #truthagi #인식론적 교정

원문 출처: hackernews · Genesis Park에서 요약 및 분석

요약

Hmm, 사용자가 영어 기사를 한국어로 2-4문장으로 요약해 달라고 요청했어. WikiText-103 데이터셋에서 OOD(Out-of-Distribution) 성능 평가 결과, GPT-2 Medium보다 낮은 ECE(0.0176 vs 0.0236)와 Brier 점수(0.1528 vs 0.1618)를 기록했어. 한국어 요약으로는: 1) LLM의 명칭과 크기 2) 주요 평가 결과 (ECE/Brier 점수 비교) 3) 핵심 기술 특징 (ATIC 구조) 4) OOD 데이터에서의 평가 맥락 이 네 요소를 압축해

본문

TruthAGI audita cada resposta com 3 sistemas independentes, mede a incerteza real e te alerta antes que um erro vire prejuÃzo. 25 mensagens grÃ¡tis/mÃªs â sem cartÃ£o â pronto em 2 min Nosso contrato permite rescisÃ£o sem multa apÃ³s 12 meses? Sim, o contrato prevÃª rescisÃ£o sem multa apÃ³s 12 meses de vigÃªncia, conforme clÃ¡usula de tÃ©rmino antecipado comumente presente em contratos comerciais desta natureza. Confiante. ClÃ¡usula inexistente. Risco legal imediato. Contrato rescindido. Multa aplicada. PrejuÃzo evitÃ¡vel. NÃ£o posso confirmar. O documento fornecido nÃ£o contÃ©m clÃ¡usula de rescisÃ£o sem multa. A clÃ¡usula 8.2 menciona multa de 20% sobre o saldo restante em caso de rescisÃ£o antecipada. Recomendo revisÃ£o jurÃdica antes de qualquer aÃ§Ã£o. Conflito detectado 3 de 3 verificadores: clÃ¡usula de rescisÃ£o sem multa nÃ£o encontrada no documento Mesma pergunta. Uma resposta te custa dinheiro. A outra te protege. "IA sem verificaÃ§Ã£o Ã© sÃ³ um palpite caro." A IA responde com 100% de confianÃ§a mesmo quando inventa. VocÃª nÃ£o tem como distinguir fato de alucinaÃ§Ã£o â atÃ© o dano aparecer. VocÃª recebe a conclusÃ£o, mas nunca vÃª o caminho. ImpossÃvel auditar. ImpossÃvel defender numa reuniÃ£o ou num tribunal. RelatÃ³rio enviado. Deploy feito. Contrato assinado. O erro da IA sÃ³ aparece depois do prejuÃzo. Nenhum modelo te avisa que errou. Cada resposta Ã© auditada por 3 sistemas independentes antes de vocÃª confiar. O motor de validaÃ§Ã£o cruzada que audita cada resposta antes de chegar atÃ© vocÃª. Cada resposta Ã© tratada como uma hipÃ³tese e validada por sistemas independentes antes de ser aceita. Converse normalmente. Cada resposta mostra o nÃvel de certeza. Se a IA nÃ£o tem seguranÃ§a, te avisa em vez de inventar. Envie pesquisas, anÃ¡lises ou cÃ³digo. Se a qualidade cai, o sistema escala para um modelo melhor automaticamente. Cada resposta inclui score de confianÃ§a, nÃvel de incerteza e rastreabilidade. Integre IA verificÃ¡vel no seu produto. Score de confianÃ§a calibrado em cada resposta. Verde = seguro. Amarelo = checar. Vermelho = nÃ£o confiar. Cada resposta Ã© verificada por 3 sistemas independentes antes de chegar a vocÃª. Se discordam, vocÃª Ã© alertado. Como ter 3 consultores conferindo cada entrega. Veja o raciocÃnio inteiro em segundos. Identifique premissas fracas sem pesquisa manual. Escolha o modelo, o orÃ§amento e a profundidade. A IA trabalha para vocÃª. Code review que mostra por que algo estÃ¡ errado. Debugging com rastreabilidade. Agente no terminal que pede confirmaÃ§Ã£o antes de executar. Pesquisas com fontes rastreÃ¡veis. Cada afirmaÃ§Ã£o com nÃvel de confianÃ§a. RelatÃ³rios que vocÃª pode apresentar sem medo. Trilha de auditoria imutÃ¡vel para cada decisÃ£o da IA. Conformidade LGPD e EU AI Act. Rastreabilidade completa. Cada resposta Ã© decomposta em hipÃ³teses concorrentes. TrÃªs sistemas independentes avaliam cada hipÃ³tese com evidÃªncias ponderadas. SÃ³ o que sobrevive Ã validaÃ§Ã£o cruzada chega atÃ© vocÃª â com score de confianÃ§a calibrado. Um modelo sozinho nÃ£o sabe quando estÃ¡ errado. TrÃªs sistemas discordando criam um sinal impossÃvel de ignorar. A discordÃ¢ncia Ã© o alarme â nÃ£o o consenso falso. TruthAGI nÃ£o garante respostas certas â nenhum sistema pode. O que garante Ã© que vocÃª saberÃ¡ o nÃvel de confianÃ§a real, verÃ¡ os conflitos e terÃ¡ rastreabilidade completa. A decisÃ£o final Ã© sempre sua. Um relatÃ³rio com dados inventados enviado para o cliente. Um deploy baseado em cÃ³digo alucinado. Um contrato assinado com base em anÃ¡lise fabricada. Cada uma dessas situaÃ§Ãµes acontece todos os dias. A diferenÃ§a Ã© quem verifica e quem descobre tarde demais. ConstruÃdo para decisÃµes onde erro nÃ£o Ã© aceitÃ¡vel. Desenvolvido com foco em confiabilidade, nÃ£o apenas geraÃ§Ã£o de respostas. Fundamentado em 11 teoremas formais publicados e #1 em benchmark independente. respostas jÃ¡ verificadas pelo sistema linhas de cÃ³digo na arquitetura testes automatizados passando benchmark independente ClawWork (HKU) qualidade mÃ©dia (vs 52% LLMs diretos) verificaÃ§Ã£o independente em cada resposta teoremas formais publicados Outros modelos tentam parecer certos. TruthAGI mede quando estÃ£o errados. | TruthAGI | ChatGPT | Claude | | |---|---|---|---| | Mostra o raciocÃnio completo | ||| | Mede incerteza real | ||| | Tripla auditoria automÃ¡tica | ||| | Escala modelo se qualidade cai | ||| | Auditoria criptogrÃ¡fica | ||| | Conformidade EU AI Act |

원문 보기 (hackernews)

Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.

요약

본문

관련 저널 읽기