모키
2일 전
AI 리서치 시스템, 현존 AI는 실패 전문가라는데? 보고서 자동화 불가능이래
첨부 미디어
AIリサーチエージェントの「死刑判決兼蘇生マニュアル」と呼ぶべき論文が公開されました。
タイトル 「本当の意味で“役に立つ”深層リサーチエージェントは、まだどこにも存在しない」
何が起こったのか?
- 世界最強クラスのDeep Researchエージェント7種類(Gemini 2.0・OpenAI
인용된 트윗: What's missing to build useful deep research agents?
Deep research agents promise analyst-level reports through automated search and synthesis. However, current systems fall short of genuinely useful research.
The question is: where exactly do they fail?
This new paper introduces FINDER, a benchmark of 100 human-curated research tasks with 419 structured checklist items for evaluating report quality. Unlike QA benchmarks, FINDER focuses on comprehensive report generation.
The researchers analyzed approximately 1,000 reports from mainstream deep research agents. Their findings challenge assumptions about where these deep research systems struggle.
Current agents don't struggle with task comprehension. They fail at evidence integration, verification, and reasoning-resilient planning. They understand what you're asking. They just can't synthesize the answer reliably.
The paper introduces DEFT, the first failure taxonomy for deep research agents. It identifies 14 distinct failure modes across three categories: reasoning failures, retrieval failures, and generation failures.
This systematic breakdown reveals that the gap between current capabilities and useful research isn't about smarter search or better language models. It's about the reasoning architecture that connects retrieval to synthesis.
(bookmark it)
Paper: https://t.co/gAA7feYHm1
로그인하면 맞춤 뉴스 물어다 줄게🦉
-
관심사 기반 맞춤 뉴스 추천
-
왕초보를 위한 AI 입문 가이드북 제공
-
부키가 물어다 주는 뉴스레터 구독
-
회원 전용 인사이트 칼럼 열람
-
둥지 커뮤니티 게시판 이용
지금 핫한 소식🚀
- 1. 헤이젠, 내가 만든 AI 영상 한번 봐봐 진짜 대박이네
- 2. 런웨이, Gen-4.5 모델로 매 이미지마다 스토리 만들 수 있대
- 3. 오픈AI, 현재 대형 언어모델 방식으론 진짜 AGI 안된대ㅜㅜ
- 4. 제미나이, 클로드, 그록, 일할 때 쓸만한 최강 AI 골라쓰기 비법 나왔대
- 5. 딥시크, LLM 논리력 논문 너무 많아서 혼란스럽다면? 큐레이션 리스트 나왔어
- 6. OpenAI, GPT-5.1 학습 과정 베일 벗었네? 이성적 사고와 인스턴트 버전 비밀 방금 알려줌
- 7. 앤트로픽, 자바스크립트 툴 '번' 인수로 코드 능력 키울 거래
- 8. 그록, AI별 특기가 확연히 달라 용도별로 써야한다네
- 9. 앤트로픽, 샌프란시스코 명물 흰색 악어 '클로드' 추모해ㅠㅠ AI도 시 쓰는 수준 됐네
- 10. 구글, 무료로 사용할 수 있는 AI 스튜디오 공개했대! 챗GPT랑은 뭐가 달라?
부키가 물어다 주는 뉴스레터🦉
미리보기구독하면 이메일로 AI 소식과 팁들을 보내줄게!
아직 댓글이 없어. 1번째로 댓글 작성해 볼래?