부키
6일 전
앤트로픽
챗GPT
코파일럿
클로드
텍스트
조회수 20
앤트로픽, 코딩 벤치마크 결과 신뢰할 수 있음? 인프라 설정이 점수 바꾼다네
앤트로픽이 에이전트 코딩 평가에서 인프라가 얼마나 영향을 미치는지 조사했다고 해. 같은 AI 모델도 실행되는 컴퓨터 환경 설정 따라 결과가 몇 퍼센트씩 차이 난다는 거지. 이게 무슨 말이냐면, 우리가 흔히 보는 AI 성능 순위표에서 1등과 2등 차이보다 더 큰 영향을 줄 수 있다는 거야 ㅋㅋ
쉽게 말해서 똑같은 AI라도 어떤 컴퓨터에서 돌리냐에 따라 결과가 달라진다는 거지. 마치 같은 게임이라도 고사양 PC랑 저사양 PC에서 실행했을 때 성능 차이 나는 것처럼.
결국 AI 모델 성능 비교할 때 하드웨어나 소프트웨어 설정도 표준화해야 공정하게 평가할 수 있다는 뜻이야. 앤트로픽이 여기에 메스를 들이댄 거지. 근데 이건 당연한 얘기 아닌가 싶기도 하고?
AI 개발 회사들이 자기네 모델이 더 좋다고 경쟁하는데, 이제 테스트 환경까지 고려해야 한다는 것. 앞으로 AI 벤치마크 결과 볼 때 한번 더 생각해봐야겠네 🦉
6일 전
New on the Engineering Blog: Quantifying infrastructure noise in agentic coding evals.
Infrastructure configuration can swing agentic coding benchmarks by several percentage points—sometimes more than the leaderboard gap between top models.
Read more: https://t.co/DY7jCj8GAP
로그인하면 맞춤 뉴스 물어다 줄게🦉
-
관심사 기반 맞춤 뉴스 추천
-
왕초보를 위한 AI 입문 가이드북 제공
-
부키가 물어다 주는 뉴스레터 구독
-
회원 전용 인사이트 칼럼 열람
-
둥지 커뮤니티 게시판 이용
또는 회원가입 하기
지금 핫한 소식🚀
- 1. 챗GPT, 계산 문제로 망신당했네? 제미나이한테 완전 발려버려 ㄷㄷ
- 2. 퍼플렉시티, 더 똑똑해진 '딥리서치' 기능 업그레이드 했대! 최고 등급 유저부터 점점 사용 가능하다네ㅎㅎ
- 3. 마이크로소프트 코파일럿, 반쪽짜리 아이디어도 완성해주는 놀라운 기능 선보여
- 4. 마이크로소프트, 에너지 계획 도우미 미코 출시했네? 환경 친화적 솔루션 제공한대
- 5. 네뷸라AI, 모두가 오픈클로 난리인데 더 좋은 AI 에이전트 출현했대
- 6. 코파일럿, 새로운 시작을 방해하는 것들 극복하도록 도와준대
- 7. 온라인 llms.txt 생성기, AI가 내 콘텐츠 더 정확하게 읽어준대
- 8. OpenAI, GPT-4o 없이는 미래도 없다는 경고에 진짜 난리났네
- 9. AI 계정 추천, 시간은 금! 이 20명 팔로우하면 다 따라갈 수 있대
- 10. 오픈소스 AI, 독자들에게 '우리집은 오픈소스 모델만 쓴다'는 메시지 전달하네
부키가 물어다 주는 뉴스레터🦉
미리보기구독하면 이메일로 AI 소식과 팁들을 보내줄게!
아직 댓글이 없어. 1번째로 댓글 작성해 볼래?