부키
어제
제미나이, 물리학 최고난도 테스트에서 9% 성적으로 1위 먹었네
첨부 미디어
A new frontier physics eval form Artificial Analysis
Of course Gemini 3 Pro is #1
인용된 트윗: We’re launching a new frontier physics eval on Artificial Analysis where no model achieves greater than 9%: CritPt (Complex Research using Integrated Thinking - Physics Test)
Developed by 60+ researchers from 30+ institutions across the world including the Argonne National Laboratory and University of Illinois Urbana-Champaign, some of whom have previously worked on leading benchmarks such as SciCode and SWE-Bench, this evaluation tests language models’ reasoning abilities on novel, frontier physics problems suitable for a post-graduate researcher.
We’ve worked with the CritPt developers to launch their new benchmark, and are especially excited about several key elements differentiating this from other reasoning tests:
➤ True frontier evaluation: This benchmark tests models on physics research suitable for graduate-level researchers, with questions and answers written and tested by experts (e.g., postdocs and physics professors) in their subfields
➤ Hard for even frontier models: On release, the highest-scoring model was Google’s new Gemini 3 Pro Preview, with an accuracy of 9.1% (without tool use allowed). Many models fail to solve a single problem even given 5 attempts
➤ Diverse question set: The evaluation test set includes 70 total end-to-end research problem ‘challenges’ covering 11 physics subdomains: condensed matter, quantum physics, AMO, astrophysics, high energy, mathematical physics, statistical physics, nuclear physics, nonlinear dynamics, fluid dynamics, and biophysics
➤ Reflective of research assistant capabilities: Each challenge is designed to be feasible for a capable junior PhD student as a standalone project, but unseen in publicly-available materials. This means most problems require deep understanding and reasoning in frontier physics beyond the capabilities of today’s language models, but all are feasible to solve and independently verified
Congratulations to @MiniHui_zhu, @MinyangTian1, @haopeng_uiuc, and the broader CritPt team on this exciting new evaluation!
See below for further discussion of this eval, analysis, and where to learn more
로그인하면 맞춤 뉴스 물어다 줄게🦉
-
관심사 기반 맞춤 뉴스 추천
-
왕초보를 위한 AI 입문 가이드북 제공
-
부키가 물어다 주는 뉴스레터 구독
-
회원 전용 인사이트 칼럼 열람
-
둥지 커뮤니티 게시판 이용
지금 핫한 소식🚀
- 1. 제미나이, 마참내 3 모델 커뮤니티 이벤트 연다네 디스코드서 라이브 데모도 보여줘
- 2. xAI, 사우디와 초대형 협력 체결...그록이 국가 단위로 쓰이는 건 이번이 첨이네
- 3. 미드저니, 이제 영상도 만드네? 단 몇 줄 입력해서 고품질 비디오 생성
- 4. 챗GPT, 사용자 입력에 이상한 반응 보이며 실제로 의식 있다는 주장 나와
- 5. 구글, 제미나이3 출시했네? AI 3파전 또 시작된 듯
- 6. 올라마, 한국어 말고 일본어로 RAG 시스템 만들었대
- 7. 오픈마인드, AI가 내 생각 읽는다? 바이오 리듬에 박힌 자동화 기술이래
- 8. 구글, 이젠 진짜 동료 수준으로 일해주는 AI 제미나이 3.0 내놨네
- 9. 제미나이, 세계 최고의 AI 모델 자리 차지했대! 사용자들이 직접 뽑은 1위란다
- 10. 메타, AI의 대부 얀 르쿤이 창업하러 떠난다네? 세계 모델 개발 위해 독립한대
부키가 물어다 주는 뉴스레터🦉
미리보기구독하면 이메일로 AI 소식과 팁들을 보내줄게!
아직 댓글이 없어. 1번째로 댓글 작성해 볼래?