A benchmark of expert-level academic questions to assess AI capabilities

Hendrycks, Dan; Mazeika, Mantas; Zhang, Oliver; Hausenloy, Jason; Ren, Richard; Kim, Ryan; Khoja, Adam; Li, Nathaniel; Gatti, Alice; Phan, Long; Wang, Alexandr; Yue, Summer; Telluri, Anwith; Wu, Aidan; Wang, Kaixin; Nagumalli, Laasya; Nguyen, Leon; Zhang, Alex; Saha, Abhijeet; Shah, Nihar; Sun, David; Samal, Soham; Kasamsetty, Ritesh; Yalam, Srikar; Nasim, Zafir; Le, Andrew; Sundarapandiyan, Vijaykaarti; Kulkarni, Vidhi; Patel, Spandan; Wu, Timothy; Echeazu, Daryl; Wang, Taozhi; Osbey, Tyler; Peng, Clark; Singh, Aryan; Sun, Xiangwan; Yoon, Julia; Zhao, Ben; Yue, Roy; Yang, Ryan; Lee, Sam; Maung, Erik; Xiao, Tyler; Wang, Gavin; Xu, Ziqi; Kalpathi, Tejas; Chen, Kevin; Zhou, Alan; Agrawal, Rishit; Leung, James; Ai, Violet; Bharath, Vishruth; Sunkari, Surya; Yang, Hubert; Lass, Joshua; Do, Liam; Fu, Evan; Ma, Brad; Cheng, Vincent; Zhang, David; Avadhanam, Advaith; Liu, Michael; Baranov, Allen; Halevy, Kasper; Paek, Jay; Jindel, Kavin; Zhang, Ashley; Luo, Jason; Deng, Marvin; Luo, Ethan; Suhail, Asim; Cheraku, Anish; McKellips, Gordon; Nattanmai, Aakaash; Chopra, Arnav; Agrawal, Anish; Choi, Michael; Shi, Sean; Ling, John; Shaaban, Mohamed; Zhang, Chen; Zhang, Hugh; Hu, Josephina; Han, Ziwen; Scaramuzza, Davide; Karwowski, Jacek; Wu, Ben; Cao, Phuong; Scotese, Christopher; Bartlett, Christopher; Turchin, Peter; Zhang, Songyang; Gulati, Samaksh; Liu, Ziqi; Suresh, Siddharth; Pan, Rui; Xu, Rongwu; Shiyu, Hu; Liang, Yizhuo; Zhang, Genghan; Maximiano, Guilherme; Tran, Hieu; Park, Core; Batra, Hunar; Venugopalan, Subhashini; Reddy, Sai; Chernyavsky, Julia; Chigurupati, Sreekar; Jain, Eeshaan; Yeo, Woongyeong; Chen, Peter; Yu, Zishun; Rosset, Sybille; Heilala, Ville; Morris, Johnathan; Bailey, James; Pflugfelder, Roman; Qin, Hongsen; Dewerpe, Ivan; Sun, Zhiyi; Demircali, Arif; Yu, EUNMI; Toukmaji, Christopher; Liu, Yueying; Manini, Davide; Kostakos, Vassilis; Xu, Sihan; Meding, Kristof; Hao, Wei; Sperzel, Marc; Thi Hoang, Ha; Mahfoud, Mohammed; Chung, Jae-Won; Aji, Alham; Vieira, Bruno; Zhang, Tianchi; Wu, Jiaxuan; Men, Qiutong; Jha, Ketan; Patil, Vaidehi; Zhang, Ziyi; Zhu, Zhanda; Cheng, Zhuo; Moulin, Antoine; Lai, Sherwin; Mak, Joshua; Ma, Martin; Shi, Tianneng; Park, Isaac; Ponkshe, Kaustubh; Ge, Jiaxin; Chen, Sanxing; Song, Zijian; Singla, Veerupaksh; Christof, Brandon; Yücel, Atak; Tire, Kutay; Chen, Bingsen; Kansal, Yuval; Wist, Julien; Geirhos, Caroline; Dhuliawala, Shehzaad; Patlan, Atharv; Bohdal, Ondrej; Bar, Kaushik; Hu, Wei; Gonçalves, Duarte; Bashmal, Laila; Wang, Jianxin; Dong, Wenchao; Racz, Ben; Banik, Deepayan; Chen, Jiale; Chernyavsky, Igor; Rannev, Ivan; Villanueva, Jorge; Sewuster, Gerben; Zheng, Guangyao; Matsumoto, Kazuki; Dworakowska, Barbara; Kang, Timothy; Fosin, Ivan; Gupta, Isha; Tang, Maosen; Malusare, Aditya; Wang, Zhe; Peterson, Mike; Lin, Xi; Jain, Rishab; Yuan, Jun; Khan, Shadab; Jiang, Xilin; Zsolnai-Fehér, Károly; Mishra, Ritwik; Fang, Jichao; Siedler, Philipp; Lin, Han; Elkhanany, Ahmed; Pai, Kunal; Chen, Hongzheng; Wei, Boyi; Park, Namkyu; Gitter, Anthony; Knights, Theo; Lopez-Miguel, Ignacio; Ermon, Stefano; Ye, Zhe; Lee, Kwok; Weng, Erica; Smucker, Leo; Xiao, Yunze; Gendron, Gaël; Wang, Zhun; Zhang, Cedegao; Song, Dawn; Shen, Zewen; Ma, Jeff; Luczyna, Grzegorz; Ha, Junwoo; Marjanović, Sara; Chen, Yushun; Kim, Sejong; Tu, Haoqin; Ren, Yinuo; Zhang, Weizhi; Chen, Haoxuan; Xi, Haocheng; Subramanian, Shreyas; Deng, Jiaqi; Tang, Mengze; Chen, Junda; Plomecka, Martyna; Wu, Shuyu; Bouyamourn, Adam; Guan, Junyi; Qu, Xingyu; Liu, Jiachen; Chamorro-Padial, Jorge; Mukherjee, Kushin; Arrais, Alexandre; Wang, Xiaohan; Bizeul, Alice; Wei, Anjiang; Chang, Yaowen; Li, Rui; Wang, Shiqi; Yin, Yifan; Sun, Chenkai; Mollaei, Sina; Wang, Dingsu; Kean, Jonathon; Geirhos, Robert; Yap, Luther; Maggetti, Martino; Plassart, Anna; Rabern, Brian; Kreuer, Jules; Han, Xinyao; Todoran, Stefan; Jiang, Muyan; Jin, Chuanyang; Zhao, Xuandong; Yilmaz, Abdurrahim; Pondaven, Alexander; Nguyen, My; Zohar, Orr; Dhingra, Shikhar; Juefei-Xu, Felix; Shabani, Amin; Li, Runjia; Hernandez-Orallo, Jose; Perlitz, Yotam; Zhang, Mike; Nguyen, Truong; Stolfo, Alessandro; Briański, Marcin; Sarti, Gabriele; Park, Hyun; Yu, Shoubin; Slen, Alex; Li, Changhao; Cozianu, Costin; Sonmez, Yasin; Cai, Mu; Zhang, Zechen; Yifei, Li; Agrawal, Ankit; Zhang, Xinlu; Liang, Yihao; Yin, Ming; Sanker, Vivek; Li, Sean; Kon, Patrick; Beger, Claas; Zhang, Yuhui; Lù, Xing; De Maddalena, Romano; Jaeger, Joshua; Huber, Lukas; Li, Fanfei; Xiong, Yifan; Wecker, Adam; Pang, Tony; Quod Soler Bartomeu, David; Nguyen, Hieu; Briia, Glib; Overholt, Kalon; Shridhar, Kumar; Wang, Yingheng; Pinto, Francesco; Pu, Bonan; Rismanchian, Sina; Krishna, Satyapriya; Dernoncourt, Franck; Yao, Jianzhu; Sun, Ruiji; Kim, Hyunjun; Zhang, Qizheng; Kamphuis, Thom; Shepherd, Maxwell; Datta, Suchandra; Rodrigo-Ginés, Francisco-Javier; Hauser, Jakob; Reddish, Jenny; Hoyer, Dan; Zsambok, Jakob; Chalstrey, Ed; Francois, Pieter; Kondor, Dániel; del Rio-Chanona, Maria; Wong, Antonio; Caetano, Diogo; Nayak, Anupam; Wang, Yuanli; Abbondanza, Dario; Park, Jongee; Dhole, Kaustubh; Li, Hanchen; Ponti, Edoardo; Winata, Genta; Nguyen, Thai-Hoa; Parcalabescu, Letitia; Purohit, Soham; Qi, Tianbo; Pantidis, Ioannis; Perełkiewicz, Michał; Noyé, Mickaël; Le, Long; Luo, Gaoxiang; Sinha, Aarush; Chandok, Nitin; He, Mike; Wu, Juncheng; Zhou, Yuyin; Jia, Zhibai; Demircali, Ali; Wang, Xue; Nhu, Anh; Dai, Yinwei; Anugraha, David; Sanz-Ros, Jorge; Zhang, Mingfang; Bogdanik, Sergey; Zouhar, Vilém; Poulos, Jason; Yang, Xianjun; Vaquero, Lorenzo; Hebbar, S.; ElSheikh, Ali; Medved, Tilen; Meiburg, Alex; Petruzella, Gerol; Wang, Dianzhuo; Schottdorf, Manuel; Kaddour, Jean; Ebert, Stephen; Sala, Samuele; Zubić, Nikola; Sun, Ting; Sun, Hao-Yu; Patwardhan, Tejal; McGowan, Joseph; Richmond, Michael; Ragavendran, P.V.; EL-Wasif, Zienab; Peskoff, Denis; Creighton, Scott; Jin, Jun; Shah, Imad; Krenek, Keith; Siddh, Sheeshram; Tiryakioglu, Murat; Aaron, Ashley; Jain, Yashaswini; Bezzi, Dario; Duclosel, Darling; Menshawy, Ahmed; Sayed, Mohamed; Bateman, Greg; Uro, Justine; Singer, Eric; Lai, John; Bian, Song; Ali, Sam; Sidhu, Jasdeep; Sparrow, Claire; Bahaloohoreh, Mohsen; Harjadi, Chris; Rossbach, Vivien; Maksapetyan, Aleksandr; Muzhen, Jiang; Salauddin, Sk; Enyekwe, Innocent; Radhakrishnan, Anil; Ler, Dylan; Usawasutsakorn, Siranut; Vincze, Mátyás; Sherman, Glen; Fruhauff, Tony; Gupta, Himanshu; Saxena, Prajvi; Siddiqi, Muhammad; Thaman, Kunvar; Arnaboldi, Luca; Möller, Sören; Mündler, Niels; Bogdanov, Sergei; Cartwright, Ashley; Shukla, Priti; Dendane, Abdelkader; Maheshwari, Rajat; Scaria, Kevin; Outevsky, David; Patil, Deepakkumar; Jiang, Yibo; Agarwal, Arunim; Vargus, Freddie; Chhablani, Gunjan; Hoover, Alex; Alapont, Xavier; Gonzalez, Daniel; Gul, Shreen; Meer, Khalida; Sharma, Asankhaya; Campbell, Russell; Łucki, Jakub; Montecillo, Roselynn; Gimenez, Javier; Cai, Will; Hoback, Sarah; Habibi, Farzad; Morak, Wiktor; Loume, Gautier; Mensah, Stephen; Tarver, Tim; Hartman, Taylor; Remy, Nicolas; Malishev, Dmitry; de Oliveira Junior, Benedito; Du, Zhehang; Zhang, Gang; Berkani, Mohammed; Agarwal, Kanu; of Arc Xavier, Joan; Jiang, Tong; Singh, Ankit; Ze-An, Ng; Galal, Abdallah; Apronti, Archimedes; Pinto, Antonella; Jansen, Thorben; Jeanplong, Ferenc; Heydari, Nasser; Bugas, Daniel; Goswami, Laxman; Kumar, Pawan; Xu, Justin; Mavroudis, Vasilios; Gonzalez, Juan; Islam, Murat; Mendoza, Sandra; Jiang, Xi; Abramovitch, Marcus; Tony Lian, Long; Poesia Reis e Silva, Gabriel; Fan, Yiyang; Clavier, Pierre; Vaz, Warren; Weber, Brian; Albanie, Samuel; Brown, Assaf; Lewark, Lukas; Duc, Emilien; Shahrtash, Hossein; Huy, Tran; Lauer, Pascal; Carauleanu, Marc; Shah, Tej; Gloor, Luk; Semler, Avi; Chen, Evan; McInnis, I.M.J.; Jallon, Antoine; Lindsey, Jack; Chu, Eric; Borbás, Benjámin; Qin, Juehang; Vergo, Eric; Somrak, Maja; Piza, Matheus; Ducey, Josh; Clark, Ronald; Fasiludeen, Arshad; Iyer, Krishnamurthy; Lorena, Ricardo; Minissi, Ali; Rodrguez, Raúl; Askew, Luke; Perry, Samuel; Stepanic, Stanley; Taheri, Omid; Pottmaier, Daphiny; Malysheva, Yana; Ramirez-Trinidad, Angel; Fan, Jing; Pronin, Alexey; Moyano, Alejandro; McAlister, Isaac; Arthornthurasuk, Siriphan; Dai, Liangti; Safdari, Mohammad; Johnson, Bryan; Ferreira, Danyelle; Cole, Joshua; Alarab, Ismail; Finocchio, Ross; Wu, Wentao; Pouriamanesh, Rasoul; Mariji, Hodjat; Kelley, Elizabeth; De Oliveira Pena, Rodrigo; Anderson, Earth; Maayan, Gabe; Gonzalez, Juan; Farina, Nicholas; Resman, Nate; Liakhovitskaia, Anna; Karim, Loukmane; Shamseldeen, Samir; Santos, Tania; Karakoc, Ali; Zekry, Mohamed; Adoul, Zahra; Labrador, Yan; Shinde, D.P.; Bodur, Omer; Kirtland, Aaron; Plecnik, Rebeka; Sims, Blake; Tan, Justin; Ragoler, Alon; Scipio, Eshawn; Avagian, David; Zhang, Xinyu; Kassani, Peyman; Demian, Christoph; Mao, Mao; Brenner, Michael; Hausknecht, Kaylie; Wang, Erik; Martinson, Sarah; Fan, Jingxuan; Segev, Ben; Qi, Hao; Raynor, Brad; Williamson, Dominic; Robins, Jules; Rodolà, Emanuele; Hernández-Cámara, Pablo; de Witt, Christian; Caciolai, Andrea; Gopi, Sivakanth; Li, Wen-Ding; Kratish, Yosi; Wang, Ting; Grover, Rynaa; Vajipey, Vivek; Amaro, Brian; Brito-Santana, Leonor; Gundlach, Hans; Newbould, Joshua; Verkama, Emil; Häggström, Olle; Cavalleri, Stefano; Quinn Liu, Huanxu; Yakimchyk, Alesia; Brooks, Matthew; Ni, Colin; Rank, Ben; Lux, Thomas; Tanwie, Ngefor; Shulga, Nikita; Popescu, Mara; Recchia, Gabriel; Bacho, Kaniuar; Shumar, Oleg; Boscá, M.C.; Bigi, Filippo; Michael Pokorny, Rai; Obikoya, Gbenga; Yaln, Yiğit; Degorre, Julien; Zhou, Yuchen; Souza, Victor; Hollom, Lawrence; Portier, Julien; Adesanya, Fatimah; Kazakov, Dmitry; Laurendeau, Julien; Lang, Leon; Albani, Guglielmo; Weller, Orion; Malod, Guillaume; Li, Xiuyu; Cho, Nathan; de la Rosa, Florencia; Yong, Zheng-Xin; Bacho, Renas; Sponselee, Koen; Vetoshkin, Lavr; Mourrat, Jean-Christophe; Shahid, Syed; Stritecky, Vit; Spelda, Petr; Delaney, Ethan; Vinnikov, Vladimir; Votava, Jacob; White, Colin; Colino, Jesus; Cosma, Adrian; Petersen, Philipp; Giordano, Paolo; Jackson, Abram; Robinson, Joshua; Loh, Kang; Pham, Diana; Franca, Antonio; Zhang, Lixin; Burdzy, Krzysztof; Yan, Minghao; Wang, Yuzhou; Shah, Jainam; Ferret, Johan; Kim, Evan; Dai, Linjie; Kirchhof, Michael; Aggarwal, Daattavya; Steinerberger, Stefan; Tawfeek, Andrew; Carroll, Micah; Park, Haon; Zhuang, Chao; Ceconello, Chiara; Kumar, Harsh; Gurdogan, Hubeyb; Costa, Mariana; Kim, Wanyoung; Shapourian, Hassan; Singh, Mukhwinder; Friday, Cary; Dick, Anna-Katharina; Reidegeld, Frank; Aly, Rami; Mehkary, Mustafa; Malina, Stephen; Peristyy, Anton; Handoko, Handoko; Weber, Simon; Pereira, Roberto; Hulbert, Dave; Amit, Alon; Maghsoudimehrabani, Mohammad; Battaglia, Mike; Okutsu, Kenchi; Hallman, Eric; Mirabadi, Ali; Dhamane, Omkar; Sakal, Taom; Pyda, Daniel; Perez, Rayner; Friedrich, Alena; Kassahun, Haile; Peñaflor, Madellene; Mohammadzadeh, Forough; Medley, George; Farhidi, Faraz; Patel, Oam; Hammon, Angela; Ekström, Fredrik; Samuele, Fortuna; Phillips, Shaun; Hossain, Zaki; Tang, Colin; Wehr, Dustin; Lauff, Robert; Rodriguez, Miguel; Winter, Nick; Zhidkovskaya, Alina; Uzhou, Mikalai; Kretov, Egor; Stap, David; Golshani, Bita; Shen, Alexander; Dasouqi, Ali; Stander, Dashiell; Haffenden, Hector; Manik, Timothy; Chidambaram, Muthu; Zou, Andy; Jackson, Joseph; Oliveira, Edson; Di Fratta, Claudio; Olszewska, Katarzyna; Lengler, Johannes; Yacar, Laila; Yuan, Michelle; Leser, Julian; Mohamed, Mohanad; Zebaze, Armel; Xian, Ruicheng; Held, William; Ma, Wenjie; Ho, Andrew; Taamazyan, Vage; Duersch, Joshua; Soroko, Ignat; Leventov, Roman; Dobarskyi, Kostiantyn; Zhang, David; Piperski, Alexander; Mofayezi, Mohammadreza; Zhelnov, Pavel; Agnihotri, Shashank; Jones, Adam; Gusev, Ilya; Pandey, Rohan; Gross, Jason; Ciobâcă, Stefan; Harris, Carter; Firsching, Moritz; Merrill, William; Thaman, Kushal; Chen, Michael; Eicher, Jonathan; Fan, Honglu; Pradeep, Ronak; Jagota, Milind; Muennighoff, Niklas; Fossum, Carl; Drori, Jacob; Rodman, Emma; Pan, Jiayi; Kolt, Noam; Le, Vinh-Kha; Looi, Shi-Zhuo; De Luca, G.; Tomasiello, Alessandro; Zhang, Robin; Tee, Allison; Barkan, Shaul; Santens, Tim; Abdoli, Sherwin; Kamalov, Firuz; Zhou, Xiaoxiang; Shah, Shailesh; Andrew Favre, D.O.; Eron, Murat; Sakor, Ahmad; Milliron, Hsiaoyun; Kvistad, Lynna; Wolff, Hew; Balabanian, George; Tordera, Daniel; Douville, Guillaume; Elgnainy, Hossam; Durand, Stephane; Sun, Yewen; Ansarinejad, Behzad; Wang, Zihao; Bari, M.; Milbauer, Jeremiah; Nunes, Maria; Wang, Jiaqi; Lo, Eve; Bálint, Biró; Chen, Ziye; Kazemi, Fereshteh; Bosio, Ida; Korbak, Tomek; Preu, Thomas; Achilleos, Andrea; Wang, Zixuan; Martin, Freddie; Loader, Jacob; Xu, Hanmeng; Xin, Linwei; Reuel, Anka; Lamparth, Max; Patel, Arkil; Sun, Kunyang; Alley, William; Roberts, Jonathan; Menezes, Aline; Narayan, Himanshu; Brown, Zachary; Szlyk, Hannah; Rosu, Paul; Khánh, Tran; Singh, Virendra; Chen, Qijia; Mostaghimi, Hamid; Piccardo, Marco; Gustafsson, Nils; Khoury, Seri; Ivanov, Alexander; Basler, Luke; Nevirkovets, Volodymyr; Platnick, Jacob; Singhal, Raghav; Andréoletti, Jérémy; Ma, Ziqiao; Meril, Eli; Joshi, Prashant; Verma, Shreyas; Halasyamani, Shiv; Crozier, Jonathan; Riblet, Robin; Faraboschi, Paolo; Sztyber-Betley, Anna; Nie, Yuzhou; Wang, Michael; Shenoy, Adithya; Matos, Jason; Ovchynnikov, Maksym; Kirchner, Jan; Paradise, Orr; Cohen, Michael; Tang, Ning; Zhao, Sandy; Magoulas, Ilias; Lee, Sangwon; Xu, Jiangnan; Coleman, Shannon; Lai, Jesyin; Aldous, David; Redenti, Andrew; Krause, Michael; Patramanis, Demosthenes; Goryachev, Vladimir; Cunningham, David; Hoang, Hieu; Tam, Joanna; Makarychev, Yury; Sandlin, Jennifer; Akov, Ido; Sridhar, Kaustubh; Heimonen, J.P.; Bradshaw, Peter; Stehberger, Martin; Wheeler, Richard; Bartolo, Max; Zhu, Kelin; Brown, Ethan; Carmi, Avishy; Zheng, Eric; Schoelkopf, Hailey; Terpin, Antonio; Thornley, Elliott; Ramakrishnan, Kalyan; Wang, Harrison; Chen, Yanxu; Ängquist, Ivar; Kaddar, Younesse; Zhang, Ling; He, Hao; Inlow, Mark; Aziz, Muhammad; Sen, Archan; Ambay, John; Givré, Alan; Shukla, Abhishek; Grabb, Declan; Goertzen, Tom; Rogers, T.; Stade, Jack; Tucker-Foltz, Jamie; Stendall, Ryan; Montgomery, Kyle; Barzowski, Stanislaw; Padlewski, Piotr; Wang, Chenguang; Goldfarb, Alan; Tkadlec, Josef; Poświata, Rafał; Cohen, Niv; Stump, Christian; Ginis, Vincent; Rozhoň, Václav; Radionov, Maksim; Heidinger, Haline; Daans, Nicolas; Nguyen, Jeremy; Li, Jeffery; Rawal, Kaivalya; Zweiger, Adam; Anantheswaran, Ujjwala; Klose, Immo; Vilchis, Victor; Kreiman, Tobias; Elser, Veit; Fish, Sara; Dias, Felipe; Kim, Dae; Clarke, Don; Kazibwe, Zakayo; Schneider, Keith; Moat, Richard; Zhang, Anji; Sommerhage, Frank; Rodriguez-Romero, Alexandra; Holmes, David; Kuchkin, Aleksey; Hava, Dan; Sivarajan, Shankar; Ho, Linh; Munro, Daniel; Foster, Michael; Whitfill, Parker; Berger, Zachary; Ben-David, Shalev; Poritski, Vladislav; Orel, Daniil; Kharlamova, Arina; Sucholutsky, Ilia; Zang, Allen; Kaparov, Nurdin; Perrella, David; Ivanov, Sergey; Dehghan, Ali; Zhang, Wenjin; Crisostomi, Donato; Shen, Jiawei; Li, Daofeng; Cavanagh, Joseph; Arsene, Pierrot; Zhao, Bingchen; Chern, Steffi; Antonenko, Daniil; Sun, Gongbo; Koppel, James; Lackner, Martin; Zu, Yuexuan; Vilchis, Tobias; Jin, Alvin; Kamdoum, Ariel; Hu, Yuzheng; Ardito, Cesare; Sahu, Anmol; Oller, Mart; Wykowski, Julian; Maar, John; Yang, Tong; Stanley, Richard; Lim, Derek; Yuan, Qiaochu; Zheltonozhskii, Evgenii; Schut, Lisa; Li, Bikun; Myklebust, Benjamin; Kopylov, Alexei; Noever, David; Verbeken, Brecht; Van Der Sypt, Lynn; Van den Houte, Kelsey; Algaba, Andres; Bran, Andres; Senthilkumar, Shaipranesh; Schwaller, Philippe; Ivanov, Stefan; Sayous, Rafael; Jin, Jaehyeok; Salazar, Julian; Coppola, Brian; Bosio, Carlo; Hogg, Tad; Mishra, Subrata; Stambaugh, Nate; Manolescu, Ciprian; Lukas, Marco; Kalinin, Mikhail; Loiseau, Gabriel; Zvonkine, Dimitri; Rao, Arun; Crispino, Nick; Yang, Jinzhou; Prabhu, Ameya; Imperial, Joseph; Dieuleveut, Aymeric; Twayana, Moon; Brüssel, Lina; Green, Sean; Rissone, Paolo; Tang, Henry; Press, Ori; Soori, Saeed; Zhou, Kevin; Pageler, Ben; Martinez, Dakotah; Demir, Gözdenur; Guillod, Julien; Gritsevskiy, Andrew; Mikov, Aleksandar; Liang, Kaiqu; Lynch, Jayson; Efremov, Denis; Marion, Pierre; Maksimov, Andrey; Kuchkin, Vladyslav; Fraga, Natanael; Vendrow, Joshua; Li, Yuqi; Tang, Longke; Zenitani, Kengo; Cojoc, Doru; Vendrow, Edward; Veith, Johannes; de Oliveira Santos, Emily; Motwani, Sumeet; Cao, Hangrui; Willcocks, Chris; Bacho, Aras; Shi, Jack; Arkhipov, Pavel; Wydallis, John; Nam, Jungbae; Li, Lianghui; Qazi, Usman; Ren, Qiuyu; Sileo, Damien; Taylor, Edwin; Garretson, Alexis; McCarty, Ben; Cai, Jiaqi; Gehrunger, Tim; Park, Hyunwoo; Nandor, Mark; Hoerr, Ryan; Zampese, Jennifer; Cheng, Zerui; Finke, Lennart; Crowson, Sarah-Jane; Fournier-Facio, Francesco; Cheatom, Antrell; Giboney, Zachary; Agu, Chidozie; Naiya, Mohinder; Goshu, Gashaw; Burns, Noah; Utpala, Saiteja; Riis, Søren; Roth, Marc; Giska, Fabian; Sanchez, Alvaro; Sauers, Scott; Lee, Yongki; Yeadon, Will; Schmitt, Johannes; Galgon, Geoff; Gerbicz, Robert; Popov, Serguei; Wang, Zihan; Zou, Chelsea; Gangal, Varun; Yu, Michael; Zhao, Haoran; Feng, Steven; Feng, Fiona; Kazakov, Mstyslav; Levin, John-Clark; Wang, Jessica; Iskra, Oleg; Pokutnyi, Oleksandr; Mahmood, Mobeen; Stokes, Alun; Doroshenko, Mikhail; Anderson, Daron; Lee, Jaeho; Nguyen, Tung; Dodonov, Dmitry

doi:10.1038/s41586-025-09962-4

A benchmark of expert-level academic questions to assess AI capabilities

Hendrycks D., Mazeika M., Zhang O., Hausenloy J., Ren R., Kim R., ...Daha Fazla

Nature, cilt.649, sa.8099, ss.1139-1146, 2026 (SCI-Expanded, Scopus)

Yayın Türü: Makale / Tam Makale
Cilt numarası: 649 Sayı: 8099
Basım Tarihi: 2026
Doi Numarası: 10.1038/s41586-025-09962-4
Dergi Adı: Nature
Derginin Tarandığı İndeksler: Science Citation Index Expanded (SCI-EXPANDED), Scopus, BIOSIS, Chemical Abstracts Core, EMBASE, Geobase, INSPEC, MEDLINE, MLA - Modern Language Association Database, Psycinfo, zbMATH, Nature Index
Sayfa Sayıları: ss.1139-1146
Ankara Üniversitesi Adresli: Evet

Özet

Benchmarks are important tools for tracking the rapid advancements in large language model (LLM) capabilities. However, benchmarks are not keeping pace in difficulty: LLMs now achieve more than 90% accuracy on popular benchmarks such as Measuring Massive Multitask Language Understanding1, limiting informed measurement of state-of-the-art LLM capabilities. Here, in response, we introduce Humanity’s Last Exam (HLE), a multi-modal benchmark at the frontier of human knowledge, designed to be an expert-level closed-ended academic benchmark with broad subject coverage. HLE consists of 2,500 questions across dozens of subjects, including mathematics, humanities and the natural sciences. HLE is developed globally by subject-matter experts and consists of multiple-choice and short-answer questions suitable for automated grading. Each question has a known solution that is unambiguous and easily verifiable but cannot be quickly answered by internet retrieval. State-of-the-art LLMs demonstrate low accuracy and calibration on HLE, highlighting a marked gap between current LLM capabilities and the expert human frontier on closed-ended academic questions. To inform research and policymaking upon a clear understanding of model capabilities, we publicly release HLE at https://lastexam.ai.