Seguir
Rusheb Shah
Rusheb Shah
Apollo Research
E-mail confirmado em apolloresearch.ai - Página inicial
Título
Citado por
Citado por
Ano
Scalable and Transferable Black-Box Jailbreaks for Language Models via Persona Modulation
R Shah, S Pour, A Tagade, S Casper, J Rando
arXiv preprint arXiv:2311.03348, 2023
272023
Linearly Structured World Representations in Maze-Solving Transformers
M Ivanitskiy, AF Spies, T Räuker, G Corlouer, C Mathwin, L Quirke, ...
UniReps: the First Workshop on Unifying Representations in Neural Models, 2023
1*2023
A Configurable Library for Generating and Manipulating Maze Datasets
MI Ivanitskiy, R Shah, AF Spies, T Räuker, D Valentine, C Rager, L Quirke, ...
arXiv preprint arXiv:2309.10498, 2023
12023
O sistema não pode executar a operação agora. Tente novamente mais tarde.
Artigos 1–3