Evals

Function

All Engineering · 1466 Research · 384 Product · 247

Status

Sort

2097 AI roles tagged evals.

Company	Title	Sector	AI score	Other tags
Anthropic	Research Scientist, Frontier Red Team (CBRN, Biosecurity)	AI Frontier	9	Guardrails · Fine-tuning · Agent research
Anthropic	Research Scientist, Frontier Red Team (Autonomy)	AI Frontier	9	Agent research · Agent orchestration · LLM observability
Anthropic	Research Engineer, Frontier Red Team (RSP Evaluations)	AI Frontier	9	LLM observability · Model serving
Anthropic	Research Engineer / Scientist, Safeguards	AI Frontier	9	RL post-training · Agent research · Guardrails · Interpretability · Agent orchestration · RL robotics
Cohere	Senior Member of Technical Staff, Multimodal AI	AI Frontier	9	Multimodal · Vision · Audio & speech · Fine-tuning · Model serving
Scale AI	Machine Learning Research Engineer, GenAI Applied ML	Data AI	9	Agent orchestration · Agent research · LLM observability
Anthropic	Research Engineer, Societal Impacts	AI Frontier	9	LLM observability
Scale AI	Senior / Staff Machine Learning Research Scientist, Agents	Data AI	9	Agent orchestration · Agent research · Fine-tuning
Cresta	Senior Machine Learning Engineer	Vertical AI	9	Agent orchestration · RAG · LLM observability · Tool use · Model serving
OpenAI	Researcher, Alignment	AI Frontier	9	RL post-training · Guardrails · Interpretability
Moveworks	Senior Machine Learning Engineer II, NLU & Agentic AI	Enterprise	9	Agent orchestration · Agent research · Fine-tuning · RLHF · Multimodal · Model serving · LLM observability
Moveworks	Senior Machine Learning Engineer II, NLU & Agentic AI	Enterprise	9	Agent orchestration · Agent research · Fine-tuning · RLHF · Multimodal · Model serving · LLM observability
Cresta	Machine Learning Engineer (AI Agents)	Vertical AI	9	Agent orchestration · LLM observability · Fine-tuning · Model serving
Anthropic	Research Engineer, Knowledge Team	AI Frontier	9	Agent orchestration · Fine-tuning · RL post-training · RAG · Search & ranking
Anthropic	Research Engineer, Agents	AI Frontier	9	Agent orchestration · Tool use · Fine-tuning · Agent research
Instacart	Machine Learning Engineer, PhD Intern	Consumer	9	LLM observability · RAG · Fine-tuning · Inference infra · Model serving · Recommender systems · Search & ranking · Agent research
Databricks	PhD GenAI Research Scientist Intern	Data AI	9	Frontier research · Fine-tuning · Synthetic data · RAG · Inference infra
Scale AI	Tech Lead/Manager, Machine Learning Research Scientist- LLM Evals	Data AI	9	LLM observability · Frontier research · Fine-tuning · Model serving
OpenAI	Researcher, Robustness & Safety Training	AI Frontier	9	RL post-training · Guardrails · Frontier research
Oracle	Senior Systems Software Engineer	Enterprise	8	Inference infra · Model serving · Fine-tuning · LLM observability
Google	Staff Software Engineer, AI/ML GenAI, Google Cloud	Big Tech	8	Multimodal · Vision · Model serving · Inference infra · Fine-tuning
Microsoft	Senior Software Engineer	Big Tech	8	Agent orchestration · Tool use · RAG · Guardrails
Google	Software Engineer III, AI/ML Cloud	Big Tech	8	Model serving · Inference infra · Guardrails · LLM observability
Google	Software Engineer, Acceleration Platform	Big Tech	8	Agent orchestration · RAG · Guardrails · LLM observability
Amazon	Applied Scientist II, Alexa International Team	Big Tech	8	Fine-tuning · RL post-training · LLM observability · Multimodal
Amazon	Applied Scientist II, Alexa International Team	Big Tech	8	LLM observability · Fine-tuning · RL post-training · Multimodal
Amazon	Applied Scientist II, RBS Tech	Big Tech	8	Agent orchestration · Multimodal · LLM observability · Fine-tuning
JPMorgan Chase	Executive Director - Data Scientist	Banking	8	Model serving · Inference infra · RAG · Guardrails · LLM observability · Recommender systems
Microsoft	Principal Product Manager	Big Tech	8	Agent orchestration · Multimodal · Guardrails · LLM observability · RAG · Vector DB
Apple	Senior Machine Learning Engineer, Agentic Workflows - Software Delivery	Big Tech	8	Agent orchestration · RAG · Vector DB · Code gen · Inference infra · Model serving