Scale AI

Data AI · Data labeling

HQ: San Francisco, US
Founded: 2016
Size: 1,500+
Website: scale.com

Currently tracking 82 active AI roles, up 61% versus the prior 4 weeks. Primary focus: Agent · Engineering. Salary range $139k–$393k (avg $256k).

Hiring

82 / 85

Momentum (4w)

↑+14 +61%

37 opens last 4w · 23 prior 4w

Salary range · avg $256k

$139k–$393k

USD · disclosed roles only

Tracked since

Jun '23

last role 2d ago

Hiring velocityscroll left for older weeks

1 new role

Jun 5

1 new role

Aug 14

1 new role

Feb 12

2 new roles

Apr 29

1 new role

Sep 9

1 new role

Oct 7

1 new role

Nov 11

2 new roles

Jan 6

1 new role

2 new roles

Feb 10

2 new roles

Mar 3

1 new role

Apr 21

1 new role

May 12

1 new role

Jun 2

1 new role

Jul 21

1 new role

3 new roles

Aug 4

2 new roles

3 new roles

2 new roles

Sep 1

1 new role

2 new roles

Oct 6

5 new roles

9 new roles

1 new role

Nov 3

2 new roles

5 new roles

Dec 1

1 new role

2 new roles

1 new role

Jan 5

7 new roles

4 new roles

7 new roles

5 new roles

Feb 2

5 new roles

7 new roles

2 new roles

8 new roles

Mar 2

5 new roles

6 new roles

12 new roles

3 new roles

5 new roles

Apr 6

3 new roles

5 new roles

11 new roles

15 new roles

May 4

6 new roles

Jobs (2)

82 AI · 179 total active

Title	Stage	Function	Location	First seen	AI score
Evals Engineer, Applied AI Scale AI is looking for an AI Research Engineer to join their Enterprise Evaluations team, focusing on building and improving GenAI Evaluation Suites for enterprise LLM-powered workflows and agents. The role involves creating human-rated datasets, designing LLM-as-a-Judge autorater frameworks, and researching new methodologies for evaluating AI systems.	Eval GateAgent	Engineering	San Francisco, CA	Nov '25	9
Senior Machine Learning Engineer - Model Evaluations, Public Sector This role focuses on building and scaling automated evaluation pipelines for AI systems, including LLMs and agentic models, to ensure their reliability, safety, and effectiveness in mission-critical government environments. It involves designing test datasets, benchmarks, and frameworks for various metrics, including LLM-judge evaluations, agent testing, and stress tests.