AI Engineer for LLM Ops & Evaluation (m/f/d)
You'll join an early-stage, AI-native startup with a product that has already proven market fit. We build cutting-edge AI solutions for Governance, Risk and Compliance (GRC) for enterprises around the world.
Our customers are auditors, risk managers, and compliance teams, which means evaluation rigor, auditability, and EU AI Act readiness aren't afterthoughts for us. They're product requirements.
Tasks
As our AI Engineer for LLMOps & Evaluation, you'll own the LLMOps pipeline end-to-end and work directly alongside our founding team.
You will:
- Own the LLMOps pipeline: Evaluate infrastructure, prompt optimization loop, and the production integration that turns experiments into reliable customer-facing features
- Design evaluation strategy per output type: Decide when to use deterministic evals (exact match, schema validation, embeddings) vs. LLM-as-judge, and build the rubrics, test datasets, and human-review loops that make the system trustworthy
- Drive prompt engineering and optimization across all LLM operations in the product: Moving from hand-tuned prompts to a measurable, iterative process
- Pick the right tool for each problem: Some things are LLM problems, some are embedding + classical NLP problems, some are deterministic logic
- Run the production side of AI features: Observability (Langfuse /LangSmith / similar), cost and latency engineering, incident response when an LLM feature degrades
- Build human-in-the-loop workflows: Review queues, feedback ingestion, labeling; so production signal feeds back into evals and prompt iteration
- Mentor our AI & Analytics Intern and contribute to how we build the AI team over time
Requirements
- 3+ years of hands-on experience building and shipping ML/AI systems in production (we care more about what you've shipped than years on a CV)
- Have shipped an LLM evaluation or prompt optimization pipeline, not just used LLMs in a project, but owned the loop
- Strong hands-on experience with LLM-as-judge, including its variance problems and concrete techniques for controlling them
- Solid foundation in classical NLP and ML ops: Embeddings, semantic similarity, entity matching, classification, fuzzy matching
- Informed opinions on deterministic vs. LLM-based evals, from experience
- Production judgment: You've owned cost and latency tradeoffs, observability, and incident response for an LLM-powered feature. You're familiar with prompt regression and have strategies for managing it
- Strong Python
- Excellent English communication, written and verbal: We discuss nuanced technical tradeoffs daily with the founding team and customers
- Comfort with ambiguity: You can run experiments on real data, build intuition for this domain, and know when to stop iterating
Nice to have
- Hands-on experience with LLM observability and eval tooling (Langfuse, LangSmith, Phoenix/Arize, Helicone, Braintrust, W&B)
- Experience with DSPy or similar prompt optimization frameworks, and opinions on where they do and don't work
- Experience with Azure OpenAI in EU regions, or with EU-sovereign providers (Mistral, Aleph Alpha)
- Exposure to guardrails, content safety, or AI governance
- Exposure to enterprise software, ideally GRC, compliance, audit, or regulated industries
- Familiarity with Java/Spring Boot or Kubernetes on Azure; enough to integrate cleanly
- German
Benefits
- Hands-on ownership of a real AI product used by enterprise customers
- Work directly alongside the founding team from day one
- Hybrid work model: Munich North, minimum one day per week in the office, otherwise flexible (open to strong candidates elsewhere in the EU for the right fit); onboarding will take in-office
- A steep learning curve at the intersection of LLM engineering, enterprise GRC, and startup operations
- The chance to shape the AI team as we grow
Auxilius .ai is building AI-powered GRC solutions for enterprises. We're early-stage, fast-growing, and backed by real customers. Our tech stack includes Java & Spring Boot, Angular, Kubernetes on Azure, and OpenAI & Anthropic LLMs.
Empfohlene Jobs
(Junior) Consultant Public Sector (w/m/d)
Digitale Zukunft gestalten : Mit Deiner Unterstützung werden öffentliche Institutionen bei der digitalen Transformation begleitet. Innovative Lösungen für Ministerien, Krankenhäuser und Sozialversic…
Director Market Access (m/w/d)
Als Director Market Access verantwortest du die strategische und operative Steuerung von Market Access Aktivitäten für Deutschland. Der Fokus liegt auf unseren innovativen Onkologieprodukten und …
MAG-Schweißer (m/w/d) mit Erfahrung
MAG-Schweißer (m/w/d) mit Erfahrung Wir bringen zusammen, was zusammen gehört. Wir suchen im Auftrag unseres Kunden ab sofort oder zu einem späteren Zeitpunkt zur Direktvermittlung mehrere MAG-Sc…
Werkstudent/in (m/w/d) im Bereich Logistik
Für den Bereich Logistik eines schweizer Herstellers für Uhren aus dem Top-Luxus Segment suchen wir für die Niederlassung in München eine/n Werkstudenten/in (m/w/d) für folgende Aufgaben: Warenanna…
Werkstudent (m/w/d) Sustainability & ESG Data
Das ist Afinum Du bist eingeschriebener Student (m/w/d) und möchtest den Private-Equity-Alltag nicht nur aus der Theorie kennenlernen, sondern aktiv mitarbeiten? Du interessierst dich für datenget…
Pflegefachkraft (m/w/d) Praxisanleitung
Unser Kunde sucht langfristig Verstärkung und möchte Sie als Stamm-Mitarbeiter (m/w/d) für sein Team gewinnen. Sie werden direkt bei unserem Kunden unbefristet fest angestellt (KEINE Zeitarbeit). Es…
Alleinbuchhalter (m/w/d) für die Personalvermittlung München
Wir suchen Sie als Alleinbuchhalter (m/w/d) für einen Kunden im Großraum München. Eine Übernahmeoption besteht. ~ Wir bieten Ihnen auch gut ausgestattete Wohnmöglichkeiten Aufgaben …
Baugeräteführer:in / Baggerfahrer:in
Zum nächstmöglichen Zeitpunkt suchen wir dich als Baugeräteführer:in / Baggerfahrer:in (w/m/d) für die DB Bahnbau Gruppe GmbH am Standort München. Deine Aufgaben: Du bist für die sichere und vo…
Senior Projektingenieur:in EEA 50 Hz
Zum nächstmöglichen Zeitpunkt suchen wir dich als Zeitarbeitnehmer:in im Auftrag der DB InfraGO AG für einen übertariflich bezahlten Einsatz als Senior Projektingenieur:in EEA 50 Hz (w/m/d) für den P…