1. 転職サイト ビズリーチ
  2.  > 
  3. 求人検索
  4.  > AI Evaluation Scientist

転職・求人情報の詳細をご覧になる場合は会員登録(無料)が必要です

新規会員登録(無料)

AI Evaluation Scientist

年収: 800万 ~ 1600万 ?

ヘッドハンター案件

部署・役職名 AI Evaluation Scientist
職種
業種
勤務地
仕事内容 【募集背景】
「AI AGENT / CHAT / SPEECH」をはじめとする
エンタープライズ向けAIエージェント群を急速に拡大しています。
プロダクトの中核がLLM / マルチエージェントへ移行する中
AI出力の品質・安全性・信頼性を科学的に評価する専門組織を新設します。

【ミッション】
”AI の出力品質を科学する
— 評価手法の研究・開発で、エージェントの信頼性を証明する”
LLM / AIエージェントの出力品質を、機械学習・統計学・計量心理学の手法で
定量的に評価・改善します。
本ポジションは「テストする人」ではなく
「何をもって良いAIとするかを定義し、測定する科学者」 です。

【期待する役割について】
AI Evaluation Scientist として、AI エージェントの品質評価基盤の
設計・構築・運用をリードしていただきます。

評価メトリクスの研究開発 — LLM-as-Judge の校正、報酬モデリング
ベンチマーク設計を通じて「何をもって品質とするか」を
科学的に定義します
自動評価パイプラインの設計・構築
— 研究成果を本番 CI/CD に組み込み、スケーラブルな
品質ゲートを実現します
レッドチーミング・安全性検証
— adversarial testing の自動化、ポリシー準拠検証
フレームワークを構築します
統計的実験計画に基づく品質改善
— A/B テスト・有意差検定でプロンプト戦略や
モデル変更の効果を定量的に検証します
評価シグナルの研究・開発チームへのフィードバック
— モデル改善の複利ループを構築します
約 200 社が本番利用するプロダクトの品質を
「科学する」アプローチで担保します

【このポジションの魅力】
・Evaluation Science の実践
 Apple・Anthropic・Scale AI・Google DeepMind 等が
 注力する「AI 評価科学」を、日本のエンタープライズ AI
 の文脈で実践できます。
 評価手法そのものを研究対象とする、世界的にも希少なポジションです
・ML/DS スキルの新しい応用
 機械学習・統計学の専門性を「モデル開発」ではなく
 「モデル評価」に応用します。報酬モデリング
 LLM-as-Judge の校正理論、ベンチマーク設計など
 研究と実装の両面で知的挑戦があります
・品質がプロダクトの信頼を決める
 約200社が利用する本番環境で、あなたが構築した
 評価基盤がリリース品質の最後の砦になります。
 品質保証がビジネスインパクトに直結する手応えを実感できます
・新設ポジション
 AI エージェントの品質評価科学という新しい専門領域を
 ゼロから設計・構築できます。
 評価メトリクスの研究開発から自動評価パイプラインの
 本番実装まで、大きな裁量を持って取り組めます
・AI安全性の最前線
 自動レッドチーミング、adversarial testing
 ポリシー準拠検証など、Responsible AI の実践に携われます。
 AI エージェントが「企業の脳」として業務を
 自律実行する世界で、安全性を科学的に保証する役割を担います
・急成長環境
 設立3年で200名以上の規模、9プロダクト展開のスタートアップで
 技術的意思決定に大きな裁量を持てます。
 Research Engineer や Agent Harness Engineer と密接に連携し
 プロダクト全体の品質に影響を与えるポジションです

【業務内容】
AI Evaluation Scientistとして、 AIエージェントの
評価基盤 (Evaluation Infrastructure) の設計・構築・運用を
リードしていただきます。

■評価メトリクスの研究開発
・LLM-as-Judge の校正手法の研究・実装
  (rubric 設計、バイアス検出、proper scoring rules)
・評価ベンチマークの設計・構築・妥当性検証
  (construct validity、contamination detection)
・報酬モデリング / preference learning の評価への応用研究
・評価メトリクスの選定・設計
  (win rate、task success、factuality、harm detection)
・評価セット (合成データ + 実ログ) の設計・構築・メンテナンス
■自動評価パイプラインの設計・構築
・スケーラブルな自動評価パイプラインの設計・実装
・CI/CD への評価パイプライン組込みと品質ゲートの構築
・エージェント評価ハーネスの設計
  (マルチターン・ツール利用・ロングコンテキスト対応)
・評価パイプラインの再現性・信頼性の担保
■安全性・品質検証
・自動レッドチーミング (automated adversarial testing) の研究・実装
・安全性 / ポリシー準拠の検証フレームワーク構築
・ハルシネーション検出・校正手法の研究・実装
・プロンプト / ツール回帰テストの設計・実行
■統計分析・実験設計
・統計的実験計画 (A/B テスト、有意差検定) の設計・分析
・品質トレンドの可視化・回帰検出の自動化
・品質レポート作成と改善提案
・評価シグナルの研究・開発チームへのフィードバック
労働条件 【就業時間】
10:00~19:00
※土日祝は休業日となります
※出向の場合は、出向先の規程に準じます

【待遇・福利厚生】
・書籍購入補助(半期 30,000円まで)
・リフレッシュ手当(毎月 5,000円まで)
・部活動手当(毎月5,000円まで)
・家賃手当(当社指定の駅を対象とし毎月30,000円まで)
・シャッフルランチ/ディナー
(四半期に一度ランチ1,000円まで、ディナー5,000円まで)
・資格取得支援制度、英語学習支援制度(業務に必要な場合のみ)
・リフレッシュ休暇制度(3年間継続勤務した社員へ毎年付与される特別休暇 2日)
・定期健康診断(年1回)
・従業員持株会

【保険】
・社会保険完備(健康保険:関東ITソフトウェア健康保険組合)

【諸手当】
・交通費全額支給
応募資格

【必須(MUST)】

・コンピュータサイエンス、ソフトウェア工学、人工知能、機械学習
 数学、物理、計量心理学などの関連分野における
 修士号以上、または同等の実務経験
・MLエンジニア / DS / リサーチエンジニア / ML評価関連職種の
 実務経験 3年以上
・LLM / 生成AIの評価手法に関する深い知識
・統計学・実験計画法の実践的知識
・Pythonでの ML / 評価パイプライン構築経験
・機械学習フレームワーク(PyTorch, JAX, TensorFlow等)の実務経験
・評価メトリクスの設計・実装経験
・言語レベル : いずれか必須
・日本語 : Fluent (プロダクト開発において齟齬なく議論を行えるレベル)
・英語 : ビジネスレベル

本ポジションはAI出力の評価科学(Evaluation Science)を担う研究開発職です。
MLモデル評価・LLM評価における研究または実装経験を必須としています。

【歓迎(WANT)】

・ML / NLPトップカンファレンス(NeurIPS, ICML, ICLR, ACL, EMNLP等)
 での論文発表経験
・報酬モデリング / preference learning(RLHF, DPO等)の研究・実装経験
・LLM-as-Judge の校正・rubric設計の経験
・AI安全性・Responsible AI・レッドチーミングに関する知識・経験
・ベンチマーク設計・妥当性検証(IRT, construct validity)の経験
・マルチエージェント・ワークフロー / ツール利用
 ロングコンテキストの評価経験
・大規模データ処理(Spark / BigQuery等)の経験
・CI/CDパイプラインへのML/評価パイプライン組込み経験
・論文読解・再現実装の能力
・英語での技術コミュニケーション能力

リモートワーク

「可」と表示されている場合でも、「在宅に限る」「一定期間のみ」など、条件は求人によって異なります
受動喫煙対策

屋内禁煙

更新日 2026/07/01
求人番号 8879164

採用企業情報

この求人の取り扱い担当者

転職・求人情報の詳細をご覧になる場合は会員登録(無料)が必要です

新規会員登録(無料)

<< 検索結果に戻る