転職サイトビズリーチ
>
求人検索
> AI Evaluation Scientist

転職・求人情報の詳細をご覧になる場合は会員登録（無料）が必要です

新規会員登録（無料）

AI Evaluation Scientist

年収： 800万～ 1600万

ヘッドハンター案件

部署・役職名	AI Evaluation Scientist
職種	データサイエンティスト
業種	インターネットサービスデジタルマーケティング
勤務地	東京都
仕事内容	【募集背景】「AI AGENT / CHAT / SPEECH」をはじめとするエンタープライズ向けAIエージェント群を急速に拡大しています。プロダクトの中核がLLM / マルチエージェントへ移行する中 AI出力の品質・安全性・信頼性を科学的に評価する専門組織を新設します。【ミッション】 ”AI の出力品質を科学する — 評価手法の研究・開発で、エージェントの信頼性を証明する” LLM / AIエージェントの出力品質を、機械学習・統計学・計量心理学の手法で定量的に評価・改善します。本ポジションは「テストする人」ではなく「何をもって良いAIとするかを定義し、測定する科学者」です。【期待する役割について】 AI Evaluation Scientist として、AI エージェントの品質評価基盤の設計・構築・運用をリードしていただきます。評価メトリクスの研究開発 — LLM－as－Judge の校正、報酬モデリングベンチマーク設計を通じて「何をもって品質とするか」を科学的に定義します自動評価パイプラインの設計・構築 — 研究成果を本番 CI/CD に組み込み、スケーラブルな品質ゲートを実現しますレッドチーミング・安全性検証 — adversarial testing の自動化、ポリシー準拠検証フレームワークを構築します統計的実験計画に基づく品質改善 — A/B テスト・有意差検定でプロンプト戦略やモデル変更の効果を定量的に検証します評価シグナルの研究・開発チームへのフィードバック — モデル改善の複利ループを構築します約 200 社が本番利用するプロダクトの品質を「科学する」アプローチで担保します【このポジションの魅力】・Evaluation Science の実践　Apple・Anthropic・Scale AI・Google DeepMind 等が　注力する「AI 評価科学」を、日本のエンタープライズ AI 　の文脈で実践できます。　評価手法そのものを研究対象とする、世界的にも希少なポジションです・ML/DS スキルの新しい応用　機械学習・統計学の専門性を「モデル開発」ではなく　「モデル評価」に応用します。報酬モデリング　LLM－as－Judge の校正理論、ベンチマーク設計など　研究と実装の両面で知的挑戦があります・品質がプロダクトの信頼を決める　約200社が利用する本番環境で、あなたが構築した　評価基盤がリリース品質の最後の砦になります。　品質保証がビジネスインパクトに直結する手応えを実感できます・新設ポジション　AI エージェントの品質評価科学という新しい専門領域を　ゼロから設計・構築できます。　評価メトリクスの研究開発から自動評価パイプラインの　本番実装まで、大きな裁量を持って取り組めます・AI安全性の最前線　自動レッドチーミング、adversarial testing 　ポリシー準拠検証など、Responsible AI の実践に携われます。　AI エージェントが「企業の脳」として業務を　自律実行する世界で、安全性を科学的に保証する役割を担います・急成長環境　設立3年で200名以上の規模、9プロダクト展開のスタートアップで　技術的意思決定に大きな裁量を持てます。　Research Engineer や Agent Harness Engineer と密接に連携し　プロダクト全体の品質に影響を与えるポジションです【業務内容】 AI Evaluation Scientistとして、 AIエージェントの評価基盤（Evaluation Infrastructure）の設計・構築・運用をリードしていただきます。 ■評価メトリクスの研究開発・LLM－as－Judge の校正手法の研究・実装　（rubric 設計、バイアス検出、proper scoring rules）・評価ベンチマークの設計・構築・妥当性検証　（construct validity、contamination detection）・報酬モデリング / preference learning の評価への応用研究・評価メトリクスの選定・設計　（win rate、task success、factuality、harm detection）・評価セット（合成データ＋実ログ）の設計・構築・メンテナンス ■自動評価パイプラインの設計・構築・スケーラブルな自動評価パイプラインの設計・実装・CI/CD への評価パイプライン組込みと品質ゲートの構築・エージェント評価ハーネスの設計　（マルチターン・ツール利用・ロングコンテキスト対応）・評価パイプラインの再現性・信頼性の担保 ■安全性・品質検証・自動レッドチーミング（automated adversarial testing）の研究・実装・安全性 / ポリシー準拠の検証フレームワーク構築・ハルシネーション検出・校正手法の研究・実装・プロンプト / ツール回帰テストの設計・実行 ■統計分析・実験設計・統計的実験計画（A/B テスト、有意差検定）の設計・分析・品質トレンドの可視化・回帰検出の自動化・品質レポート作成と改善提案・評価シグナルの研究・開発チームへのフィードバック
労働条件	【就業時間】 10:00～19:00 ※土日祝は休業日となります ※出向の場合は、出向先の規程に準じます【待遇・福利厚生】・書籍購入補助（半期 30,000円まで）・リフレッシュ手当（毎月 5,000円まで）・部活動手当（毎月5,000円まで）・家賃手当（当社指定の駅を対象とし毎月30,000円まで）・シャッフルランチ/ディナー（四半期に一度ランチ1,000円まで、ディナー5,000円まで）・資格取得支援制度、英語学習支援制度（業務に必要な場合のみ）・リフレッシュ休暇制度（3年間継続勤務した社員へ毎年付与される特別休暇 2日）・定期健康診断（年1回）・従業員持株会【保険】・社会保険完備（健康保険：関東ITソフトウェア健康保険組合）【諸手当】・交通費全額支給
応募資格	【必須（MUST）】・コンピュータサイエンス、ソフトウェア工学、人工知能、機械学習　数学、物理、計量心理学などの関連分野における　修士号以上、または同等の実務経験・MLエンジニア / DS / リサーチエンジニア / ML評価関連職種の　実務経験 3年以上・LLM / 生成AIの評価手法に関する深い知識・統計学・実験計画法の実践的知識・Pythonでの ML / 評価パイプライン構築経験・機械学習フレームワーク（PyTorch, JAX, TensorFlow等）の実務経験・評価メトリクスの設計・実装経験・言語レベル : いずれか必須・日本語 : Fluent （プロダクト開発において齟齬なく議論を行えるレベル）・英語 : ビジネスレベル本ポジションはAI出力の評価科学（Evaluation Science）を担う研究開発職です。 MLモデル評価・LLM評価における研究または実装経験を必須としています。【歓迎（WANT）】・ML / NLPトップカンファレンス（NeurIPS, ICML, ICLR, ACL, EMNLP等）　での論文発表経験・報酬モデリング / preference learning（RLHF, DPO等）の研究・実装経験・LLM－as－Judge の校正・rubric設計の経験・AI安全性・Responsible AI・レッドチーミングに関する知識・経験・ベンチマーク設計・妥当性検証（IRT, construct validity）の経験・マルチエージェント・ワークフロー / ツール利用　ロングコンテキストの評価経験・大規模データ処理（Spark / BigQuery等）の経験・CI/CDパイプラインへのML/評価パイプライン組込み経験・論文読解・再現実装の能力・英語での技術コミュニケーション能力
リモートワーク	可「可」と表示されている場合でも、「在宅に限る」「一定期間のみ」など、条件は求人によって異なります
受動喫煙対策	屋内禁煙
更新日	2026/07/01
求人番号	8879164

採用企業情報

この求人の取り扱い担当者

掲載求人一覧

転職・求人情報の詳細をご覧になる場合は会員登録（無料）が必要です

新規会員登録（無料）

<< 検索結果に戻る