転職・求人情報の詳細をご覧になる場合は会員登録(無料)が必要です
| 部署・役職名 | AI Evaluation Scientist |
|---|---|
| 職種 | |
| 業種 | |
| 勤務地 | |
| 仕事内容 |
【募集背景】 「AI AGENT / CHAT / SPEECH」をはじめとする エンタープライズ向けAIエージェント群を急速に拡大しています。 プロダクトの中核がLLM / マルチエージェントへ移行する中 AI出力の品質・安全性・信頼性を科学的に評価する専門組織を新設します。 【ミッション】 ”AI の出力品質を科学する — 評価手法の研究・開発で、エージェントの信頼性を証明する” LLM / AIエージェントの出力品質を、機械学習・統計学・計量心理学の手法で 定量的に評価・改善します。 本ポジションは「テストする人」ではなく 「何をもって良いAIとするかを定義し、測定する科学者」 です。 【期待する役割について】 AI Evaluation Scientist として、AI エージェントの品質評価基盤の 設計・構築・運用をリードしていただきます。 評価メトリクスの研究開発 — LLM-as-Judge の校正、報酬モデリング ベンチマーク設計を通じて「何をもって品質とするか」を 科学的に定義します 自動評価パイプラインの設計・構築 — 研究成果を本番 CI/CD に組み込み、スケーラブルな 品質ゲートを実現します レッドチーミング・安全性検証 — adversarial testing の自動化、ポリシー準拠検証 フレームワークを構築します 統計的実験計画に基づく品質改善 — A/B テスト・有意差検定でプロンプト戦略や モデル変更の効果を定量的に検証します 評価シグナルの研究・開発チームへのフィードバック — モデル改善の複利ループを構築します 約 200 社が本番利用するプロダクトの品質を 「科学する」アプローチで担保します 【このポジションの魅力】 ・Evaluation Science の実践 Apple・Anthropic・Scale AI・Google DeepMind 等が 注力する「AI 評価科学」を、日本のエンタープライズ AI の文脈で実践できます。 評価手法そのものを研究対象とする、世界的にも希少なポジションです ・ML/DS スキルの新しい応用 機械学習・統計学の専門性を「モデル開発」ではなく 「モデル評価」に応用します。報酬モデリング LLM-as-Judge の校正理論、ベンチマーク設計など 研究と実装の両面で知的挑戦があります ・品質がプロダクトの信頼を決める 約200社が利用する本番環境で、あなたが構築した 評価基盤がリリース品質の最後の砦になります。 品質保証がビジネスインパクトに直結する手応えを実感できます ・新設ポジション AI エージェントの品質評価科学という新しい専門領域を ゼロから設計・構築できます。 評価メトリクスの研究開発から自動評価パイプラインの 本番実装まで、大きな裁量を持って取り組めます ・AI安全性の最前線 自動レッドチーミング、adversarial testing ポリシー準拠検証など、Responsible AI の実践に携われます。 AI エージェントが「企業の脳」として業務を 自律実行する世界で、安全性を科学的に保証する役割を担います ・急成長環境 設立3年で200名以上の規模、9プロダクト展開のスタートアップで 技術的意思決定に大きな裁量を持てます。 Research Engineer や Agent Harness Engineer と密接に連携し プロダクト全体の品質に影響を与えるポジションです 【業務内容】 AI Evaluation Scientistとして、 AIエージェントの 評価基盤 (Evaluation Infrastructure) の設計・構築・運用を リードしていただきます。 ■評価メトリクスの研究開発 ・LLM-as-Judge の校正手法の研究・実装 (rubric 設計、バイアス検出、proper scoring rules) ・評価ベンチマークの設計・構築・妥当性検証 (construct validity、contamination detection) ・報酬モデリング / preference learning の評価への応用研究 ・評価メトリクスの選定・設計 (win rate、task success、factuality、harm detection) ・評価セット (合成データ + 実ログ) の設計・構築・メンテナンス ■自動評価パイプラインの設計・構築 ・スケーラブルな自動評価パイプラインの設計・実装 ・CI/CD への評価パイプライン組込みと品質ゲートの構築 ・エージェント評価ハーネスの設計 (マルチターン・ツール利用・ロングコンテキスト対応) ・評価パイプラインの再現性・信頼性の担保 ■安全性・品質検証 ・自動レッドチーミング (automated adversarial testing) の研究・実装 ・安全性 / ポリシー準拠の検証フレームワーク構築 ・ハルシネーション検出・校正手法の研究・実装 ・プロンプト / ツール回帰テストの設計・実行 ■統計分析・実験設計 ・統計的実験計画 (A/B テスト、有意差検定) の設計・分析 ・品質トレンドの可視化・回帰検出の自動化 ・品質レポート作成と改善提案 ・評価シグナルの研究・開発チームへのフィードバック |
| 労働条件 |
【就業時間】 10:00~19:00 ※土日祝は休業日となります ※出向の場合は、出向先の規程に準じます 【待遇・福利厚生】 ・書籍購入補助(半期 30,000円まで) ・リフレッシュ手当(毎月 5,000円まで) ・部活動手当(毎月5,000円まで) ・家賃手当(当社指定の駅を対象とし毎月30,000円まで) ・シャッフルランチ/ディナー (四半期に一度ランチ1,000円まで、ディナー5,000円まで) ・資格取得支援制度、英語学習支援制度(業務に必要な場合のみ) ・リフレッシュ休暇制度(3年間継続勤務した社員へ毎年付与される特別休暇 2日) ・定期健康診断(年1回) ・従業員持株会 【保険】 ・社会保険完備(健康保険:関東ITソフトウェア健康保険組合) 【諸手当】 ・交通費全額支給 |
| 応募資格 |
【必須(MUST)】 ・コンピュータサイエンス、ソフトウェア工学、人工知能、機械学習数学、物理、計量心理学などの関連分野における 修士号以上、または同等の実務経験 ・MLエンジニア / DS / リサーチエンジニア / ML評価関連職種の 実務経験 3年以上 ・LLM / 生成AIの評価手法に関する深い知識 ・統計学・実験計画法の実践的知識 ・Pythonでの ML / 評価パイプライン構築経験 ・機械学習フレームワーク(PyTorch, JAX, TensorFlow等)の実務経験 ・評価メトリクスの設計・実装経験 ・言語レベル : いずれか必須 ・日本語 : Fluent (プロダクト開発において齟齬なく議論を行えるレベル) ・英語 : ビジネスレベル 本ポジションはAI出力の評価科学(Evaluation Science)を担う研究開発職です。 MLモデル評価・LLM評価における研究または実装経験を必須としています。 【歓迎(WANT)】 ・ML / NLPトップカンファレンス(NeurIPS, ICML, ICLR, ACL, EMNLP等)での論文発表経験 ・報酬モデリング / preference learning(RLHF, DPO等)の研究・実装経験 ・LLM-as-Judge の校正・rubric設計の経験 ・AI安全性・Responsible AI・レッドチーミングに関する知識・経験 ・ベンチマーク設計・妥当性検証(IRT, construct validity)の経験 ・マルチエージェント・ワークフロー / ツール利用 ロングコンテキストの評価経験 ・大規模データ処理(Spark / BigQuery等)の経験 ・CI/CDパイプラインへのML/評価パイプライン組込み経験 ・論文読解・再現実装の能力 ・英語での技術コミュニケーション能力 |
| リモートワーク | 可 「可」と表示されている場合でも、「在宅に限る」「一定期間のみ」など、条件は求人によって異なります |
| 受動喫煙対策 | 屋内禁煙 |
| 更新日 | 2026/07/01 |
| 求人番号 | 8879164 |
採用企業情報

- 企業名は会員のみ表示されます
- 会社規模501-5000人
この求人の取り扱い担当者
-
- ?
- ヘッドハンターの氏名は会員のみ表示されます
会社名は会員のみ表示されます
-
- コンサルティング IT・インターネット マスコミ・メディア
-
転職・求人情報の詳細をご覧になる場合は会員登録(無料)が必要です
