転職・求人情報の詳細をご覧になる場合は会員登録(無料)が必要です
| 部署・役職名 | AI Quality Scientist / Japanese |
|---|---|
| 職種 | |
| 業種 | |
| 勤務地 | |
| 仕事内容 |
### 業務内容 - *評価メトリクスの研究開発* * LLM-as-Judge の校正手法の研究・実装 (rubric 設計、バイアス検出、proper scoring rules) * 評価ベンチマークの設計・構築・妥当性検証 (construct validity、contamination detection) * 報酬モデリング / preference learning の評価への応用研究 * 評価メトリクスの選定・設計 (win rate、task success、factuality、harm detection) * 評価セット (合成データ + 実ログ) の設計・構築・メンテナンス - *自動評価パイプラインの設計・構築* * スケーラブルな自動評価パイプラインの設計・実装 * CI/CD への評価パイプライン組込みと品質ゲートの構築 * エージェント評価ハーネスの設計 (マルチターン・ツール利用・ロングコンテキスト対応) * 評価パイプラインの再現性・信頼性の担保 - *安全性・品質検証* * 自動レッドチーミング (automated adversarial testing) の研究・実装 * 安全性 / ポリシー準拠の検証フレームワーク構築 * ハルシネーション検出・校正手法の研究・実装 * プロンプト / ツール回帰テストの設計・実行 - *統計分析・実験設計* * 統計的実験計画 (A/B テスト、有意差検定) の設計・分析 * 品質トレンドの可視化・回帰検出の自動化 * 品質レポート作成と改善提案 * 評価シグナルの研究・開発チームへのフィードバック |
| 応募資格 |
【必須(MUST)】 - コンピュータサイエンス、ソフトウェア工学、人工知能、機械学習、数学、物理、計量心理学などの関連分野における修士号以上、または同等の実務経験- MLエンジニア / DS / リサーチエンジニア / ML評価関連職種の実務経験 3年以上 - LLM / 生成AIの評価手法に関する深い知識 - 統計学・実験計画法の実践的知識 - Pythonでの ML / 評価パイプライン構築経験 - 機械学習フレームワーク(PyTorch, JAX, TensorFlow等)の実務経験 - 評価メトリクスの設計・実装経験 - 言語レベル : いずれか必須 - 日本語 : Fluent (プロダクト開発において齟齬なく議論を行えるレベル) - 英語 : ビジネスレベル 【歓迎(WANT)】 【歓迎スキル・経験】- ML / NLPトップカンファレンス(NeurIPS, ICML, ICLR, ACL, EMNLP等)での論文発表経験 - 報酬モデリング / preference learning(RLHF, DPO等)の研究・実装経験 - LLM-as-Judge の校正・rubric設計の経験 - AI安全性・Responsible AI・レッドチーミングに関する知識・経験 - ベンチマーク設計・妥当性検証(IRT, construct validity)の経験 - マルチエージェント・ワークフロー / ツール利用 / ロングコンテキストの評価経験 - 大規模データ処理(Spark / BigQuery等)の経験 - CI/CDパイプラインへのML/評価パイプライン組込み経験 - 論文読解・再現実装の能力 - 英語での技術コミュニケーション能力 |
| 受動喫煙対策 | 喫煙室設置 |
| 更新日 | 2026/05/19 |
| 求人番号 | 8319643 |
採用企業情報

- 企業名は会員のみ表示されます
- 会社規模非公開
この求人の取り扱い担当者
-
- ?
- ヘッドハンターの氏名は会員のみ表示されます
会社名は会員のみ表示されます
-
- コンサルティング IT・インターネット メーカー
-
- 12月は来期に向けた採用が動き出し、年明けスタートを見据えた準備に最適な時期です。競合が多くないため企業とも丁寧に話せる好機。転職予定がなくても市況を知るだけで大きな価値があります。将来のキャリア整理のきっかけに、ぜひお気軽にお話ししませんか?
- (2025/12/01)
転職・求人情報の詳細をご覧になる場合は会員登録(無料)が必要です
