1. 転職サイト ビズリーチ
  2.  > 
  3. 求人検索
  4.  > GPU/LLM基盤 最適化エンジニア|数千基規模の計算リソースを活用した次世代AIインフラ構築

転職・求人情報の詳細をご覧になる場合は会員登録(無料)が必要です

新規会員登録(無料)

GPU/LLM基盤 最適化エンジニア|数千基規模の計算リソースを活用した次世代AIインフラ構築

年収:1000万 ~ 1500万

ヘッドハンター案件

部署・役職名 GPU/LLM基盤 最適化エンジニア|数千基規模の計算リソースを活用した次世代AIインフラ構築
職種
業種
勤務地
仕事内容 組織の概要
当部門は、国内最大級の会員基盤を持つグループ企業のAI・データ戦略を牽引する専門組織です。世界各国から集まったトップクラスのエンジニアと共に、最先端のAI技術を駆使してビジネス価値を最大化するプラットフォームを構築しています。 現在は「データ駆動型グループ」という戦略的ビジョンのもと、グループ横断的なAI活用を加速させるため、インフラの最適化とガバナンスを強化しています。

部門のミッション
GPU最適化部門では、グループ全体のAIインフラにおける戦略的管理、最適化、およびガバナンスを担っています。数千基規模のアクセラレータ(最新のHopperおよび次世代Blackwellアーキテクチャを含む)を擁する、オンプレミス・マルチクラウドのハイブリッドインフラの性能を最大限に引き出すことがミッションです。

主な活動内容:

学習・推論ワークロードにおける計算リソースの効率化とコスト最適化

大規模分散学習(特にLLMや生成AI)向けフレームワークの開発・改善

モデル最適化技術による推論パフォーマンスの向上

次世代ハードウェア(LLM特化型チップ等)の継続的な評価と導入

募集背景・ポジションの魅力
圧倒的なスケール: 数千基規模のGPUクラスターを用いた、国内最大級のLLM学習・推論の最適化に携われます。

技術的挑戦: PyTorch, vLLM, TensorRT-LLM などの最先端スタックを駆使し、インフラ効率化が直接的に数億円規模のコスト削減やビジネスインパクトに直結します。

グローバルな環境: 世界中のAI/MLチームと連携し、最新の最適化手法をリサーチ・実装する機会があります。

職務内容(Position Details)
GPUトレーニング&インフラ最適化エンジニアとして、大規模GPUクラスター上でのLLM学習および推論ワークロードのパフォーマンス、効率、スケーラビリティを最大化していただきます。 各種フレームワーク(PyTorch, DeepSpeed, FSDP等)や推論エンジン(vLLM, TensorRT-LLM, Triton, SGLang等)を深く最適化し、AIモデルがピーク効率で動作する環境を実現することが求められます。

具体的な職務:

学習最適化: LLM学習フレームワークのチューニングによるGPU利用率の向上と学習時間の短縮

ボトルネック解析: 分散学習における通信オーバーヘッド(NCCL等)やCUDAカーネルの効率改善

推論最適化: 低遅延・高スループット実現のための量子化、ダイナミックバッチング、KVキャッシュ等の実装・調整

基盤連携: インフラチームと協力し、GPUスケジューリングや耐障害性の向上を推進

R&D: Mixture-of-Experts (MoE) や Speculative Decoding 等、最新技術の調査と適用
応募資格

【必須(MUST)】

実務経験:
GPUを用いた機械学習(学習および推論)の最適化における3年以上の実務経験(特にLLMや大規模ディープラーニングモデルの経験を重視)。
フレームワーク・分散学習:
PyTorch, DeepSpeed, FSDP, または Megatron-LM に関する深い知見。
大規模分散学習の最適化に関する実務経験。
LLM最適化技術:
量子化(Quantization)、プルーニング、KV caching、Continuous batching等、LLM推論最適化に関する強い知識。
教育背景:
コンピュータサイエンス、エンジニアリング、または関連分野の学士号以上。



【歓迎(WANT)】

■歓迎要件(Desired Qualifications)
低レイヤー・プロファイリング:
CUDA, Triton kernelを用いた開発、NVIDIAツール(Nsight, NCCL)の習熟。
PyTorch Profiler / TensorBoard 等を用いたパフォーマンス解析経験。
LLM特化型技術:
FlashAttention, PagedAttention, LoRA, speculative decoding 等の実装・適用経験。
インフラ・デプロイ:
Kubernetes(K8s)環境下でのGPUワークロード管理(KubeFlow, Volcano等)の知見。
推論サービングフレームワーク(vLLM, TensorRT-LLM, Triton, Hugging Face TGI等)の運用経験。
OSS貢献:
機械学習フレームワーク(PyTorch, DeepSpeed, vLLM等)へのコントリビューション経験。

リモートワーク

不可

受動喫煙対策

屋内禁煙

更新日 2026/01/06
求人番号 6484408

採用企業情報

この求人の取り扱い担当者

転職・求人情報の詳細をご覧になる場合は会員登録(無料)が必要です

新規会員登録(無料)

<< 検索結果に戻る