メニュー

日系大手電機・通信機器メーカーにおけるSite Reliability Engineer (Machine Learning Platform)の求人

求人ID:1258849

募集終了

転職求人情報

職種

Site Reliability Engineer (Machine Learning Platfo

ポジション

プロフェッショナル(課長相当)

おすすめ年齢

20代
30代
40代
50代以上

年収イメージ

900万円〜1100万円程度 ※前職年収を考慮、当社規定による

仕事内容

私たちは、AIスパコンの開発・運用を行っている、世界でも有数のプラットフォームエンジニアリングを行っているグループです。世界で最高のモノづくりにこだわり、先進AIで社会にイノベーションを起こしたい方を募集しています。

当社では、世界でも有数の数百名のAI研究者がAIスパコンを行い、独自の生成AI等の大規模なAIモデルの開発を行っています。また、生成AI以外にも世界トップレベルの生体認証技術を始めとして、画像認識・データ分析・言語モデル(LLM)・ロボット制御等、多種多様な分野でAIの研究開発を行っており、事業の応用分野も多岐に及んでいます。

AIスパコンは、AIの研究開発を支えるキーコンポーネントであり、当社のAIの研究開発全体を強化するべくAIスパコンの開発・運用を共に行って頂ける方を求めています。

【職務内容】
最新のハイエンドGPU928基を備える国内企業で最大規模のAIスーパーコンピューターを開発・運用を共に行って頂くSite Reliability Engineer (Machine Learning Plaftorm) を数名募集します。スケーラブルかつ洗練されたGPUサーバーを用いた世界有数のAIスパコンを開発・運用し、AIの技術開発に革新をおこしたい方を募集しています。コンピューターアーキテクチャ・ソフトウェアアーキテクチャに精通し、世界に誇れるAIスパコンを共に開発・運用して頂ける方を求めています。

AIスパコンの安定運用を行いながらもAIの進化に合わせ基盤強化を行うには、ソフトウェアの高い開発能力が必要であり、ソフトウェア開発へのこだわりのある方を募集します。

【ポジションのアピールポイント・想定キャリアパス等】
・世界の先端のAIスーパーコンピュータの開発に携わることができ、AIが紡ぎだす未来を自らの手で作れます
・現代のAIの技術開発には高度な分散システムが必要であり、先端のSW/HWに精通できます
・AI/HPC/分散システムのスペシャリストとしてのキャリアパスを想定しています

必要スキル

【MUST】
下記を全て満たすこと
・5年以上のソフトウェア開発・運用の実務経験
・コンピュータサイエンス/機械学習の修士号、または博士号、または同等の実務経験がある方
・Kubernetesの利用経験
・分散システムの設計・開発経験
・システムの運用設計・監視の経験

【WANT】
・大規模サイトなどでのSREとしての経験(ベアメタルサーバーでの開発経験があれば尚良いです)
・Kubernetesのクラスタの運用経験
・数PB規模の分散ファイルシステムを用いたストレージの開発・運用の実績
・GPU関連処理技術への理解(CUDA、NCCL、MPI等)
・Go言語での開発経験
・オープンソースプロジェクトへの貢献(GithubのURLがあればプラス)
・各種の学習フレームワークへの理解(PyTorch、TensorFlow等)

【求める人物像(ソフトスキル)】
・コンピュータサイエンスに精通し、ソフトウェア開発への情熱のある方
・新しいテクノロジースタック群を追い続けられるだけの強い技術への好奇心を持っている方
・高い自主性を持ち、プロジェクトをともに推進して頂ける方

就業場所

就業形態

正社員

企業名

日本を代表する電機・通信機器メーカー

企業概要

通信インフラ設備で国内首位。ITサービスを強化。

企業PR

メーカーからシステムインテグレーターへ大規模変革を実現した企業。現在は、コンサルティングフェーズから顧客の課題解決に取り組む企業への変革に挑戦している。意欲的な環境で、定年退職年齢の撤廃によるハイスキル人材の継続登用、ハイパフォーマンス人材に対するインセンティブ制度の導入など、次々にチャレンジを進めている。

組織カテゴリ

備考

関連キーワード



転職求人を検索