非公開求人

AI Quality Scientist/上場マーケティング支援企業の求人

求人ID:1503499

更新日:2026/04/13

転職求人情報

職種
AI Quality Scientist
ポジション
AI Quality Scientist
おすすめ年齢
20代
30代
40代
50代以上
年収イメージ
〜1600万円
仕事内容
業務概要:当社は、当グループ会社として設立されました。
AIエージェントの出力品質は、企業の業務運営に直結します。
「なんとなく動く」では許されません。
自社サービスが「企業の頭脳」として、承認ワークフロー、リソース配分、見込み客発見などのタスクを自律的に実行する世界では、AIの誤った出力は、却下されるべき承認が通ったり、不正確な人員配置が行われたり、不適切な顧客にアプローチしたりすることを意味します。
「企業の頭脳」が信頼されるためには、生成された応答の正確性、安全性、一貫性を科学的に評価し、保証するシステムが不可欠です。
従来のQAエンジニアリングはテストケースの設計と実行が中心でしたが、LLMエージェントの品質保証には、評価指標自体の研究開発、LLM-as-Judgeのキャリブレーション理論、報酬モデリング、統計的実験計画、ベンチマーク設計といったML/DSの専門知識が求められます。
当社は、世界的に先駆けている「AI評価科学」を日本のエンタープライズAIの文脈で確立するため、AI Quality Scientistを募集しています。
具体的な業務:ミッション: 「AIの品質を科学する 評価の研究開発を通じてエージェントの信頼性を証明する。
」機械学習、統計学、心理測定学の手法を用いて、LLM/AIエージェントの出力品質を定量的に評価し、改善します。
評価指標の研究開発から自動評価パイプラインの本番展開まで、「AI評価科学」を社内の新しい研究分野として確立し、本番利用される製品の品質を科学的に保証します。
AI Quality Scientistとして、AIエージェントの品質評価における研究と実装の両面を主導します。
1. 評価指標の研究開発: LLM-as-Judgeキャリブレーション、報酬モデリング、ベンチマーク設計を通じて、「品質とは何か」を科学的に定義します。
2. 自動評価パイプラインの設計と構築: 研究成果を本番CI/CDに統合し、スケーラブルな品質ゲートを提供します。
3. レッドチームと安全性検証: 敵対的テストを自動化し、ポリシー準拠検証フレームワークを構築します。
4. 統計的実験計画による品質改善の推進: A/Bテストと有意性検定を通じて、プロンプト戦略とモデル変更の有効性を定量的に検証します。
5. 評価シグナルを研究開発チームにフィードバック: モデル改善のための複利ループを構築します。
6. 「品質の科学」アプローチを通じて、本番利用される製品の品質を保証します。
詳細な業務内容:* 評価指標の研究開発:* LLM-as-Judgeキャリブレーション手法(ルーブリック設計、バイアス検出、適切なスコアリングルール)の研究と実装。
* 評価ベンチマーク(構成概念妥当性、汚染検出)の設計、構築、検証。
* 報酬モデリング/選好学習の評価への応用研究。
* 評価指標(勝率、タスク成功率、事実性、有害性検出)の選択と設計。
* 評価セット(合成データ + 実ログ)の設計、構築、維持。
* 自動評価パイプラインの設計と開発:* スケーラブルな自動評価パイプラインの設計と実装。
* 評価パイプラインをCI/CDに統合し、品質ゲートを構築。
* エージェント評価ハーネス(マルチターン、ツール使用、長文コンテキストサポート)の設計。
* 評価パイプラインの再現性と信頼性の確保。
* 安全性と品質検証:* 自動レッドチーム(自動敵対的テスト)の研究と実装。
* 安全性およびポリシー準拠検証フレームワークの構築。
* ハルシネーション検出とキャリブレーション手法の研究と実装。
* プロンプト/ツール回帰テストの設計と実行。
* 統計分析と実験計画:* 統計的実験(A/Bテスト、有意性検定)の設計と分析。
* 品質トレンドの可視化と回帰検出の自動化。
* 品質レポートと改善提案の作成。
* 評価シグナルを研究開発チームにフィードバック。
主要な成果(KR/指標):* 評価カバレッジ率(テストケースカバレッジ)* 回帰検出率(リリース前品質劣化検出 >= 95%)* 評価パイプライン実行時間(CI/CD内で完了)* LLM-as-Judgeと人間評価の一致率* 偽陽性/偽陰性率* 安全インシデント率(リリース後)チーム体制:開発組織にはメンバーが所属しています。
AI QA Specialistは、専任の品質保証機能として、以下のメンバーと密接に連携して業務を行います。
* Agentic Product Engineer エージェント機能開発* Research Engineer 研究開発、モデル改善* Agent Harness Engineer / Software Engineer (AI Platform) AI実行インフラ開発* Product Manager 製品設計と品質要件定義ポジション
・部門の魅力:* 実践的な評価科学: 世界的に投資されている「AI評価科学」を、日本のエンタープライズAIの文脈で実践できます。
評価手法そのものが研究対象となる、世界的に稀なポジションです。
* ML/DSスキルの新しい応用: 機械学習と統計学の専門知識を「モデル構築」ではなく「モデル評価」に応用します。
報酬モデリング、LLM-as-Judgeキャリブレーション理論、ベンチマーク設計など、研究と実装の両面にわたる知的な挑戦があります。
* 品質が製品の信頼を決定: 本番環境において、あなたが構築する評価インフラはリリース品質の最後の砦となります。
品質保証がビジネスに直接与える影響を実感できます。
* グリーンフィールドポジション: AIエージェント評価科学という全く新しい専門領域をゼロから設計
・構築します。
評価指標の研究開発から自動評価パイプラインの本番展開まで、大きな裁量を持つことができます。
* AI安全の最前線: 自動レッドチーム、敵対的テスト、ポリシー準拠検証を含む責任あるAIの実践に携わります。
AIエージェントが「企業の頭脳」としてビジネスオペレーションを自律的に実行する世界で、安全性を科学的に保証する重要な役割を担います。
* 急成長環境で、技術的な意思決定において大きな裁量を持つことができます。
リサーチエンジニアやエージェントハーネスエンジニアと密接に連携し、製品スイート全体の品質に影響を与えます。
必要スキル
【必須スキル】
* 学歴
・経験:* コンピュータサイエンス、機械学習、統計学、数学、物理学、心理測定学、または関連分野の修士号以上(または同等の実務経験)。
* MLエンジニア、データサイエンティスト、リサーチエンジニア、またはML/AI評価関連の役割で3年以上の実務経験。
* 技術スキル:* LLM/生成AI評価手法(ベンチマーク設計、LLM-as-Judge、定量的出力品質測定、ハルシネーション検出など)に関する深い知識。
* 統計学と実験計画(仮説検定、A/Bテスト、信頼区間、効果量など)に関する実践的な知識。
* PythonでのML/評価パイプライン構築経験。
* 機械学習フレームワーク(PyTorch、JAX、TensorFlowなど)の実践経験。
* 評価指標の設計と実装経験(精度/再現率を超えたタスク固有の指標設計)。
* 語学要件(以下のいずれか必須):* 日本語: 流暢 製品開発について円滑に議論できるレベル。
* 英語: ビジネスレベル。
【歓迎スキル】
* トップカンファレンス(NeurIPS、ICML、ICLR、ACL、EMNLPなど)での論文発表経験。
* 報酬モデリング/選好学習(RLHF、DPOなど)の研究または実装経験。
* LLM-as-Judgeキャリブレーションとルーブリック設計の経験。
* AI安全、責任あるAI、レッドチームに関する知識または経験。
* ベンチマーク設計と妥当性検証(IRT、構成概念妥当性)の経験。
* マルチエージェントワークフロー、ツール使用、長文コンテキストシナリオの評価経験。
* 大規模データ処理経験(Spark/BigQueryなど)。
* ML/評価パイプラインをCI/CDに統合した経験。
* 研究論文を読み、理解し、再現する能力。
* 英語での技術コミュニケーション能力。
【求める人物像}
就業場所
就業形態
正社員
企業名
上場マーケティング支援企業
企業概要
企業の収益拡大・生産性向上など様々な課題解決につながるソリューションを開発・提供するマーケティングテクノロジーカンパニー
企業PR
アドテクノロジー/デジタルマーケティングの領域において、最先端のテクノロジーを活用し、顧客企業様の収益最大化に役立つプロダクトを独自開発。中でも、WEBメディアやスマートフォンアプリの広告枠に対し、アクセスしたユーザの分析を行い、最適な広告をリアルタイムのオークション形式で届ける、プラットフォーム事業に注力しています。
業務カテゴリ
組織カテゴリ
備考
関連キーワード
応募ありがとうございました。コンサルタントからご連絡します
応募出来ませんでした。恐れ入りますがもう一度やり直してください
気になるに登録しました
気になるに登録出来ませんでした。恐れ入りますがもう一度やり直してください