非公開求人

AI Evaluation Scientist /上場マーケティング支援企業の求人

求人ID:1503499

募集継続中

転職求人情報

職種

AI Quality Scientist

ポジション

AI Quality Scientist

おすすめ年齢

20代

30代

40代

50代以上

年収イメージ

〜1600万円

仕事内容

業務概要:当社は、当グループ会社として設立されました。
AIエージェントの出力品質は、企業の業務運営に直結します。
「なんとなく動く」では許されません。
自社サービスが「企業の頭脳」として、承認ワークフロー、リソース配分、見込み客発見などのタスクを自律的に実行する世界では、AIの誤った出力は、却下されるべき承認が通ったり、不正確な人員配置が行われたり、不適切な顧客にアプローチしたりすることを意味します。
「企業の頭脳」が信頼されるためには、生成された応答の正確性、安全性、一貫性を科学的に評価し、保証するシステムが不可欠です。
従来のQAエンジニアリングはテストケースの設計と実行が中心でしたが、LLMエージェントの品質保証には、評価指標自体の研究開発、LLM-as-Judgeのキャリブレーション理論、報酬モデリング、統計的実験計画、ベンチマーク設計といったML/DSの専門知識が求められます。
当社は、世界的に先駆けている「AI評価科学」を日本のエンタープライズAIの文脈で確立するため、AI Quality Scientistを募集しています。
具体的な業務:ミッション: 「AIの品質を科学する評価の研究開発を通じてエージェントの信頼性を証明する。
」機械学習、統計学、心理測定学の手法を用いて、LLM/AIエージェントの出力品質を定量的に評価し、改善します。
評価指標の研究開発から自動評価パイプラインの本番展開まで、「AI評価科学」を社内の新しい研究分野として確立し、本番利用される製品の品質を科学的に保証します。
AI Quality Scientistとして、AIエージェントの品質評価における研究と実装の両面を主導します。
1. 評価指標の研究開発: LLM-as-Judgeキャリブレーション、報酬モデリング、ベンチマーク設計を通じて、「品質とは何か」を科学的に定義します。
2. 自動評価パイプラインの設計と構築: 研究成果を本番CI/CDに統合し、スケーラブルな品質ゲートを提供します。
3. レッドチームと安全性検証: 敵対的テストを自動化し、ポリシー準拠検証フレームワークを構築します。
4. 統計的実験計画による品質改善の推進: A/Bテストと有意性検定を通じて、プロンプト戦略とモデル変更の有効性を定量的に検証します。
5. 評価シグナルを研究開発チームにフィードバック: モデル改善のための複利ループを構築します。
6. 「品質の科学」アプローチを通じて、本番利用される製品の品質を保証します。
詳細な業務内容:* 評価指標の研究開発:* LLM-as-Judgeキャリブレーション手法（ルーブリック設計、バイアス検出、適切なスコアリングルール）の研究と実装。
* 評価ベンチマーク（構成概念妥当性、汚染検出）の設計、構築、検証。
* 報酬モデリング/選好学習の評価への応用研究。
* 評価指標（勝率、タスク成功率、事実性、有害性検出）の選択と設計。
* 評価セット（合成データ + 実ログ）の設計、構築、維持。
* 自動評価パイプラインの設計と開発:* スケーラブルな自動評価パイプラインの設計と実装。
* 評価パイプラインをCI/CDに統合し、品質ゲートを構築。
* エージェント評価ハーネス（マルチターン、ツール使用、長文コンテキストサポート）の設計。
* 評価パイプラインの再現性と信頼性の確保。
* 安全性と品質検証:* 自動レッドチーム（自動敵対的テスト）の研究と実装。
* 安全性およびポリシー準拠検証フレームワークの構築。
* ハルシネーション検出とキャリブレーション手法の研究と実装。
* プロンプト/ツール回帰テストの設計と実行。
* 統計分析と実験計画:* 統計的実験（A/Bテスト、有意性検定）の設計と分析。
* 品質トレンドの可視化と回帰検出の自動化。
* 品質レポートと改善提案の作成。
* 評価シグナルを研究開発チームにフィードバック。
主要な成果（KR/指標）:* 評価カバレッジ率（テストケースカバレッジ）* 回帰検出率（リリース前品質劣化検出 >= 95%）* 評価パイプライン実行時間（CI/CD内で完了）* LLM-as-Judgeと人間評価の一致率* 偽陽性/偽陰性率* 安全インシデント率（リリース後）チーム体制:開発組織にはメンバーが所属しています。
AI QA Specialistは、専任の品質保証機能として、以下のメンバーと密接に連携して業務を行います。
* Agentic Product Engineer エージェント機能開発* Research Engineer 研究開発、モデル改善* Agent Harness Engineer / Software Engineer (AI Platform) AI実行インフラ開発* Product Manager 製品設計と品質要件定義ポジション
・部門の魅力:* 実践的な評価科学: 世界的に投資されている「AI評価科学」を、日本のエンタープライズAIの文脈で実践できます。
評価手法そのものが研究対象となる、世界的に稀なポジションです。
* ML/DSスキルの新しい応用: 機械学習と統計学の専門知識を「モデル構築」ではなく「モデル評価」に応用します。
報酬モデリング、LLM-as-Judgeキャリブレーション理論、ベンチマーク設計など、研究と実装の両面にわたる知的な挑戦があります。
* 品質が製品の信頼を決定: 本番環境において、あなたが構築する評価インフラはリリース品質の最後の砦となります。
品質保証がビジネスに直接与える影響を実感できます。
* グリーンフィールドポジション: AIエージェント評価科学という全く新しい専門領域をゼロから設計
・構築します。
評価指標の研究開発から自動評価パイプラインの本番展開まで、大きな裁量を持つことができます。
* AI安全の最前線: 自動レッドチーム、敵対的テスト、ポリシー準拠検証を含む責任あるAIの実践に携わります。
AIエージェントが「企業の頭脳」としてビジネスオペレーションを自律的に実行する世界で、安全性を科学的に保証する重要な役割を担います。
* 急成長環境で、技術的な意思決定において大きな裁量を持つことができます。
リサーチエンジニアやエージェントハーネスエンジニアと密接に連携し、製品スイート全体の品質に影響を与えます。

必要スキル

【必須スキル】
* 学歴
・経験:* コンピュータサイエンス、機械学習、統計学、数学、物理学、心理測定学、または関連分野の修士号以上（または同等の実務経験）。
* MLエンジニア、データサイエンティスト、リサーチエンジニア、またはML/AI評価関連の役割で3年以上の実務経験。
* 技術スキル:* LLM/生成AI評価手法（ベンチマーク設計、LLM-as-Judge、定量的出力品質測定、ハルシネーション検出など）に関する深い知識。
* 統計学と実験計画（仮説検定、A/Bテスト、信頼区間、効果量など）に関する実践的な知識。
* PythonでのML/評価パイプライン構築経験。
* 機械学習フレームワーク（PyTorch、JAX、TensorFlowなど）の実践経験。
* 評価指標の設計と実装経験（精度/再現率を超えたタスク固有の指標設計）。
* 語学要件（以下のいずれか必須）:* 日本語: 流暢製品開発について円滑に議論できるレベル。
* 英語: ビジネスレベル。
【歓迎スキル】
* トップカンファレンス（NeurIPS、ICML、ICLR、ACL、EMNLPなど）での論文発表経験。
* 報酬モデリング/選好学習（RLHF、DPOなど）の研究または実装経験。
* LLM-as-Judgeキャリブレーションとルーブリック設計の経験。
* AI安全、責任あるAI、レッドチームに関する知識または経験。
* ベンチマーク設計と妥当性検証（IRT、構成概念妥当性）の経験。
* マルチエージェントワークフロー、ツール使用、長文コンテキストシナリオの評価経験。
* 大規模データ処理経験（Spark/BigQueryなど）。
* ML/評価パイプラインをCI/CDに統合した経験。
* 研究論文を読み、理解し、再現する能力。
* 英語での技術コミュニケーション能力。
【求める人物像}

就業場所

東京都

就業形態

正社員

企業名

マーケティングや営業DXを展開する上場AIテック企業

企業概要

企業の収益拡大・生産性向上など様々な課題解決につながるソリューションを開発・提供するマーケティングテクノロジーカンパニー

企業PR

アドテクノロジー/デジタルマーケティングの領域において、最先端のテクノロジーを活用し、顧客企業様の収益最大化に役立つプロダクトを独自開発。中でも、WEBメディアやスマートフォンアプリの広告枠に対し、アクセスしたユーザの分析を行い、最適な広告をリアルタイムのオークション形式で届ける、プラットフォーム事業に注力しています。

業務カテゴリ

AIエンジニア

組織カテゴリ

事業会社

備考

AI Evaluation Scientist /上場マーケティング支援企業の求人

求人ID:1503499

転職求人情報

ご希望の方へ、転職支援サービス(無料)のご案内

この求人に関心をお持ちの方へ

ご登録で受けられるサポート