非公開求人
AI Quality Scientist/上場マーケティング支援企業の求人
求人ID:1503498
更新日:2026/04/13
転職求人情報
職種
AI Quality Scientist
ポジション
AI Quality Scientist
おすすめ年齢
20代
30代
40代
50代以上
年収イメージ
〜1600万円
仕事内容
業務概要:当社は、AI技術を駆使して働く人々の可能性を飛躍的に高めることを目指し、当グループ企業として設立されました。当社は最先端のAI技術を活用し、国内外での研究開発を推進しています。私たちが目指しているのは、単なるAIチャットボットの提供ではありません。企業の全SaaSを統合し、AIが自律的に業務を実行する「企業の脳」 次世代の基幹システムを構築することです。自社サービスを中核に、DBさえあればアプリ不要、AIが作業して結果だけを返す世界を実装しています。私たちはAIの持つ変革力を通じて、新たな価値を創出し、社会全体の進歩に貢献することを目指しています。AIによるイノベーションをリードし、テクノロジーが人々をより多くのことを達成できるようにする未来を共に創造しましょう。
ミッション: ""AI の出力品質を科学する 評価手法の研究・開発で、エージェントの信頼性を証明する""
LLM / AI エージェントの出力品質を、機械学習・統計学・計量心理学の手法で定量的に評価・改善します。評価メトリクスの研究開発から自動評価パイプラインの本番実装まで、「AI 評価科学」という新しい研究領域を社内に確立し、多くの企業が本番利用するプロダクトの品質を科学的に保証します。
具体的な業務:AI Quality Scientist として、AI エージェントの品質評価基盤の設計・構築・運用をリードしていただきます。
1. 評価メトリクスの研究開発 LLM-as-Judge の校正、報酬モデリング、ベンチマーク設計を通じて「何をもって品質とするか」を科学的に定義します
2. 自動評価パイプラインの設計・構築 研究成果を本番 CI/CD に組み込み、スケーラブルな品質ゲートを実現します
3. レッドチーミング・安全性検証 adversarial testing の自動化、ポリシー準拠検証フレームワークを構築します
4. 統計的実験計画に基づく品質改善 A/B テスト・有意差検定でプロンプト戦略やモデル変更の効果を定量的に検証します
5. 評価シグナルの研究・開発チームへのフィードバック モデル改善の複利ループを構築します
多くの企業が本番利用するプロダクトの品質を「科学する」アプローチで担保します
業務内容:
1. 評価メトリクスの研究開発
* LLM-as-Judge の校正手法の研究・実装 (rubric 設計、バイアス検出、proper scoring rules)
* 評価ベンチマークの設計・構築・妥当性検証 (construct validity、contamination detection)
* 報酬モデリング / preference learning の評価への応用研究
* 評価メトリクスの選定・設計 (win rate、task success、factuality、harm detection)
* 評価セット (合成データ + 実ログ) の設計・構築・メンテナンス
2. 自動評価パイプラインの設計・構築
* スケーラブルな自動評価パイプラインの設計・実装
* CI/CD への評価パイプライン組込みと品質ゲートの構築
* エージェント評価ハーネスの設計 (マルチターン・ツール利用・ロングコンテキスト対応)
* 評価パイプラインの再現性・信頼性の担保
3. 安全性・品質検証
* 自動レッドチーミング (automated adversarial testing) の研究・実装
* 安全性 / ポリシー準拠の検証フレームワーク構築
* ハルシネーション検出・校正手法の研究・実装
* プロンプト / ツール回帰テストの設計・実行
4. 統計分析・実験設計
* 統計的実験計画 (A/B テスト、有意差検定) の設計・分析
* 品質トレンドの可視化・回帰検出の自動化
* 品質レポート作成と改善提案
* 評価シグナルの研究・開発チームへのフィードバック
業務シナリオ:
シナリオ1: LLM-as-Judge の校正と妥当性検証
新しい評価メトリクスとして LLM-as-Judge を導入する際、judge モデルの校正 (calibration) を実施します。人間評価との一致率を統計的に検証し、rubric 設計を反復改善します。construct validity を確認した上で、自動評価パイプラインに組み込み、評価コストを削減しながら人間評価と同等の信頼性を実現します。
シナリオ2: 新モデル導入時の品質ゲート
LLMプロバイダーが新モデルをリリースした際、既存のベンチマークスイートで回帰テストを実行し、factualityスコアが低下していることを検出します。原因を分析し、プロンプト調整で品質を維持したまま新モデルへの移行を完了します。
シナリオ3: 自動レッドチーミングによる安全性検証
金融機関向けに自社サービスを導入する際、自動レッドチーミングパイプラインを構築します。adversarial promptの自動生成・分類器による脆弱性検出を実装し、業界固有のリスクシナリオ(機密情報漏洩、不適切な金融アドバイス等)を網羅的にテストします。ポリシー準拠率を達成します。
成果責任 (KR/メトリクス):
* 評価カバレッジ率(テストケース網羅率)
* 回帰検出率(リリース前の品質劣化検出率)
* 評価パイプライン実行時間(CI/CD内で完了)
* LLM-as-Judge と人間評価の一致率
* False Positive / Negative 率
* 安全性インシデント発生率(リリース後)
チーム体制:
開発組織に在籍しています。AI QA Engineerは品質保証の専門チームとして、以下のチームと密接に連携します:
* 密接に連携する役割:
* Agentic Product Engineer エージェント機能開発
* Research Engineer 研究開発・モデル改善
* Agent Harness Engineer / Software Engineer (AI Platform) AI 実行基盤開発
* Product Manager プロダクト設計・品質要件定義
ポジション・部門の魅力:
1. Evaluation Science の実践 : 多くの企業が注力する「AI 評価科学」を、日本のエンタープライズ AI の文脈で実践できます。評価手法そのものを研究対象とする、世界的にも希少なポジションです
2. ML/DS スキルの新しい応用 : 機械学習・統計学の専門性を「モデル開発」ではなく「モデル評価」に応用します。報酬モデリング、LLM-as-Judge の校正理論、ベンチマーク設計など、研究と実装の両面で知的挑戦があります
3. 品質がプロダクトの信頼を決める : 多くの企業が利用する本番環境で、あなたが構築した評価基盤がリリース品質の最後の砦になります。品...
ミッション: ""AI の出力品質を科学する 評価手法の研究・開発で、エージェントの信頼性を証明する""
LLM / AI エージェントの出力品質を、機械学習・統計学・計量心理学の手法で定量的に評価・改善します。評価メトリクスの研究開発から自動評価パイプラインの本番実装まで、「AI 評価科学」という新しい研究領域を社内に確立し、多くの企業が本番利用するプロダクトの品質を科学的に保証します。
具体的な業務:AI Quality Scientist として、AI エージェントの品質評価基盤の設計・構築・運用をリードしていただきます。
1. 評価メトリクスの研究開発 LLM-as-Judge の校正、報酬モデリング、ベンチマーク設計を通じて「何をもって品質とするか」を科学的に定義します
2. 自動評価パイプラインの設計・構築 研究成果を本番 CI/CD に組み込み、スケーラブルな品質ゲートを実現します
3. レッドチーミング・安全性検証 adversarial testing の自動化、ポリシー準拠検証フレームワークを構築します
4. 統計的実験計画に基づく品質改善 A/B テスト・有意差検定でプロンプト戦略やモデル変更の効果を定量的に検証します
5. 評価シグナルの研究・開発チームへのフィードバック モデル改善の複利ループを構築します
多くの企業が本番利用するプロダクトの品質を「科学する」アプローチで担保します
業務内容:
1. 評価メトリクスの研究開発
* LLM-as-Judge の校正手法の研究・実装 (rubric 設計、バイアス検出、proper scoring rules)
* 評価ベンチマークの設計・構築・妥当性検証 (construct validity、contamination detection)
* 報酬モデリング / preference learning の評価への応用研究
* 評価メトリクスの選定・設計 (win rate、task success、factuality、harm detection)
* 評価セット (合成データ + 実ログ) の設計・構築・メンテナンス
2. 自動評価パイプラインの設計・構築
* スケーラブルな自動評価パイプラインの設計・実装
* CI/CD への評価パイプライン組込みと品質ゲートの構築
* エージェント評価ハーネスの設計 (マルチターン・ツール利用・ロングコンテキスト対応)
* 評価パイプラインの再現性・信頼性の担保
3. 安全性・品質検証
* 自動レッドチーミング (automated adversarial testing) の研究・実装
* 安全性 / ポリシー準拠の検証フレームワーク構築
* ハルシネーション検出・校正手法の研究・実装
* プロンプト / ツール回帰テストの設計・実行
4. 統計分析・実験設計
* 統計的実験計画 (A/B テスト、有意差検定) の設計・分析
* 品質トレンドの可視化・回帰検出の自動化
* 品質レポート作成と改善提案
* 評価シグナルの研究・開発チームへのフィードバック
業務シナリオ:
シナリオ1: LLM-as-Judge の校正と妥当性検証
新しい評価メトリクスとして LLM-as-Judge を導入する際、judge モデルの校正 (calibration) を実施します。人間評価との一致率を統計的に検証し、rubric 設計を反復改善します。construct validity を確認した上で、自動評価パイプラインに組み込み、評価コストを削減しながら人間評価と同等の信頼性を実現します。
シナリオ2: 新モデル導入時の品質ゲート
LLMプロバイダーが新モデルをリリースした際、既存のベンチマークスイートで回帰テストを実行し、factualityスコアが低下していることを検出します。原因を分析し、プロンプト調整で品質を維持したまま新モデルへの移行を完了します。
シナリオ3: 自動レッドチーミングによる安全性検証
金融機関向けに自社サービスを導入する際、自動レッドチーミングパイプラインを構築します。adversarial promptの自動生成・分類器による脆弱性検出を実装し、業界固有のリスクシナリオ(機密情報漏洩、不適切な金融アドバイス等)を網羅的にテストします。ポリシー準拠率を達成します。
成果責任 (KR/メトリクス):
* 評価カバレッジ率(テストケース網羅率)
* 回帰検出率(リリース前の品質劣化検出率)
* 評価パイプライン実行時間(CI/CD内で完了)
* LLM-as-Judge と人間評価の一致率
* False Positive / Negative 率
* 安全性インシデント発生率(リリース後)
チーム体制:
開発組織に在籍しています。AI QA Engineerは品質保証の専門チームとして、以下のチームと密接に連携します:
* 密接に連携する役割:
* Agentic Product Engineer エージェント機能開発
* Research Engineer 研究開発・モデル改善
* Agent Harness Engineer / Software Engineer (AI Platform) AI 実行基盤開発
* Product Manager プロダクト設計・品質要件定義
ポジション・部門の魅力:
1. Evaluation Science の実践 : 多くの企業が注力する「AI 評価科学」を、日本のエンタープライズ AI の文脈で実践できます。評価手法そのものを研究対象とする、世界的にも希少なポジションです
2. ML/DS スキルの新しい応用 : 機械学習・統計学の専門性を「モデル開発」ではなく「モデル評価」に応用します。報酬モデリング、LLM-as-Judge の校正理論、ベンチマーク設計など、研究と実装の両面で知的挑戦があります
3. 品質がプロダクトの信頼を決める : 多くの企業が利用する本番環境で、あなたが構築した評価基盤がリリース品質の最後の砦になります。品...
必要スキル
【必須スキル】
コンピュータサイエンス、ソフトウェア工学、人工知能、機械学習、数学、物理、計量心理学などの関連分野における修士号以上、または同等の実務経験
MLエンジニア / DS / リサーチエンジニア / ML評価関連職種の実務経験 3年以上
LLM / 生成AIの評価手法に関する深い知識
統計学・実験計画法の実践的知識
Pythonでの ML / 評価パイプライン構築経験
機械学習フレームワーク(PyTorch, JAX, TensorFlow等)の実務経験
評価メトリクスの設計・実装経験
言語レベル : いずれか必須
日本語 : Fluent (プロダクト開発において齟齬なく議論を行えるレベル)
英語 : ビジネスレベル
【歓迎スキル】
ML / NLPトップカンファレンス(NeurIPS, ICML, ICLR, ACL, EMNLP等)での論文発表経験
報酬モデリング / preference learning(RLHF, DPO等)の研究・実装経験
LLM-as-Judge の校正・rubric設計の経験
AI安全性・Responsible AI・レッドチーミングに関する知識・経験
ベンチマーク設計・妥当性検証(IRT, construct validity)の経験
マルチエージェント・ワークフロー / ツール利用 / ロングコンテキストの評価経験
大規模データ処理(Spark / BigQuery等)の経験
CI/CDパイプラインへのML/評価パイプライン組込み経験
論文読解・再現実装の能力
英語での技術コミュニケーション能力
【求める人物像】
コンピュータサイエンス、ソフトウェア工学、人工知能、機械学習、数学、物理、計量心理学などの関連分野における修士号以上、または同等の実務経験
MLエンジニア / DS / リサーチエンジニア / ML評価関連職種の実務経験 3年以上
LLM / 生成AIの評価手法に関する深い知識
統計学・実験計画法の実践的知識
Pythonでの ML / 評価パイプライン構築経験
機械学習フレームワーク(PyTorch, JAX, TensorFlow等)の実務経験
評価メトリクスの設計・実装経験
言語レベル : いずれか必須
日本語 : Fluent (プロダクト開発において齟齬なく議論を行えるレベル)
英語 : ビジネスレベル
【歓迎スキル】
ML / NLPトップカンファレンス(NeurIPS, ICML, ICLR, ACL, EMNLP等)での論文発表経験
報酬モデリング / preference learning(RLHF, DPO等)の研究・実装経験
LLM-as-Judge の校正・rubric設計の経験
AI安全性・Responsible AI・レッドチーミングに関する知識・経験
ベンチマーク設計・妥当性検証(IRT, construct validity)の経験
マルチエージェント・ワークフロー / ツール利用 / ロングコンテキストの評価経験
大規模データ処理(Spark / BigQuery等)の経験
CI/CDパイプラインへのML/評価パイプライン組込み経験
論文読解・再現実装の能力
英語での技術コミュニケーション能力
【求める人物像】
就業場所
就業形態
正社員
企業名
上場マーケティング支援企業
企業概要
企業の収益拡大・生産性向上など様々な課題解決につながるソリューションを開発・提供するマーケティングテクノロジーカンパニー
企業PR
アドテクノロジー/デジタルマーケティングの領域において、最先端のテクノロジーを活用し、顧客企業様の収益最大化に役立つプロダクトを独自開発。中でも、WEBメディアやスマートフォンアプリの広告枠に対し、アクセスしたユーザの分析を行い、最適な広告をリアルタイムのオークション形式で届ける、プラットフォーム事業に注力しています。
業務カテゴリ
組織カテゴリ
備考
応募ありがとうございました。コンサルタントからご連絡します
応募出来ませんでした。恐れ入りますがもう一度やり直してください
気になるに登録しました
気になるに登録出来ませんでした。恐れ入りますがもう一度やり直してください