非公開求人
AI QA Specialist (LLM Evaluation)/上場マーケティング支援企業の求人
求人ID:1500641
更新日:2026/04/01
転職求人情報
職種
AI QA Specialist (LLM Evaluation)
ポジション
AI QA Specialist
おすすめ年齢
20代
30代
40代
50代以上
年収イメージ
〜1400万円
仕事内容
募集背景:AIエージェントの出力品質は企業の業務に直結します。「なんとなく動く」では許されません。自社サービスが「企業の脳」として稟議承認・リソース配置・見込み顧客探索などの業務を自律的に実行する世界では、AIの出力が間違えれば、承認すべきでない稟議が通り、誤った人員配置が行われ、不適切な顧客にアプローチしてしまいます。「企業の脳」が信頼されるためには、生成回答の正確性・安全性・一貫性を科学的に評価・保証する仕組みが不可欠です。当社では、多数の顧客が本番環境で利用するAIエージェントの品質を科学的に保証するため、自動評価パイプライン・レッドチーミング・統計的実験計画に基づく品質保証体制を構築するAI QA Specialistを募集します。
ミッション:Agentの出力品質を科学的に評価・保証する。AIエージェントの出力品質を科学的手法で評価・保証し、自動評価・レッドチーミング・安全性検証・回帰検出の仕組みを構築する。多数の顧客が本番利用するプロダクトの品質を「科学する」アプローチで担保する。
具体的な業務:AI QA Specialistとして、AIエージェントの品質評価基盤の設計・構築・運用をリードしていただきます。
1. 評価メトリクスの選定・設計から、自動評価パイプラインのCI/CD組込みまでをオーナーとして担う
2. レッドチーミングの計画・実施により、リリース前に安全性リスクを検出する
3. 統計的実験計画に基づくA/Bテスト分析で、品質改善の効果を定量的に検証する
4. 評価シグナルを研究・開発チームにフィードバックし、モデル改善の複利ループを作る
5. 多数の顧客が本番利用するプロダクトの品質を「科学する」アプローチで担保する
業務内容:
1. 評価基盤の設計・構築
* 評価セット (合成データ + 実ログ) の設計・構築・メンテナンス
* 評価メトリクス選定・設計 (win rate、task success、factuality、harm detection)
* 自動評価パイプラインの構築とCI/CDへの組込み
* エージェント・ハーネスの設計 (マルチターン・ツール利用・ロングコンテキスト対応)
2. 安全性・品質検証
* レッドチーミング (adversarial testing) の計画・実施
* 安全性 / ポリシー準拠の検証フレームワーク構築
* プロンプト / ツール回帰テストの設計・実行
* ハルシネーション・バイアス・出力品質の課題分析と改善
3. 統計分析・レポーティング
* 統計的実験計画 (A/Bテスト、有意差検定) の設計・分析
* 品質レポート作成と改善提案
* 回帰検出・品質トレンドの可視化
* 評価シグナルの研究・開発チームへのフィードバック
業務シナリオ:
※以下は想定される業務シナリオの例です
1. シナリオ 1: 新モデル導入時の品質ゲート
LLMプロバイダーが新モデルをリリース。既存の評価セットで回帰テストを実行し、factualityスコアが低下していることを検出。原因を分析し、プロンプト調整で品質を維持したまま新モデルへの移行を完了。
2. シナリオ 2: エンタープライズ顧客向けの安全性検証
金融機関向けに自社サービスを導入する際、業界固有のレッドチーミングシナリオ (機密情報漏洩、不適切な金融アドバイス等) を設計・実施。ポリシー準拠率以上を達成し、顧客のセキュリティ審査を通過。
3. シナリオ 3: A/Bテストによるプロンプト最適化の効果検証
エージェントの回答品質改善のため、2種類のプロンプト戦略をA/Bテストで比較。統計的有意差検定により、新プロンプトがtask success rateを向上させることを実証し、本番適用を決定。
成果責任 (KR/メトリクス):
* 評価カバレッジ率 (テストケース網羅率)
* 回帰検出率 (リリース前の品質劣化検出率)
* 評価パイプライン実行時間 (CI/CD内で完了)
* False Positive / Negative 率
* 安全性インシデント発生率 (リリース後)
チーム体制:AI QA Engineerは品質保証の専門チームとして、以下のチームと密接に連携します:
* 密接に連携する役割:
* Agentic Product Engineer エージェント機能開発
* Research Engineer 研究開発・モデル改善
* Agent Harness Engineer / Software Engineer (AI Platform) AI実行基盤開発
* Product Manager プロダクト設計・品質要件定義
ミッション:Agentの出力品質を科学的に評価・保証する。AIエージェントの出力品質を科学的手法で評価・保証し、自動評価・レッドチーミング・安全性検証・回帰検出の仕組みを構築する。多数の顧客が本番利用するプロダクトの品質を「科学する」アプローチで担保する。
具体的な業務:AI QA Specialistとして、AIエージェントの品質評価基盤の設計・構築・運用をリードしていただきます。
1. 評価メトリクスの選定・設計から、自動評価パイプラインのCI/CD組込みまでをオーナーとして担う
2. レッドチーミングの計画・実施により、リリース前に安全性リスクを検出する
3. 統計的実験計画に基づくA/Bテスト分析で、品質改善の効果を定量的に検証する
4. 評価シグナルを研究・開発チームにフィードバックし、モデル改善の複利ループを作る
5. 多数の顧客が本番利用するプロダクトの品質を「科学する」アプローチで担保する
業務内容:
1. 評価基盤の設計・構築
* 評価セット (合成データ + 実ログ) の設計・構築・メンテナンス
* 評価メトリクス選定・設計 (win rate、task success、factuality、harm detection)
* 自動評価パイプラインの構築とCI/CDへの組込み
* エージェント・ハーネスの設計 (マルチターン・ツール利用・ロングコンテキスト対応)
2. 安全性・品質検証
* レッドチーミング (adversarial testing) の計画・実施
* 安全性 / ポリシー準拠の検証フレームワーク構築
* プロンプト / ツール回帰テストの設計・実行
* ハルシネーション・バイアス・出力品質の課題分析と改善
3. 統計分析・レポーティング
* 統計的実験計画 (A/Bテスト、有意差検定) の設計・分析
* 品質レポート作成と改善提案
* 回帰検出・品質トレンドの可視化
* 評価シグナルの研究・開発チームへのフィードバック
業務シナリオ:
※以下は想定される業務シナリオの例です
1. シナリオ 1: 新モデル導入時の品質ゲート
LLMプロバイダーが新モデルをリリース。既存の評価セットで回帰テストを実行し、factualityスコアが低下していることを検出。原因を分析し、プロンプト調整で品質を維持したまま新モデルへの移行を完了。
2. シナリオ 2: エンタープライズ顧客向けの安全性検証
金融機関向けに自社サービスを導入する際、業界固有のレッドチーミングシナリオ (機密情報漏洩、不適切な金融アドバイス等) を設計・実施。ポリシー準拠率以上を達成し、顧客のセキュリティ審査を通過。
3. シナリオ 3: A/Bテストによるプロンプト最適化の効果検証
エージェントの回答品質改善のため、2種類のプロンプト戦略をA/Bテストで比較。統計的有意差検定により、新プロンプトがtask success rateを向上させることを実証し、本番適用を決定。
成果責任 (KR/メトリクス):
* 評価カバレッジ率 (テストケース網羅率)
* 回帰検出率 (リリース前の品質劣化検出率)
* 評価パイプライン実行時間 (CI/CD内で完了)
* False Positive / Negative 率
* 安全性インシデント発生率 (リリース後)
チーム体制:AI QA Engineerは品質保証の専門チームとして、以下のチームと密接に連携します:
* 密接に連携する役割:
* Agentic Product Engineer エージェント機能開発
* Research Engineer 研究開発・モデル改善
* Agent Harness Engineer / Software Engineer (AI Platform) AI実行基盤開発
* Product Manager プロダクト設計・品質要件定義
必要スキル
【必須スキル】
* コンピュータサイエンス、ソフトウェア工学、人工知能、機械学習、数学、物理、それらの関連分野における学士号または同等の実務経験
* ソフトウェアエンジニアまたはQAエンジニアとしての実務経験3年以上
* LLM / 生成AIの評価手法に関する知識 (プロンプト評価、出力品質の定量測定、ハルシネーション検出 等)
* 統計学・実験計画法の基礎知識
* Pythonでの評価パイプライン構築経験
* CI/CDパイプラインへのテスト組込み経験
* プロンプト / ツール回帰テストの設計経験
* 言語レベル : いずれか必須
* 日本語 : Fluent (プロダクト開発において齟齬なく議論を行えるレベル)
* 英語 : ビジネスレベル
【歓迎スキル】
* NLP / MLの評価ベンチマーク設計経験
* AI安全性・Responsible AIに関する知識
* レッドチーミング / ペネトレーションテストの経験
* マルチエージェント・ワークフロー、ツール利用、ロングコンテキストの評価経験
* 大規模データ処理 (Spark / BigQuery 等) の経験
* 論文読解・再現実装の能力
* 英語での技術コミュニケーション能力
* コンピュータサイエンス、ソフトウェア工学、人工知能、機械学習、数学、物理、それらの関連分野における学士号または同等の実務経験
* ソフトウェアエンジニアまたはQAエンジニアとしての実務経験3年以上
* LLM / 生成AIの評価手法に関する知識 (プロンプト評価、出力品質の定量測定、ハルシネーション検出 等)
* 統計学・実験計画法の基礎知識
* Pythonでの評価パイプライン構築経験
* CI/CDパイプラインへのテスト組込み経験
* プロンプト / ツール回帰テストの設計経験
* 言語レベル : いずれか必須
* 日本語 : Fluent (プロダクト開発において齟齬なく議論を行えるレベル)
* 英語 : ビジネスレベル
【歓迎スキル】
* NLP / MLの評価ベンチマーク設計経験
* AI安全性・Responsible AIに関する知識
* レッドチーミング / ペネトレーションテストの経験
* マルチエージェント・ワークフロー、ツール利用、ロングコンテキストの評価経験
* 大規模データ処理 (Spark / BigQuery 等) の経験
* 論文読解・再現実装の能力
* 英語での技術コミュニケーション能力
就業場所
就業形態
正社員
企業名
上場マーケティング支援企業
企業概要
企業の収益拡大・生産性向上など様々な課題解決につながるソリューションを開発・提供するマーケティングテクノロジーカンパニー
企業PR
アドテクノロジー/デジタルマーケティングの領域において、最先端のテクノロジーを活用し、顧客企業様の収益最大化に役立つプロダクトを独自開発。中でも、WEBメディアやスマートフォンアプリの広告枠に対し、アクセスしたユーザの分析を行い、最適な広告をリアルタイムのオークション形式で届ける、プラットフォーム事業に注力しています。
業務カテゴリ
組織カテゴリ
備考
応募ありがとうございました。コンサルタントからご連絡します
応募出来ませんでした。恐れ入りますがもう一度やり直してください
気になるに登録しました
気になるに登録出来ませんでした。恐れ入りますがもう一度やり直してください