非公開求人

AI QA Specialist (LLM Evaluation)/上場マーケティング支援企業の求人

求人ID:1500843

更新日:2026/04/02

転職求人情報

職種
AI QA Specialist (LLM Evaluation)
ポジション
AI QA Specialist
おすすめ年齢
20代
30代
40代
50代以上
年収イメージ
〜1400万円
仕事内容
業務概要:
当社は、当グループ会社として設立され、国内外で最先端のAI研究開発を推進しています。
私たちはAIチャットボットの構築にとどまらず、「企業の脳」となる次世代の基幹システムを構築しています。このシステムでは、AIが企業のSaaSツールを統合し、自律的に業務を実行します。自社サービスを中心に、データベースがあれば別のアプリケーションは不要で、AIが作業を行い結果のみを返す世界を実現しています。
AIの変革力により、新たな価値を創造し、社会全体の発展に貢献することを目指しています。

具体的な業務:
AIエージェントの出力品質は、企業の業務に直結します。「なんとなく動く」では許されません。
自社サービスが「企業の脳」として、承認ワークフロー、リソース配分、見込み客発見などのタスクを自律的に実行する世界では、AIの誤った出力は、却下されるべき承認が通ったり、不適切な人員配置が行われたり、不適切な顧客にアプローチしたりすることを意味します。「企業の脳」が信頼されるためには、生成される応答の正確性、安全性、一貫性を科学的に評価し保証するシステムが不可欠です。
当社は、多くの企業で本番稼働しているAIエージェントの品質を科学的に保証するため、自動評価パイプライン、レッドチーム、統計的実験計画に基づいた品質保証フレームワークを構築するAI QA Specialistを募集しています。

ミッション: 「エージェントの出力品質を科学的に評価し、保証する。」
科学的な手法を用いてAIエージェントの出力品質を評価し、保証します。自動評価、レッドチーム、安全性検証、回帰検出のためのシステムを構築し、「品質の科学」アプローチを通じて、多くの企業で本番稼働している製品の品質を確保します。

役割と期待:
AI QA Specialistとして、AIエージェントの品質評価インフラの設計、構築、運用を主導します。
1. 評価指標の選定と設計から、CI/CDへの自動評価パイプラインの統合まで、プロセス全体を主導します。
2. リリース前の安全リスクを検出するためのレッドチームを計画・実行します。
3. 統計的実験計画に基づいたA/Bテスト分析を通じて、品質改善の有効性を定量的に検証します。
4. 評価シグナルを研究開発チームにフィードバックし、モデル改善のための複利ループを構築します。
5. 「品質の科学」アプローチを通じて、多くの企業で本番稼働している製品の品質を確保します。

具体的な業務内容:
* 評価インフラの設計・開発: 評価セット(合成データ + 実ログ)の設計、構築、保守。評価指標(勝率、タスク成功率、事実性、有害性検出)の選定と設計。自動評価パイプラインの構築とCI/CDへの統合。エージェントハーネス(マルチターン、ツール利用、長文コンテキスト対応)の設計。
* 安全性・品質検証: レッドチーム(敵対的テスト)の計画と実行。安全性およびポリシー準拠検証フレームワークの構築。プロンプト/ツール回帰テストの設計と実行。ハルシネーション、バイアス、出力品質に関連する問題の分析と改善。
* 統計分析・レポート作成: 統計実験(A/Bテスト、有意性検定)の設計と分析。品質レポートと改善提案の作成。回帰検出と品質トレンドの可視化。評価シグナルを研究開発チームにフィードバック。

業務シナリオ例:
1. 新モデル導入時の品質ゲート: LLMプロバイダーが新モデルをリリース。既存の評価セットに対して回帰テストを実行し、事実性スコアが低下していることを検出。根本原因を分析し、プロンプトを調整し、品質を維持しながら新モデルへの移行を完了。
2. 企業顧客向け安全性検証: 金融機関向けに自社サービスを導入する際、業界固有のレッドチームシナリオ(機密情報漏洩、不適切な金融アドバイスなど)を設計・実行。ポリシー準拠を達成し、顧客のセキュリティレビューに合格。
3. プロンプト最適化を検証するA/Bテスト: エージェント応答品質を改善するため、2つのプロンプト戦略をA/Bテストで比較。統計的有意性検定により、新しいプロンプトがタスク成功率を向上させることを実証し、本番環境への展開を決定。

主要成果指標 (KR/Metrics):
* 評価カバレッジ率(テストケースカバレッジ)
* 回帰検出率(リリース前の品質劣化検出率)
* 評価パイプライン実行時間(CI/CD内で完了)
* 偽陽性 / 偽陰性率
* 安全性インシデント率(リリース後)

ポジション・部門の魅力:
この役割の魅力:
* 品質が製品の信頼を決定する 多くの企業で利用される本番環境において、あなたが構築する評価インフラはリリース品質の最後の砦となります。品質保証のビジネスへの直接的な影響を感じることができます。
* グリーンフィールドポジション AIエージェントQAという全く新しい専門領域をゼロから設計・構築します。
* 科学的アプローチ 従来のQAとは異なり、統計、実験計画、NLP評価手法を用いた知的な厳密さが求められます。
* 製品品質の守護者 リリース前の品質劣化検出率を目標に、全製品の品質をサポートします。
* AI安全の最前線 レッドチーム、敵対的テスト、ポリシー準拠検証を含む責任あるAIプラクティスに従事します。
* 急成長環境 成長したスタートアップで、技術的な意思決定において大きな裁量を持つことができます。

チーム体制:
開発組織には多くのメンバーが所属しています。AI QA Specialistは、専任の品質保証機能として、以下のチームと密接に連携します。
* Agentic Product Engineer エージェント機能開発
* Research Engineer 研究開発、モデル改善
* Agent Harness Engineer / Software Engineer (AI Platform) AI実行インフラ開発
* Product Manager 製品設計と品質要件定義
必要スキル
【必須スキル】
* コンピュータサイエンス、ソフトウェアエンジニアリング、人工知能、機械学習、数学、物理学、または関連分野での学士号または同等の実務経験
* ソフトウェアエンジニアまたはQAエンジニアとしての実務経験
* LLM / 生成AI評価手法(プロンプト評価、定量的出力品質測定、ハルシネーション検出など)の知識
* 統計学および実験計画法の基礎知識
* Pythonでの評価パイプライン構築経験
* CI/CDパイプラインへのテスト統合経験
* プロンプト/ツール回帰テストの設計経験
* 語学要件(以下のいずれか):
* 日本語: 流暢 製品開発について円滑に議論できるレベル
* 英語: ビジネスレベル

【歓迎スキル】
* NLP / ML評価ベンチマーク設計経験
* AI安全 / 責任あるAIの知識
* レッドチーム / 侵入テスト経験
* マルチエージェントワークフロー、ツール利用、長文コンテキストシナリオの評価経験
* 大規模データ処理経験(Spark / BigQueryなど)
* 研究論文を読み、理解し、再現する能力
* 英語での技術コミュニケーション能力

【求める人物像】
就業場所
就業形態
正社員
企業名
上場マーケティング支援企業
企業概要
企業の収益拡大・生産性向上など様々な課題解決につながるソリューションを開発・提供するマーケティングテクノロジーカンパニー
企業PR
アドテクノロジー/デジタルマーケティングの領域において、最先端のテクノロジーを活用し、顧客企業様の収益最大化に役立つプロダクトを独自開発。中でも、WEBメディアやスマートフォンアプリの広告枠に対し、アクセスしたユーザの分析を行い、最適な広告をリアルタイムのオークション形式で届ける、プラットフォーム事業に注力しています。
業務カテゴリ
組織カテゴリ
備考
関連キーワード
応募ありがとうございました。コンサルタントからご連絡します
応募出来ませんでした。恐れ入りますがもう一度やり直してください
気になるに登録しました
気になるに登録出来ませんでした。恐れ入りますがもう一度やり直してください