【大阪】大手インターネットグループでのデータサイエンティスト(バイオインフォマティクス)の求人
求人ID:1361972
募集終了
転職求人情報
職種
データサイエンティスト(バイオインフォマティクス)
ポジション
担当者〜
おすすめ年齢
20代
30代
40代
50代以上
年収イメージ
900万円〜1,100万円 ※経験・能力を考慮の上、当社規定により決定します
仕事内容
配属先部門は、当社グループの事業領域で力を入れているスタートアップやグループ横断のプロジェクトにおいて、技術支援・開発・解析などを行い、ビジネスの成功を支援する部署です。
その中にAI研究開発室があり、データ解析やAIに関する支援を行っています。また、最新のテクノロジーを常に研究開発し、いち早くビジネスに投入し結果に繋げます。
東京大学医科学研究所様との老化細胞の共同研究のプロジェクトに参加していただきます。
・バイオインフォマティクス(ドライ解析)でホットなシングルセル解析の分野において、今もっとも注目されている研究の1つである「老化細胞」の最先端の研究
・最新の生成AIの基盤モデル(Foundation Model)や様々な機械学習を応用し、且つデータやAIモデルの本質を深く掘り下げて、老化細胞の遺伝子に関するメカニズムを解き明かす研究
また、AI研究開発室ではビジネスの様々なプロジェクトも行っており、共同研究をやりながらもしくはその後に他のプロジェクトに参加して、実績に応じて希望のキャリアを積むことが可能です。
●フィンテック(Fintech)のプロジェクト
当社グループが展開する金融サービスの本質を理解し、数理モデルや機械学習などのデータサイエンス技術を駆使しながら、予測が難しい金融データをうまく扱って収益を改善させます。
●アドテク(Adtech)のプロジェクト
インターネット広告の主な仕組みの一つであるRTB(リアルタイム入札)において、広告出稿する側の費用対効果を最適化するDSP(Demand-Side Platform)の機械学習モデルの設計開発、効果測定などをメインに行います。
●アプリのプロジェクト
フリーWiFi接続を容易にするアプリの新機能や施策の効果測定を因果推論の技術を駆使して行い、データドリブンに経営判断するための仕組みを整えて、サービスのKPIを改善させます。
●その他のプロジェクト
暗号資産取引、不正検知などに関して、データ解析や機械学習の技術を応用して支援します。
【研究開発業務】
・プロジェクト業務を行いながら、一定の時間、全員で最先端の機械学習手法や新たな機械学習の応用を研究します。
・さらに四半期ごとに選任されたメンバーは重点的に研究開発を行います。
【ポジションの魅力】
・生物学の最先端の1つである老化細胞と、最先端のAI技術を駆使する非常にチャレンジングな研究に関わることができ、人類の未知のメカニズム解明に貢献できます
・最先端の機械学習・深層学習・統計手法などを常に学べます
・重要な3つのスキル(課題解決・データサイエンス・エンジニアリング)を身につけ、一つ以上強みを大きく伸ばせます。
・別のプロジェクトを担当する部署のデータサイエンティストと勉強会などで交流する機会も多く、データサイエンススキルを高められます
・グループCTO直轄の部署であり、技術の選定は現場に一任されているため、最先端の技術を自ら検証・導入することができます
・本人の実績と意欲に応じて、チームの重点テーマについて自由に研究開発する業務に挑戦することができます
また、老化細胞の共同研究以外のプロジェクトに関わる場合は以下の魅力があります。
・当社グループの多岐に渡るサービスについて、データ解析およびAI技術によって様々な課題を解決するプロジェクトをゼロから立ち上げる機会があります
・世界No.1規模の金融データや、数百テラバイト規模のアドテクデータなど様々な領域のデータを直接扱うことができ、ビッグデータを解析する技術(BigQuery・PySparkなど)も習得できます
・時系列データ、ユーザー行動データ、記事といった様々な種類のデータを解析することができます
・全て自社サービスのため、事業部と一緒に自ら課題を設定し解決方法を考え、データサイエンスに基づいた改善サイクルを行うことができます
・アカデミックな分野で活躍してきた博士やエンジニア出身者などでチームが構成され、多様性のあるチームです
【利用技術】
●解析手法
シングルセルRNA解析、遺伝子発現解析
◇機械学習:
Transformer系(大規模言語モデル、シングルセル生成AIモデル他)、グラフニューラルネットワーク(GNN)、多層パーセプトロン(MLP)、アンサンブル学習/勾配ブースティング(Gradient Boost Tree + LR, Random Forest, ExtraTree , Ada Boost, XGBoost, LightGBM)、PCA、FP-Growth、Word2Vec、Doc2Vec、協調フィルタリング、ベイズ推定、HMMモデル(隠れマルコフモデル)
◇統計分析:
t検定、カイ二乗検定、F検定、二項検定、コルモゴロフ・スミルノフ検定、シャピロウィルク検定、サンプリング(MCMC,ブートストラップ法など)、分散分析、因果推論(差分の差分法など)
●開発技術/環境
プログラミング/フレームワーク
R、Python、PyData(numpy、scipy、pandasなど)、Streamlit
PyTorch、TensorFlow、LangChain、Spark(PySpark)
クラウド/オンプレ(ミドルウェア)
SHIROKANE
GPUワークステーション
Google Cloud(GCS、BigQuery、VertexAI、Dataflowなど)
AWS(S3、Athena、EMR/Serverless、StepFunction、SageMaker、Bedrockなど)
MySQL、MariaDB、Percona Server、PostgreSQL、Galera Cluster、Oracle、Hive、Hadoop/HDFS
ConoHa(GPUサーバー)
大規模言語モデル(LLM)関連
OpenAI API、Llama3、LangChain、HuggingFace
その中にAI研究開発室があり、データ解析やAIに関する支援を行っています。また、最新のテクノロジーを常に研究開発し、いち早くビジネスに投入し結果に繋げます。
東京大学医科学研究所様との老化細胞の共同研究のプロジェクトに参加していただきます。
・バイオインフォマティクス(ドライ解析)でホットなシングルセル解析の分野において、今もっとも注目されている研究の1つである「老化細胞」の最先端の研究
・最新の生成AIの基盤モデル(Foundation Model)や様々な機械学習を応用し、且つデータやAIモデルの本質を深く掘り下げて、老化細胞の遺伝子に関するメカニズムを解き明かす研究
また、AI研究開発室ではビジネスの様々なプロジェクトも行っており、共同研究をやりながらもしくはその後に他のプロジェクトに参加して、実績に応じて希望のキャリアを積むことが可能です。
●フィンテック(Fintech)のプロジェクト
当社グループが展開する金融サービスの本質を理解し、数理モデルや機械学習などのデータサイエンス技術を駆使しながら、予測が難しい金融データをうまく扱って収益を改善させます。
●アドテク(Adtech)のプロジェクト
インターネット広告の主な仕組みの一つであるRTB(リアルタイム入札)において、広告出稿する側の費用対効果を最適化するDSP(Demand-Side Platform)の機械学習モデルの設計開発、効果測定などをメインに行います。
●アプリのプロジェクト
フリーWiFi接続を容易にするアプリの新機能や施策の効果測定を因果推論の技術を駆使して行い、データドリブンに経営判断するための仕組みを整えて、サービスのKPIを改善させます。
●その他のプロジェクト
暗号資産取引、不正検知などに関して、データ解析や機械学習の技術を応用して支援します。
【研究開発業務】
・プロジェクト業務を行いながら、一定の時間、全員で最先端の機械学習手法や新たな機械学習の応用を研究します。
・さらに四半期ごとに選任されたメンバーは重点的に研究開発を行います。
【ポジションの魅力】
・生物学の最先端の1つである老化細胞と、最先端のAI技術を駆使する非常にチャレンジングな研究に関わることができ、人類の未知のメカニズム解明に貢献できます
・最先端の機械学習・深層学習・統計手法などを常に学べます
・重要な3つのスキル(課題解決・データサイエンス・エンジニアリング)を身につけ、一つ以上強みを大きく伸ばせます。
・別のプロジェクトを担当する部署のデータサイエンティストと勉強会などで交流する機会も多く、データサイエンススキルを高められます
・グループCTO直轄の部署であり、技術の選定は現場に一任されているため、最先端の技術を自ら検証・導入することができます
・本人の実績と意欲に応じて、チームの重点テーマについて自由に研究開発する業務に挑戦することができます
また、老化細胞の共同研究以外のプロジェクトに関わる場合は以下の魅力があります。
・当社グループの多岐に渡るサービスについて、データ解析およびAI技術によって様々な課題を解決するプロジェクトをゼロから立ち上げる機会があります
・世界No.1規模の金融データや、数百テラバイト規模のアドテクデータなど様々な領域のデータを直接扱うことができ、ビッグデータを解析する技術(BigQuery・PySparkなど)も習得できます
・時系列データ、ユーザー行動データ、記事といった様々な種類のデータを解析することができます
・全て自社サービスのため、事業部と一緒に自ら課題を設定し解決方法を考え、データサイエンスに基づいた改善サイクルを行うことができます
・アカデミックな分野で活躍してきた博士やエンジニア出身者などでチームが構成され、多様性のあるチームです
【利用技術】
●解析手法
シングルセルRNA解析、遺伝子発現解析
◇機械学習:
Transformer系(大規模言語モデル、シングルセル生成AIモデル他)、グラフニューラルネットワーク(GNN)、多層パーセプトロン(MLP)、アンサンブル学習/勾配ブースティング(Gradient Boost Tree + LR, Random Forest, ExtraTree , Ada Boost, XGBoost, LightGBM)、PCA、FP-Growth、Word2Vec、Doc2Vec、協調フィルタリング、ベイズ推定、HMMモデル(隠れマルコフモデル)
◇統計分析:
t検定、カイ二乗検定、F検定、二項検定、コルモゴロフ・スミルノフ検定、シャピロウィルク検定、サンプリング(MCMC,ブートストラップ法など)、分散分析、因果推論(差分の差分法など)
●開発技術/環境
プログラミング/フレームワーク
R、Python、PyData(numpy、scipy、pandasなど)、Streamlit
PyTorch、TensorFlow、LangChain、Spark(PySpark)
クラウド/オンプレ(ミドルウェア)
SHIROKANE
GPUワークステーション
Google Cloud(GCS、BigQuery、VertexAI、Dataflowなど)
AWS(S3、Athena、EMR/Serverless、StepFunction、SageMaker、Bedrockなど)
MySQL、MariaDB、Percona Server、PostgreSQL、Galera Cluster、Oracle、Hive、Hadoop/HDFS
ConoHa(GPUサーバー)
大規模言語モデル(LLM)関連
OpenAI API、Llama3、LangChain、HuggingFace
必要スキル
【必須スキル/経験】
以下をすべて満たした方
・バイオインフォマティクス(ドライ解析)の研究経験がある
・博士号を取得している
・機械学習・深層学習の知識がある
・RかPythonが書ける
【歓迎スキル/経験】
・生物学的なウェット実験の研究経験がある
【求める人物像】
・手法ありきではなく、ビジネス課題解決のためにあらゆるアプローチを考えて最適なやり方を見出すことが好きな方
・どんなことにも興味をもち、情熱をもって新しい技術、新しい業務にチャレンジできる方
・一人では到底できない大きな成果をチームで目指せる方
・データや結果を鵜呑みにしないで、常にクリティカルシンキングを行える方
以下をすべて満たした方
・バイオインフォマティクス(ドライ解析)の研究経験がある
・博士号を取得している
・機械学習・深層学習の知識がある
・RかPythonが書ける
【歓迎スキル/経験】
・生物学的なウェット実験の研究経験がある
【求める人物像】
・手法ありきではなく、ビジネス課題解決のためにあらゆるアプローチを考えて最適なやり方を見出すことが好きな方
・どんなことにも興味をもち、情熱をもって新しい技術、新しい業務にチャレンジできる方
・一人では到底できない大きな成果をチームで目指せる方
・データや結果を鵜呑みにしないで、常にクリティカルシンキングを行える方
就業場所
就業形態
正社員
企業名
大手インターネットグループ
企業概要
インターネットインフラ事業
インターネット広告・メディア事業
インターネット証券事業
モバイルエンターテイメント事業
インターネット広告・メディア事業
インターネット証券事業
モバイルエンターテイメント事業