AIモデルが制御ゲノムの汎用「言語」を学習し、細胞のストーリーを予測
研究概要
研究タイトル: 細胞タイプに依存しない制御予測のためのマルチモーダルトランスフォーマー
掲載誌: Cell Genomics誌、2025年1月29日
著者(ダナファーバーがん研究所): Bradley Bernstein医学博士
概要: ダナファーバーがん研究所、MIT・ハーバード大学ブロード研究所、Google、コロンビア大学の研究者チームが、あらゆる種類のヒト細胞でどの遺伝子が発現しているかを予測できる人工知能モデルを作成した。EpiBERTと呼ばれるこのモデルは、人間のような言語を理解して生成するように設計されたディープラーニングモデルであるBERTにヒントを得ている。EpiBERTは、複数のフェーズにある数百種類のヒト細胞からのデータで学習した。30億塩基対の長さのゲノム配列と、どの配列が染色体からほどかれて細胞に読み取られるかを示すクロマチンアクセシビリティのマップが入力された。このモデルはまず、特定の細胞タイプのゲノムの大きな部分にわたるDNA配列とクロマチンアクセシビリティの関係を学習するように訓練された。次に、学習したこれらの関係を使用して、対応する細胞タイプでどの遺伝子が活性であるかを予測する。このモデルは、転写因子によって認識されるゲノムの一部である制御要素と、それが多くの細胞タイプにわたる遺伝子発現に与える影響を正確に特定し、汎化可能かつ予測可能な「文法」を構築した。この文法構築プロセスは、ChatGPT などの大規模な言語モデルが多数のテキスト例から意味のある文章や段落を構築することを学習する方法に似ている。EpiBERTモデルは、アクセシビリティを処理し、これまでに見たことのない細胞タイプの機能的塩基とRNA発現を予測できる。
意義: 体内のすべての細胞は同じゲノム配列を持っているため、2種類の細胞の違いはゲノム内の遺伝子ではなく、どの遺伝子がいつ、どの程度、活性化するかである。制御要素に関わるゲノムコードの約20%によって、活性化する遺伝子が決まるが、それらのコードがゲノム内のどこにあるか、その指示がどのようになっているか、変異が細胞内の機能にどのように影響するかについてはほとんどわかっていない。EpiBERTは、細胞内で遺伝子がどのように制御されているか、さらには、そうした細胞の制御システムがいかに変異してがんなどの疾患につながるのかについて解明に役立つ可能性もある。
資金提供: ブロード研究所、ノボ ノルディスク財団、国立ゲノム研究所、シャーフ グリーン がん研究基金、リチャード・ナンシー・ルービン家、米国がん協会。Tensor Processing Unit (TPU) へのアクセスとサポートは Google 提供。
- 監修 高光恵美(生化学、遺伝子解析)
- 記事担当者 山田登志子
- 原文を見る
- 原文掲載日 2025/01/29
【免責事項】
当サイトの記事は情報提供を目的として掲載しています。
翻訳内容や治療を特定の人に推奨または保証するものではありません。
ボランティア翻訳ならびに自動翻訳による誤訳により発生した結果について一切責任はとれません。
ご自身の疾患に適用されるかどうかは必ず主治医にご相談ください。
がん研究に関連する記事
欧州臨床腫瘍学会(ESMOアジア2024)ハイライト
2024年12月20日
前がん状態と腫瘍の生物学の手がかりを探すNIH研究
2024年11月3日
プロトコル例外適用で標的治療試験に参加した患者の転帰は適格参加者と同様
2024年9月19日
臨床試験における全生存期間(OS)解析の考察:米国AACR、ASA、FDAによる概説
2024年8月22日