薬学部ゲノム病態解析講座の寺尾知可史特任教授(理化学研究所生命医科学研究センター ゲノム解析応用研究チーム チームリーダー、静岡県立総合病院免疫研究部長)らの国際共同研究チームは、ヒトゲノムに数十万個存在するといわれるコピー数多型(CNV)[1]を従来の方法よりはるかに高感度に検出する手法を開発しました。
本研究成果は、現在の技術では遺伝子型決定が困難な遺伝子領域の遺伝的多型とこれに関連する形質への影響の解明につながると期待できます。
今回、国際共同研究チームは、世界で数千万人以上の規模でデータが存在するDNAマイクロアレイ[2](SNP[2]アレイ)のデータを用いて、祖先から継承された染色体の一部(セグメント)によってCNVを検出する「HI-CNV(Haplotype-Informed Copy-Number-Variation)」という手法を確立しました。HI-CNVでは、従来法(PennCNV[3])の6倍以上のCNVを検出しました。また、HI-CNVをUKバイオバンク[4]のデータに適用することで、CNVと56の量的形質[5]との関連を詳細に解析し、97の遺伝子座にわたる269の独立したCNV-形質関連を同定することに成功し、主要な関連を日本人の結果でも確認しました。今後、HI-CNVの枠組みを全エクソームシーケンス[6]データや全ゲノムシーケンス[7]データに拡張することで、DNAマイクロアレイデータでは網羅できなかったCNVの検出が可能になります。
本研究は、科学雑誌『Cell』オンライン版(10月27日付)に掲載されました。
本研究成果は、現在の技術では遺伝子型決定が困難な遺伝子領域の遺伝的多型とこれに関連する形質への影響の解明につながると期待できます。
今回、国際共同研究チームは、世界で数千万人以上の規模でデータが存在するDNAマイクロアレイ[2](SNP[2]アレイ)のデータを用いて、祖先から継承された染色体の一部(セグメント)によってCNVを検出する「HI-CNV(Haplotype-Informed Copy-Number-Variation)」という手法を確立しました。HI-CNVでは、従来法(PennCNV[3])の6倍以上のCNVを検出しました。また、HI-CNVをUKバイオバンク[4]のデータに適用することで、CNVと56の量的形質[5]との関連を詳細に解析し、97の遺伝子座にわたる269の独立したCNV-形質関連を同定することに成功し、主要な関連を日本人の結果でも確認しました。今後、HI-CNVの枠組みを全エクソームシーケンス[6]データや全ゲノムシーケンス[7]データに拡張することで、DNAマイクロアレイデータでは網羅できなかったCNVの検出が可能になります。
本研究は、科学雑誌『Cell』オンライン版(10月27日付)に掲載されました。
背景
ヒトゲノムには、1細胞当たり通常2コピーの遺伝子が存在しますが、遺伝子のコピー数には個人差があり、ある個人によっては1コピーのみ(欠失)あるいは3コピー以上(重複)となり、これを「コピー数多型(CNV)」と呼びます。CNVは、精神神経疾患を含む多くのゲノム疾患の原因となることが知られています。
CNVはタンパク質をコードする遺伝子のコード配列に直接的に影響を及ぼし、タンパク質の機能喪失を引き起こすだけでなく、遺伝子量の増大や制御要素の欠損を引き起こし、間接的にコード配列の発現量、ひいてはタンパク質の発現量に大きく影響を及ぼします。従って、CNVが「形質」に与える影響を調べることは、形質への影響力を持つ新たな変異体を発見し、複雑な形質の遺伝的構造に関する理解を深める可能性を秘めています。
しかし、これまで、十分な検出力を持つフェノムワイドCNV関連解析[8]は、バイオバンク規模のコホート(集団)で利用できる低コストのDNAマイクロアレイから検出される大きなCNV(数十kb以上)の検討に限定されていました。
CNVはタンパク質をコードする遺伝子のコード配列に直接的に影響を及ぼし、タンパク質の機能喪失を引き起こすだけでなく、遺伝子量の増大や制御要素の欠損を引き起こし、間接的にコード配列の発現量、ひいてはタンパク質の発現量に大きく影響を及ぼします。従って、CNVが「形質」に与える影響を調べることは、形質への影響力を持つ新たな変異体を発見し、複雑な形質の遺伝的構造に関する理解を深める可能性を秘めています。
しかし、これまで、十分な検出力を持つフェノムワイドCNV関連解析[8]は、バイオバンク規模のコホート(集団)で利用できる低コストのDNAマイクロアレイから検出される大きなCNV(数十kb以上)の検討に限定されていました。
研究手法と成果
国際共同研究チームは、バイオバンクコホート内のハプロタイプ[9](祖先から継承された染色体)の共有を利用して、より感度の高いCNV検出法「HI-CNV(Haplotype-Informed Copy-Number-Variation)」を開発しました。
まず、Positional Burrows-Wheeler transform(PBWT)と呼ばれるアルゴリズムを用いて、2個体間で対立遺伝子が祖先と同じものを共有する状態のIBD(identity-by-descent)セグメントを迅速に特定し、各ゲノム位置において最も近い「haplotype neighbors」、すなわちコホート内の他のハプロタイプと最も長くマッチするIBDセグメントを特定しました(図1)。次に、個体の遺伝データからCNVが存在する可能性に関する定量的情報と、haplotype neighborsから対応する情報を利用して、共通祖先に由来するハプロタイプ上で共有されたCNVを隠れマルコフモデル[10]を用いて検出しました。
さらに、UKバイオバンクコホートで利用可能なSNPアレイの遺伝子型プローブ強度データにHI-CNVを適用するために、対立遺伝子特異的プローブ強度測定値をコピー数尤度(ゆうど)[11]に関する確率的情報に対応付ける確率的モデルを学習する方法を開発しました。CNV内の遺伝子型プローブは、CNV内にないプローブと比較して、特徴的な強度測定値を生成し、CNVを共有している複数の個体で一貫した偏差が観察されると、シグナルがより明確になることを利用しています。
まず、Positional Burrows-Wheeler transform(PBWT)と呼ばれるアルゴリズムを用いて、2個体間で対立遺伝子が祖先と同じものを共有する状態のIBD(identity-by-descent)セグメントを迅速に特定し、各ゲノム位置において最も近い「haplotype neighbors」、すなわちコホート内の他のハプロタイプと最も長くマッチするIBDセグメントを特定しました(図1)。次に、個体の遺伝データからCNVが存在する可能性に関する定量的情報と、haplotype neighborsから対応する情報を利用して、共通祖先に由来するハプロタイプ上で共有されたCNVを隠れマルコフモデル[10]を用いて検出しました。
さらに、UKバイオバンクコホートで利用可能なSNPアレイの遺伝子型プローブ強度データにHI-CNVを適用するために、対立遺伝子特異的プローブ強度測定値をコピー数尤度(ゆうど)[11]に関する確率的情報に対応付ける確率的モデルを学習する方法を開発しました。CNV内の遺伝子型プローブは、CNV内にないプローブと比較して、特徴的な強度測定値を生成し、CNVを共有している複数の個体で一貫した偏差が観察されると、シグナルがより明確になることを利用しています。
図1 バイオバンクのSNPアレイデータからHI-CNVによりCNVを検出する基本的枠組み
従来のCNVを検出する標準的な手法では、個人ごとに別個にCNVに含まれるSNPの情報(黄色の部分)を用いてCNVを同定していた。これに対し、HI-CNVは、ある個体のSNPアレイデータと長い共有ハプロタイプ(水色の部分)を持つ個体("haplotype neighbors")の対応するデータとを一緒に解析して、CNVの検出率を向上させる。
HI-CNVをUKバイオバンクの登録者45万人に適用した結果、従来法(PennCNV)の6倍以上のCNVを検出しました(図2a)。43人の参加者の全ゲノムシーケンスパイロットデータを用いた検証分析では、HI-CNVの検証率は約91%とPennCNVと同等であり、正確性を保持したまま検出力が向上したことが確認されました(図2b)。さらに、バイオバンク?ジャパン[12]の登録者18万人にHI-CNVを適用したところ検出率は約93%と、UKバイオバンクと同様の性能であることが確認されました。これらHI-CNVの検出感度の上昇は、従来SNPアレイデータでは検出困難でありながら全CNVの大部分を占めていた、10kb以下のCNVに対する検出能力の向上によるものです(図2c)。