次世代シークエンサーデータ解析統合パッケージ
NextGENe
SoftGenetics社の「NextGENe」は、Illumina、Roche454に加え、ABI SOLiD color-spaceデータにも対応し、これらのデータによって可能な、de novoアッセンブリ、SNP/Indel探索、ChIP-Seq、トランスクリプトーム解析など、ほとんど全ての解析を、デスクトップPCのユーザーフレンドリーな完全GUI環境で実現します。
1.可能な解析
- de novoアッセンブル
- SNP/Indel探索
- ChIP-Seq解析
- Digital Gene Expression (SAGE Analysis)
- トランスクリプトーム解析
- Small RNA 解析と定量
- Deep Sequencing 解析
- Barcode/Index tagsを利用した複数サンプル同時解析
2.NextGENeの画面のワークフローの例
1)プラットフォーム&アプリケーションタイプ選択

↓
2)フォーマット変換

↓
3)ファイル入力・出力先指定

↓
4)「Condensation」設定

↓
5)アラインメント設定

↓
6)後は「OK」を押すだけ!バッチ処理も可能

この図に示すように、NextGENeは、わずらわしいコンピュータや言語などの知識がなくとも、ほとんど該当箇所をクリックして行くだけで、誰にでも次世代シークエンサーデータの解析、データマイニングが出来ます。
3.ユニークな機能の特徴
- A) 「Condensation Tool」
- 次世代シークエンサーはサンガー法とは比較にならないほどのデータを短時間、低コストで産出する反面、リード(シークエンスの最小単位)の長さが短く、またベースコールのクオリティに問題があるなどの短所も指摘されております。
NextGENeでは、これらの問題を解決するため、全く新しい発想に基づいたリード長延長&クオリティコントロールモジュール「Condensation Tool」を標準で組み込み、リシークエンスはもとよりde novoアッセンブルでも、false positiveを出来るだけ抑えた、正確な解析結果が期待できます。
また、NextGENeはシークエンサーデータの入力ファイルをfasta形式に統一しており、各シークエンサーからの出力は、標準装備の「Format Conversion Tool」でfasta形式にコンバートします。このツールにもフィルターが装備されており、解析にかける前にクオリティの低いリードを排除することが出来、結果の信頼性をさらに高めます。

Condensation Toolはまず指標としてユニークな12塩基を持ったアンカーシークエンスを用意し、この配列を含むリードを集めます。次にその共通アンカー配列の上流数塩基と下流数塩基を比較し、その異同でクラスタリングを行い、相同な配列を持ったリード群に分けます。それらの群に所属するリードをアンカーを中心に並べコンセンサスを取れば、それはオリジナルのDNA配列を反映したシークエンスとなり、結果的にリードの長さを1.5倍以上に伸ばしたことになります。この過程を繰り返すことで、倍倍ゲーム式にリード長を伸ばすことも可能です。
上記過程において、Condensation Toolはcoverageの深さと一般的にリード塩基のQVが5’側で高く3’側で低い傾向を考慮して重みをつけて判断材料にした統計処理により、多数のマシン由来のエラーを除去します。その結果得られるコンセンサスはアレル頻度の情報を残したまま、そのクオリティは顕著に増加し、全ての下流解析の精度を高めます。この機能をSoftGenetics社では「Statistically Polishing」と呼んでおり、NextGENeのみの大きな特長になっています。
さらに「Condensation Tool」は後述のように、Paired-end(mate-pair)情報を残すことが出来るので、de novoアッセンブルにおいてde Bruijn法と組み合わせることが可能で、コンティグの品質を大幅に向上させます。またRoche454データの弱点であるホモポリマーに由来するエラーを修正する機能も搭載しています。
- B) 「Format Convertsion Tool」
- NextGENeは、複数のプラットフォームから出力される様々なフォーマットの形式に対応するため、リードまたはタグ入力はfasta形式(SOLiDはcsfasta形式も可能)に統一し、各種フォーマットをfasta形式に変換するツールを用意しています。

上図の様に、このコンバートの段階でもQVによるリード選別が出来、解析の信頼性をさらに高めることが出来ます。また、paired-endあるいはmate-pairの情報は保持されます。
また、レファレンス配列については、fasta形式の他、アノテーションの付いたGenBank形式もそのまま入力可能です。
4.各機能のビュー
A) de novoアッセンブル
上図に示すとおり、1)De Bruijn Graphを用いた方法、2)SoftGenetics社独自のMethod II、3)454のシングルリードに特化したアッセンブラー2種、の4種から、方法を選ぶことが出来ます。
1)のde Bruijn法はフリーソフト「Velvet」が採用している方法として有名ですが、paired-endあるいはmate-pairデータのアッセンブルに特に威力を発揮します。NextGENeのde Bruijn法は「Velvet」と同じではなく独自のエンハンスが施されており、下図に示すとおり圧倒的なde novoアッセンブル結果を産出します。


de Bruijn法を用いる時は基本的に「Condensation Tool」を必要としませんがが、最新バージョンではpaired-endあるいはmate-pair情報を残したまま、Condenseすることができますので、組み合わせることも可能です。
2)のMethod IIはCondensation Toolと組み合わせて、主にシングルリードのアッセンブルに用いることが出来ます。
3)では、Roche454のシングルリードのde novoアッセンブルが可能で、「Condensation Tool」と組み合わせることにより、ホモポリマーによるエラーを大幅に減らすことが出来ます。
また目的により、2つのタイプのアッセンブル法を選択できます。
作成されたcontigは、fasta形式で出力される他、Alignment Toolにより各リードのアッセンブル状況を見ることが可能です。
B) SNP/Indel探索
リードまたはタグは「Condensation Tool」でゲノム上でユニークにマップされる長さまで延長され、前述の様にクオリティを高めた後、自動的に「Alignment Tool」に導入され、デフォルトではBLATのアルゴリズムにてレファレンスに対してマッピングを行い、SNPとmicroIndelを自動的に検出し出力します。
特にSOLiDの場合はレファレンスシークエンスはcolor-spaceに変換され、color-space上で比較が行われますので、SOLiDの持つ変異検出力をそのまま利用できます。
また上述の様にレファレンスにはfastaフォーマットの他、GenBankフォーマットも直接入力することが可能で、付随する既知のアノテーションが表示可能です。
さらに、表示画面には翻訳後のアミノ酸配列も表示され、DNA変異によるタンパク質レベルの変異を同時に見ることが出来ます。
NextGENeは、Illumina、SOLiD、Roche454のリード(タグ)について、それぞれのプラットフォームに最適なアラインメントで、正確な変異を検出することが出来ます。
a)特長
・SNP検出において99%の正確性
・30bpまで表示可能のIndel検出
・容易なアノテーション
・ゲノム中の容易な移動
・塩基およびアミノ酸変異の素早い表示
・dbSNP、NCBIデータベースへ素早いリンク
・翻訳後のアミノ酸を表示可
・他のソフト用への容易なエクスポート
・コンセンサス配列表示と変異一覧レポート作成
b)画面
SOLiDの場合、color-spaceと変換した塩基配列が同時に表示されます。
左図は10塩基のdeletionを検出した画面、右図はA→GのSNPを検出した画面です。
最上段の灰色のグラフは、coverageを示します。
検出された変異は上図の様にレポートとして表示されます。
各列は、インデックス、レファレンス上の位置、レファレンスの塩基、coverage、ATGCそれぞれのパーセンテージ、Indelのパーセンテ-ジ、dbSNP情報、ジェノタイプ、変異の実際、遺伝子領域の場合はアミノ酸変異まで表示し、変異の確定を助けます。
パープルで表示されているのはdbSNPデータベースにある既知のSNPであることを示します。ここをダブルクリックすることで、NCBIのウェッブサイトへダイレクトに飛ぶことが出来ます。
青で示されているのは、新規SNP、Indelです。
また、これらの全ての項目は編集が可能で、この表はタブ区切りファイルに出力でき、Excel等で編集することも可能です。
C) ChIP-Seq解析
ChIP-Seqはクロマチン免疫沈降法とDNAシークエンシングを組み合わせた、各種転写因子や修飾ヒストンに代表されるDNA-タンパク結合部位の検出、もしくはメチル化などDNA直接修飾部位検出に威力を発揮する方法です。
低コスト短時間で大量のシークエンスデータを産出する次世代シークエンサーを利用することにより、類似の解析法であるChIP-Chip法1回分のコストと時間で、ゲノム全体にわたる結果を得ることが出来ます。
また、ChIP-Chip法に付きまとうハイブリダイゼーションに伴う問題を回避出来るのでより特異性が高まり、さらにデータ量の多さから、非常にS/N比の高いデータが得ることが可能です。
データとレファレンスを入力後、デフォルトではリードの信頼性とマッピングの特異性を高めるため「Condensation Tool」がオンになっていますが、これを省略して生データをそのままアラインメントすることも可能です。
また、1回目の解析では、ピーク(ゲノム上のタンパク結合部位に相当)をどのように決めるかは「NextGENe」が自動的に決めますが、その後上図に示すようにどのような条件でピークとするかをマニュアルで決めることも出来ます。
解析結果は、上図の様に非常に明瞭にわかりやすく表示されます。
上段のcoverageグラフ上の茶色の横線は、あらかじめ決められた条件に合致するピーク、即ちタンパク結合部位を示します。
下段では実際のリードがどのように並んでいるかが一目で分かります。
各ピークの情報は上図のようなテーブルにまとめられます。
染色体上の位置や遺伝子の位置、coverage、実際のDNA配列などが表示され、結果の確認が出来ます。
各カラムの値によるソートや表の保存も可能です。
D) Digital Gene Expression (SAGE Analysis)
現在、遺伝子発現解析はマイクロアレイが主流ですが、ハイブリダイズを基本とし蛍光強度を発現量とすると言ったアナログベースの方法で、クロスハイブリなどアーティファクトやノイズが入りやすく、その克服がいまだ完全でないと言う欠点があります。
ほぼ同時期に開発されたSAGE(Serial Analysis of Gene Expression)法は、同じ発現解析でもmRNA(cDNA)の部分配列(tag)を直接シークエンシングして、検出されたシークエンスをカウントしてその数を発現値とする、と言う点で、アナログの入る余地がないので、ノイズの少ないクリアで信頼性が高く、なおかつマイクロアレイでは原理的に検出不可能な未知のmRNAをも検出できる優れた方法です。しかし従来は実際にシークエンスできる量やコストに問題がありました。
次世代シークエンサーはまさにこの問題を解決する機器で、その短時間で圧倒的な出力データ量から、SAGE法やその改良法が事実上限られた数の遺伝子発現しか解析できなかったのに対し、低コストでマイクロアレイと同様なゲノムワイドな解析が可能になりました。この方法を「Digital Gene Expression(DGE)」と呼んでいます。
NextGENeは、既存のSAGE tagレファレンスライブラリを利用して、ゲノムワイドにこのDGE解析を可能にすると共に、新規遺伝子発現産物の検出にも利用できます。
結果は上図の様に表示されます。
上段が「 Whole Genome View」で、レファレンスライブラリの区域とマップされたシークエンスリードのcoverageをゲノムワイドに表示します。
ライブラリの上にカーソルを置くと、図の黄色の部分の様に対応する遺伝子のアノテーションが表示されます。
下段は「Alignment View」で、レファレンスのDNA配列と実際にマップされたリードをその塩基配列と共に表示します。
使用されるリードはフォワードとリヴァースが自動判別され、フォワードのみ使用されます。
また、機械由来のリードのエラーも取り除くことが出来ます。
さらに結果は上記の様に表で出力されます。
これには、遺伝子名、tagの塩基配列、マップされたリードの数、遺伝子の曖昧度数(Gene Ambiguites)などが表示されます。
1つのSAGEライブラリの中には同じtagに同定される複数の遺伝子が含まれることがあります。
その情報を追跡したものが遺伝子の曖昧度数です。
ライブラリにない新規の発現物は、最小値を設定することによりその値を超える値を示す全てのリードを集め、レファレンスの最後に追加し、これを「新規遺伝子」とします。
さらに、同様のプロジェクトを比較したレポートや、マップされなかったリードのリストを出力することも出来ます。
もちろん、Illuminaの他、Roche454、SOLiD color-spaceにも対応しています。
E) トランスクリプトーム解析
NextGENeは上記Digital Gene Expression解析の他に、転写産物を総合的に解析する独立したトランスクリプトーム解析ワークフローを装備しております。
次世代シークエンサーから産出される大量のデータからのある生物のトランスクリプトーム解析では、SNPsやIndelによる高い割合の配列変異や、1つの解析の中で1つの遺伝子から複数の転写産物が見られる場合がしばしばあること、また発現レベルが遺伝子によって大きく変動するなどの問題があります。
またリードが短い場合、レファレンスに対してユニークにマップされず、アイソフォーム間での曖昧性の原因になったり正確なマッピングが難しくなります。
さらに高い発現レベルの遺伝子がある場合、低い発現レベルの遺伝子をノイズとしてマスクしてしまう恐れもあります。
例えば、母親由来と父親由来の遺伝子の発現レベルのバランスが悪いと、データにSNPsやIndelが含まれていても捨てられてしまい、計測するのが難しくなります。
NextGENeでは、Illumian、Roche454、SOLiDの各プラットフォームにおいて「Condensation Tool」によりこれら根源的問題を解決し、より信頼性の高い結果を得る事が可能です。
また低い発現レベルの遺伝子も、一回の解析後もう一度スキャンしマッピングを行うことでより高い精度での検出が可能です。
さらに、SNPs/Indelにより区別される複数のアレル間の発現レベルの割合も正確に評価できます。
上図は全体的な結果の一部です。
X軸がゲノム上の位置、Y軸がマップされたリード数、よって灰色の部分が領域のcoverageを示します。
ピンクで示した領域は、ユーザーがセットした境界値以下だった領域を示します。
下の表はこれら低いcoverage領域の情報です。
これら低いcoverageの領域は保存可能で、PCRが失敗したかもしれない、あるいは長大なIndelが検出された領域を示すのに有用です。
トランスクリプトームとリードの間に高い割合の変異がある場合でも、上図の様に変異部位を青で示しながらレファレンスにマップすることが可能です。
またこれらは編集やエクスポートが可能です。
F) Small RNA 解析と定量
周知の様にタンパク質をコードせず、以前は「ジャンク」と呼ばれていたDNA領域のほとんどが実際にはRNAに転写され、そのRNA自体が転写制御などの機能を持っていることが明らかにされたことは、遺伝子発現制御分野のみならず生物学研究全体に大きな衝撃を与えました。
microRNAに代表されるそのような機能RNA分子は一般に十数~数十塩基と短いので small RNAと総称され、様々な疾患に関与していることが予想されるため、新規のsmall RNA探索が急務となっており、この分野でも次世代シークエンサーは威力を発揮します。
NextGENeにおいてsmall RNA探索を行うには、「Application Type」の「Transcriptome」を用います。
ここでまず、その生物種の全てのRNAについて、その全ゲノムDNA配列をレファレンスとして、small RNA探索に適した条件下で「Transcriptome」解析を実行します。
その結果、リードのカヴァレッジの高かったゲノム上の領域を「Transcript」領域として一旦保存します。
ここで示された領域が、Small RNAをコードする領域とみなします。
Small RNAの定量はこの「Transcript」領域をレファレンスとして、計量したいサンプルRNAをシークエンシングしたデータで、再び「Transcriptome」解析を実行します。
その結果、small RNAの領域とリードのcoverage、また実際の塩基配列などが表示されます。
さらに「Expression Report」にて検出されたリード数をカウントして発現量とし、リードの総数が「Transcript」に対してアラインされるようにノーマライズした上で、それぞれの発現量に対してt-testを行い、そのP値によりそれぞれのsmall RNAの発現量の検定を行い、定量します。
具体的には、下図の様に1回目の「Transcriptome」解析で「Peak Identification」の項を「Automatically」ではなく「Manual」に設定し、「Coverage」を「8」に、「Gap」を「0」または「1」にセットして、解析をします。
その結果、下記のような「Alignment View」が表示されます。
レファレンスとコンセンサスの下の茶色の線で示された領域が「Transcript」レファレンス領域となり、small RNAをコードするDNA領域とします。
その他の情報として、青いライン遺伝子の位置、緑のラインはmRNA、金色のラインはタンパク質をコードしている領域を示します。
この例では、遺伝子名「6241476」領域中に2つのsmall RNAがコードされていることを示しています。
この図から下記のような「Peak Identification Report」を表示させます。
この表を保存し、small RNAの定量の際のレファレンスとします。
定量のための新たなサンプルで1回目と同様の解析を行うと、今度は下記のような「Alignment View」が表示されます。
この図から各small RNAの量が上段では灰色のグラフとして、下段では実際のリードとして表示されます。
ここから下記のような「Expression Report」を表示させます。
具体的なリードのカウント数などが表示されますので、複数のサンプルについて同様の定量を行い、その数値を上記のような統計学的手法を用いて検定、比較します。
(この作業はExcelなどを用いた作業になります)
G) Deep Sequencing 解析/Barcode/Index tagsを利用した複数サンプル同時解析
また、プールされたサンプルから、がんなどの疾患関連遺伝子変異を検出したり、体細胞突然変異や薬剤耐性変異など稀な変異を検出できる「Deep Sequencing Analysis (coverage = 5000x - 20000x)」も可能す。さらに一回のランで複数サンプルを同時にシークエンスできる「Barcode/Index Tags」にも対応しておりますので、さらに解析のコストダウンが図れ、小さめサイズのゲノム解析もリーゾナブルに行えます。
システム推奨環境
- Windows XP 64ビット版 またはWindows Vista 64ビット版
(32ビット版でも動作しますが、入力できるファイルサイズが200MBに制限されます) - 32GBのメモリ
- Intel Dual Quad Core (2.4GHz) プロセッサーまたは互換プロセッサー
NextGENe納入実績
- 日本
- 国立遺伝学研究所 生物遺伝資源情報総合センター
東京大学 先端科学技術研究センター
東京大学大学院 医学系研究科
京都大学医学部
琉球大学医学部
横浜市立大学医学部
- 北米
- Ambry Genetics Corporation
ARUP Labs
Beth Israel Deaconess Medical Center
Case Western Reserve University
City of Hope
Colorado State University
Cornell University
Emory University
Iowa State Univ. Baker Center
Johnson & Johnson Pharmaceutical
Mayo Clinic and Foundation
Medical Neurogenetics
Monsanto Company
National Jewish Medical & Research Ctr
NCI Advanced Technology
National Cancer Institute, Advanced Technology Institute
National Cancer Institute Frederick MD
Pennsylvania State University, College of Medicine
Pennsylvania State University, Biology
Pennsylvania State University, Huck Institutes
Quest Diagnostics
UCLA Jules Stein Eye Institute
St Jude Children's Research Hospital
University Health Network - Canada
University of Missouri
University of Pennsylvania
University of Pittsburgh
University of Southern California, Zilkha Neurogenetic Institute
The University of Oklahoma Medical Center
- オーストラリア
- University of Queensland
- カナダ
- Hopital Notre-Dame, Montreal
University of Montreal Hopital Saint Justine
- ヨーロッパ
- Cancer Research UK - United Kingdom
Guy’s and St. Thomas Hospital - United Kingdom
Health Protection Agency - London
Helsinki University Hospital Laboratory - Finland
Institute of Cancer Research - UK
Kings College London - United Kingdom
Max-Planck Institut für Züchtungsforschung - Germany
ServiceXS - The Netherlands
University of Helsinki - Finland
University Hospital Karl Gustav Carus - Germany
University of Wuerzburg - Germany
- インド
- Jawaharlal Nehru University
School of Life Sciences & Information Technology
- 中東
- King Abdullah University of Science & Technology (2)
お問い合わせ
株式会社ネットウエル ライフサイエンス営業部
TEL:03-5368-3459
オンラインでのお問い合わせはお問い合わせフォームから


