ここでは、1)既知および新規のmiRNAをより正確に同定でき、2)完全に自動化され、自由に利用できる新しい完全に自動化されたmiRNAパイプラインmirMachineを紹介します。ユーザーは、短い送信スクリプトを実行して、完全に自動化された mirMachine パイプラインを実行できるようになりました。
さまざまな種類のノンコーディングRNAの中で、マイクロRNA(miRNA)は間違いなく過去10年間で脚光を浴びてきました。遺伝子発現の転写後調節因子として、miRNAは、干ばつや病気などの発生と生物的ストレスへの応答の両方を含む、さまざまな細胞経路で重要な役割を果たします。高品質のリファレンスゲノム配列を持つことで、miRNA配列が高度に保存されているいくつかの植物種におけるmiRNAの同定とアノテーションが可能になりました。計算miRNAの同定とアノテーションのプロセスはほとんどエラーを起こしやすいプロセスであるため、相同性に基づく予測は予測精度を高めます。私たちは、過去10年間でmiRNAアノテーションパイプラインSUmirを開発および改良し、それ以来、いくつかの植物ゲノムに使用されてきました。
この研究では、(i)二次構造予測に追加のフィルタリングステップを追加し、(ii)完全に自動化し、(iii)以前のパイプラインを使用して、相同性に基づく既知のmiRNAまたは低分子RNAシーケンシングリードに基づく新規miRNAのいずれかを予測するための新しいオプションを導入することにより、完全に自動化された新しいmiRNAパイプラインmirMachine(miRNA Machine)を提示します。新しいmiRNAパイプラインmirMachineは、シロイヌナズナ情報リソースTAIR10、 シロイヌナ ズナゲノムのリリース、および国際小麦ゲノムシーケンスコンソーシアム(IWGSC)小麦リファレンスゲノムv2を使用してテストされました。
次世代シーケンシング技術の進歩により、RNAの構造と調節要素の理解が広がり、機能的に重要なノンコーディングRNA(ncRNA)が明らかになりました。さまざまな種類のncRNAの中で、マイクロRNA(miRNA)は、植物において19〜24ヌクレオチドの長さの低分子RNAの基本的な調節クラスを構成します1,2。線虫Caenorhabditis elegans3で最初のmiRNAが発見されて以来、miRNAの存在と機能は動植物ゲノムでも広く研究されてきました4,5,6。miRNAは、切断または翻訳抑制のためにmRNAを標的とすることによって機能します7。証拠の蓄積は、miRNAが成長と発生8、自己生生物発生9、およびいくつかの生物的および非生物的ストレス応答10を含む植物の幅広い生物学的プロセスに関与していることも示しています。
植物では、miRNAは最初にpri-miRNA11と呼ばれる長い一次転写物からプロセシングされます。核内のRNAポリメラーゼIIによって生成されたこれらのpri-miRNAは、不完全なフォールドバック構造を形成する長い転写物である12。pri-miRNAは後に切断プロセスを経て、pre-miRNA11と呼ばれるmiRNAの内因性一本鎖(ss)ヘアピン前駆体を生成します。プレmiRNAはヘアピン様構造を形成し、一本鎖が二本鎖構造に折りたたまれてmiRNA二重鎖(miRNA/miRNA*)を切除します13。ダイサー様タンパク質は、miRNA/miRNA*二重鎖の両鎖を切断し、2ヌクレオチド3′-オーバーハング14,15を残します。miRNA二重鎖は核内でメチル化され、miRNAの3’末端を分解およびウリジル化活性から保護する16,17。ヘリカーゼは、輸出後にメチル化miRNA二重鎖を巻き戻し、成熟miRNAをサイトゾル18中のRNA誘導サイレンシング複合体(RISC)に曝露する。二重鎖の一方の鎖はRISCに取り込まれた成熟miRNAですが、もう一方の鎖であるmiRNA*は分解されます。miRNA-RISC複合体は標的配列に結合し、完全な相補性の場合はmRNA分解、部分相補性の場合は翻訳抑制のいずれかを引き起こします13。
発現および生合成の特徴に基づいて、miRNAアノテーションのためのガイドラインが記載されている15、19。定義されたガイドラインを使用して、LucasとBudakは、植物9で相同性に基づくインシリコmiRNA同定を実行するためのSUmirパイプラインを開発しました。SUmir パイプラインは、SUmirFind と SUmirFold の 2 つのスクリプトで構成されていました。SUmirFindは、国立バイオテクノロジー情報センター(NCBI)の基本ローカルアライメント検索ツール(BLAST)スクリーニングを通じて既知のmiRNAデータセットに対して類似性検索を実行し、2つ以下のミスマッチのみのヒットを含め、より短いヒットへのバイアスを回避します(blastn-short-unapped-penalty-1-reward1)。SUmirFoldは、UNAfold21を用いて、BLAST20の結果から推定miRNA配列の二次構造を評価する。スミルフォールドは、ヘアピン構造の特徴を同定することにより、miRNAと小さな干渉RNAを区別します。さらに、パラメータ、最小倍率エネルギー指数>0.67、GC含量24〜71%によって、miRNAをtRNAやrRNAなどの他のssRNAと区別します。このパイプラインは、(i)感度を高める、(ii)アノテーション精度を高める、および(iii)予測されたmiRNA遺伝子のゲノム分布を提供するための2つのステップを追加することによって最近更新されました22。植物のmiRNA配列23の保存性が高いことを考えると、このパイプラインはもともと相同性に基づくmiRNA予測のために設計されました。しかし、新規miRNAは、近縁種間のmiRNAの配列保存に大きく依存していたため、このバイオインフォマティクス解析では正確に同定できませんでした。
この論文では、1)既知および新規のmiRNAをより正確に同定できる(たとえば、パイプラインは現在、sRNA-seqベースの新規miRNA予測と相同性ベースのmiRNA同定を使用する)、2)完全に自動化され、自由に利用できる、完全に自動化された新しいmiRNAパイプラインmirMachineを紹介します。出力には、予測されたmiRNAのゲノム分布も含まれています。mirMachineは、コムギおよび シロイヌナ ズナのゲノムにおける相同性ベースの予測とsRNA-seqベースの予測の両方についてテストされました。当初はフリーソフトウェアとしてリリースされましたが、UNAfoldは過去10年間で商用ソフトウェアになりました。今回のバージョンアップに伴い、二次構造予測ツールをUNAfoldからRNAfoldに切り替え、mirMachineを自由に利用できるようになりました。ユーザーは、短い送信スクリプトを実行して、完全に自動化された mirMachine パイプラインを実行できるようになりました (例は https://github.com/hbusra/mirMachine.git で提供されています)。
当社のmiRNAパイプラインSUmirは、過去10年間、多くの植物miRNAの同定に使用されてきました。ここでは、完全に自動化された、自由に利用できる新しいmiRNA同定およびアノテーションパイプラインmirMachineを開発しました。さらに、以前のパイプラインを含むがこれに限定されない多くのmiRNA同定パイプラインは、UNAfoldソフトウェア21に依存しており、UNAfoldソフトウェア21は、か…
https://www.ncbi.nlm.nih.gov/books/NBK279671/ | Blast+ | ||
https://github.com/hbusra/mirMachine.git | mirMachine submission script | ||
https://www.perl.org/get.html | Perl | ||
https://www.tbi.univie.ac.at/RNA/ | RNAfold | ||
Arabidopsis TAIR10 | |||
Triticum aestivum (wheat, IWGSC RefSeq v2) |