2つのタンパク質フォールド間の秘密の進化経路の特定

ニュース

ホームページホームページ / ニュース / 2つのタンパク質フォールド間の秘密の進化経路の特定

Sep 10, 2023

2つのタンパク質フォールド間の秘密の進化経路の特定

Volume sulle comunicazioni sulla natura

Nature Communications volume 14、記事番号: 3177 (2023) この記事を引用

317 アクセス

15 オルトメトリック

メトリクスの詳細

相同なタンパク質配列は同様の構造をとると予想されますが、一部のアミノ酸置換によりαヘリックスとβシートが相互変換される可能性があります。 このようなフォールドスイッチングは進化の歴史を通じて起こった可能性がありますが、それを裏付ける証拠は、(1) 配列決定された遺伝子の豊富さと多様性、(2) 実験的に決定されたタンパク質構造の量、および (3) 分析に使用される統計的手法の基礎となる仮定によって制限されています。相同性を推測します。 今回、我々は、約 600,000 個の細菌応答制御タンパク質ファミリーに複数の統計的手法を適用することで、これらの障壁を克服しました。 それらの相同な DNA 結合サブユニットは、ヘリックス - ターン - ヘリックスと α-ヘリックス + β シート (翼状ヘリックス) のような分岐構造をとることがわかりました。 系統解析、祖先配列再構成、および AlphaFold2 モデルは、アミノ酸置換がヘリックス - ターン - ヘリックスから翼のあるヘリックスへの切り替えを促進することを示しています。 この構造変化により、DNA 結合特異性が拡張されたと考えられます。 私たちのアプローチは、2つのタンパク質フォールディング間の進化経路を明らかにし、他のタンパク質ファミリーにおける二次構造スイッチングを特定する方法論を提供します。

生命は、何億もの折り畳まれたタンパク質の化学的相互作用と触媒反応によって維持されています。 これらのタンパク質の構造と機能は、アミノ酸配列によって決定されます1。 このように、配列変化は、機能的影響がまったくないものから中程度の機能障害、完全な喪失に至るまでさまざまな影響を及ぼし 2,3、生物学的結果は観察できない影響から衰弱性疾患に至るまでさまざまです 4,5,6。 多くの歴史的研究は、アミノ酸の変異が局所的または全体的にタンパク質の構造を展開する可能性があることを示していますが、そのような変化は通常、α-ヘリックスをβ-シートに変換するなどの二次構造を改造するものではありません。 これらの発見は、類似の配列を持つタンパク質は類似のフォールドを持ち、類似の機能を実行するという十分に確立された観察を裏付けています。 次に、これらの類似性はタンパク質の折り畳みをファミリーに分類するために使用され 9、10、11、最先端のタンパク質構造予測法の基礎となります 12、13、14。

それにもかかわらず、最近の研究は、アミノ酸変化のサブセットが二次構造を切り替えることができることを示しています。 このプロセスは、「進化的変態 15」および「進化したフォールドスイッチング 16」と呼ばれています。 例えば、ヒト筋細胞エンハンサー因子 2 (MEF2) で最も頻繁に観察される非ホジキンリンパ腫関連変異は、C 末端のαヘリックスをβストランドに切り替え、MEF2 の機能を妨げている可能性があります 17。 さらに、多数の単一変異は、シアノバクテリアの正常な機能にとって重要な変換、つまりC末端サブドメインのβααβフォールドからαββαフォールドへの切り替えを妨げることにより、シアノバクテリアの概日時計を不活性化します18。 最後に、人工プロテイン G バリアントの場合、単一の突然変異またはより大きなタンパク質ドメインへの組み込みにより、ヒト血清アルブミンに結合する 3-α-ヘリックス束を、機能が変化した他のフォールド (たとえば、α/β-把握フォールドなど) に切り替えることができます。免疫グロブリンまたはα/β-plait リボソームタンパク質ドメインに結合します19、20、21、22、23。

これらの例は、段階的なアミノ酸変化を介した二次構造の進化したフォールドスイッチングが、自然界で新しいタンパク質フォールドが発生するメカニズムの 1 つである可能性があることを示唆しています。 もしそうであれば、この進化メカニズムは、実験的に決定された異なる構造を持つ相同タンパク質配列を検索することによって特定できるはずです(図1a)。 同様のアプローチにより、二次構造は保存されているが三次配置が異なるタンパク質フォールドファミリー間の進化的関係を同定することに成功している 24,25。

a 1 ラウンドの BLAST を使用して PDB に対して FixJ (HTH4) の完全な配列をクエリすると、完全長 KdpE (wH) との有意な一致が得られました。 注目すべきことに、2つの領域では、βシートと整列したαヘリックスが実験的に決定された。 b その後の PSI-BLAST 検索により、全長 FixJ 配列と KdpE 配列の間に進化的関係がある可能性が高いことが確認されました。 全長構造は、保存された NTD を灰色、リンカーをオレンジ色、HTH4 CTD を黒色、wH CTD を黄色で示しています。 結果として得られる PSI-BLAST アライメントには、NTD と CTD が含まれます (KdpE 配列が黄色で強調表示されている場所から始まります)。 太字のアミノ酸は同一 (黒) または類似 (灰色)、α ヘリックスが β ストランドと整列している領域はピンク色です。 ギャップは「-」で示されます。 c PSI-BLAST が HTH4 フォールド内の α ヘリックスを wH フォールド内の β 鎖の配列と整列させる三次元構造 (左) および二次構造 (右) の領域 (ピンク)。 灰色の領域は、保存された二次および三次構造を示します。 wH のベージュ色の領域は、アラインメント内の追加のアミノ酸に対応し、FixJ のアラインメントされた二次構造内のオープンスペースとして示されています (右)。 ソース データはソース データ ファイルとして提供されます。

しかし、進化した二次構造の相互変換の観察は、次のようないくつかの技術的障壁によって妨げられています。(1) 配列決定された遺伝子の量と多様性が限られている、(2) 実験的に決定されたタンパク質構造の量が限られている、および (3) 統計的手法の基礎となる仮定相同性を推測するために使用されます。 実際、これら 3 つの制限はすべて、2 つの明確に折りたたまれた転写因子、P22 Cro と λ Cro26、27、28 の間のおそらく進化的関係を特定した Cordes らの先駆的な研究に影響を与えました。 構造的には、これら 2 つのタンパク質は 3 螺旋の N 末端コアを共有していますが、分岐した C 末端領域を持っています。P22 Cro の C 末端領域は 2 つの α 螺旋に折りたたまれていますが、λ Cro の C 末端は β ヘアピンになっています。 これらの違いは進化したフォールドスイッチングから生じた可能性がありますが、入手可能なデータが限定的すぎて決定的ではありませんでした。研究時点では、タンパク質ファミリーは 55 個の配列と 5 個の解明された構造のみで構成されていました (障壁 (1) および (2))。 。 著者らはまた、障壁 (3) の存在を提案しました。データベース全体の PSI-BLAST 検索では P22 Cro と λ Cro が相同であると特定されなかったため、著者らは次のように結論付けています 27、このような場合には配列保存パターンが変化するため、変化が発生しました。」

前述の研究がほぼ 20 年前に行われて以来、RefSeq29 データベース内の利用可能な配列の数は 3 桁増加し、タンパク質 データ バンク (PDB) に登録されている実験的に決定された構造の数は 1 倍増加しました。 730,31。 したがって、我々は、進化したフォールドスイッチングにつながる段階的なアミノ酸変化を検出するために、十分なタンパク質配列および構造情報が利用できるようになったと仮説を立てた。

そのために、我々は、約 600,000 の配列と、実験的に決定された 76 のユニークな構造からなる細菌応答制御因子の大規模なファミリーの中から証拠を検索しました。 このファミリーの各ホモログは、細菌の「2 成分系」の半分を構成します。 残りの半分は同族のセンサータンパク質です32。 これらのタンパク質のペアは連携して、細菌が走化性 33、抗生物質耐性 34、酸素感知 35 などを通じて環境に応答できるようにします 36。 その機能を実行するために、各センサータンパク質はトリガーリガンドに結合する細胞外ドメインを持ち、それによってセンサーのヒスチジンキナーゼドメインを活性化して、N末端レシーバードメインの保存されたアスパラギン酸で同族の応答制御因子をリン酸化します。 次に、この修飾により、応答制御因子の C 末端「出力」ドメインが転写制御の変化など、生物の応答を開始します 37。

構造的には、応答制御タンパク質は共通の N 末端ドメイン構造を共有していますが、C 末端ドメイン間の構造の違いは、それらをサブファミリーに分割するために使用されています 37,38。 C 末端ドメインのほぼ 50% は、ヘリックス ターン ヘリックス (HTH) またはウィングド ヘリックス (wH) DNA 結合ドメインのいずれかに折りたたまれます 37。 (この ~50% は、上記の ~600,000 シーケンスに相当します)。 両方の C 末端ドメイン折り畳みは、(1) N 末端ヘリックスリンカーと 4 番目の C 末端ヘリックス (例: テトラヘリックス HTH または HTH4)、または (2) 4 本鎖のいずれかが隣接するコア 3 ヘリックスバンドルを構成します。 N末端βシート(ここでは比較しやすいようにリンカーと呼ぶ)とC末端βヘアピン(または「ウィング」、図1bおよびc)。 平均して、HTH4 出力ドメインを持つ応答制御因子は、wH 対応因子よりも約 30 残基短いです。

応答制御因子 HTH4 ドメインと wH ドメインの共通の進化的系統は以前に示唆されていました 39。 しかし、進化のメカニズムは検出できませんでした。これもまた、研究時点で入手可能な配列と構造の情報が不足していたためである可能性が最も高いです。 したがって、CTDの二次構造の違いが、配列挿入、完全または部分的なドメイン組換え、段階的アミノ酸変化(例えば、進化したフォールドスイッチ)、またはこれら3つの組み合わせに起因するかどうかは不明であった。

この研究では、HTH4 ドメインと wH ドメインにおける C 末端二次構造の進化したフォールドスイッチングの強力な統計的裏付けを報告し、2 つのフォールド間の推定上の進化経路を提案します。 まず、HTH4 の C 末端 α ヘリックスが wH の β シート翼と進化的関係を共有していることを示しました (図 1 および 2)。 この関係は、系統関係の複数の統計解析、AlphaFold2 モデルによる祖先配列の再構成、および機能解析を通じて強化されました。 あらゆる証拠は、αヘリックスが段階的突然変異を経てβシートに変化するという進化の軌跡を一貫して示している。 私たちの結果は、段階的な突然変異がどのようにタンパク質の二次構造を切り替えることができるかを示唆し、他のタンパク質ファミリーで進化したフォールドスイッチングを特定するための方法論を提供します。

我々は以前、タンパク質BLAST40を使用して、高い配列同一性(同一ではないが70%以上)を有するが、発散し、​​実験的に決定された二次構造を有するタンパク質配列のペアをPDBで検索しました41(図1a)。 この研究は、相同タンパク質が段階的突然変異を通じてフォールドを切り替えることができるという仮説を支持していますが、構造遷移がどのように起こるかについての詳細な説明は提供できませんでした。 実際、報告されたフォールドスイッチングタンパク質の中で、NusG には最大の配列セットがあり、約 16,000 個の非重複配列がありました 42。 しかし、これらの配列には注釈が付けられている信頼性が低く 42、フォールドスイッチ遷移を特定するのが困難で 43、フォールドスイッチ遷移を明らかにする可能性がある系統解析を混乱させます。

ここで我々は、より多数の配列を持つファミリーを検索することで、相同性推論の基礎となる統計が強化され、フォールドアノテーションの精度が向上し、相同だが明確にフォールディングされたタンパク質を同定するために必要な統計的に有意な系統解析が可能になると推論した。 より大きなファミリーでは、配列間の同一性が 70% 以下の進化したフォールドスイッチング経路を特定できる可能性もあります。 そのために、PDB 内の約 150,000 個の配列すべてを使用して、分岐二次構造を持つ他のすべての配列をクエリし (「方法」セクション)、1e-04 以下の e-値を持つ配列一致を特定しました。 e 値が低いほど、一致が偶然に生じる可能性がますます低くなり、相同性が推測できることを示します 44。 1e-04 というしきい値は控えめです。 5e-02 は相同性を推測するためによく使用され 40、さらに高い e 値を持つ一部の配列も相同です 40。

PDB 内の潜在的なフォールドスイッチホモログのペアの中で、Bradyrhizobium japonicum の FixJ (クエリ) と Escherichia coli の KdpE の全長構造間の一致を、e 値 1e-07 で特定しました。 重要なのは、FixJPDB と KdpEPDB は、Pfam、ECOD、SCOP (「メソッド」セクション) を含むいくつかの独立したアノテーターによって、異なるフォールドを持つものとして定義されているということです。 FixJPDB と KdpEPDB はどちらも細菌の 2 成分系の応答制御因子です。 これらのタンパク質は、無数の細菌種内および細菌種間で非常に豊富に存在します。 nr データベースには 1,000,000 を超える多様な遺伝子の配列が存在しており、これは前述の NusG ファミリーよりも 2 桁近く大きいです。

構造的には、FixJPDB と KdpEPDB の N 末端ドメイン (NTD) は高い配列と構造の類似性を示しました (図 1b、左)。一方、それらのリンカーと DNA 結合 C 末端ドメイン (CTD) は、中程度の配列類似性と顕著な違いを示しました。二次構造: FixJPDB の CTD は四螺旋ヘリックス-ターン-ヘリックス (HTH4) 構造で構成されますが、KdpEPDB の CTD は翼状螺旋で構成されます (wH、図 1)。 KdpEPDB CTD も FixJPDB より 15 aa 長くなります。 それにもかかわらず、FixJ のらせんリンカーは KdpE の CTD の 4 つの β シートと部分的に整列しました。 (比較を容易にするために、両方の領域を「リンカー」と呼びます。)さらに、FixJPDB の C 末端 α ヘリックスは、「ウィング」としても知られる KdpEPDB の CTD の C 末端 β ヘアピンと整列します。

全長タンパク質を使用したクエリとは対照的に、FixJPDB または KdpEPDB から単離された CTD の配列をクエリとして使用した PDB の BLAST および PSI-BLAST 検索では、同じフォールド ファミリー (HTH4 または wH) からの配列のみが同定されました。 代替構造をコードする配列は同定されなかった。

これらの矛盾した結果を説明できる可能性は 2 つあります。 まず、全長配列では、NTD の強い類似性により、隣接する非相同配列が誤って局所配列アラインメントに含まれる「相同過剰伸長」を通じて CTD アラインメントが誤って生じる可能性があります 45。 この場合、明確に折り畳まれた CTD は共通の祖先を共有しません。 代わりに、個別の CTD をコードする遺伝子が、応答制御因子の NTD をコードする遺伝子と組み換えられた可能性があります。 この可能性と一致して、最初の BLAST 検索後のアラインメント カバレッジには CTD 配列の 52% しか含まれていませんでした。 あるいは、HTH4 ドメインと wH ドメインは、単離された分岐した CTD 配列から確実に推測することが難しい共通の祖先を共有している可能性があります。 この場合、完全な配列 (NTD + CTD) で検索すると、交互に折りたたまれた CTD 間の進化的関係を正しく示唆する統計的に有意なアラインメントが得られました。 実際、2 番目の現象は、Cro タンパク質 26、27、28 と細菌の NusG 転写因子 46 の両方について提案されています。

最初の FixJPDB/KdpEPDB HTH4/wH の一致が真の進化的関係を示しているのか、それとも欠陥のある相同性過剰伸長の結果であるのかをさらに識別するために、次に全長 FixJPDB を使用して、保存を識別する反復アルゴリズムである PSI-BLAST40 を 3 ラウンド使用して PDB をクエリしました。相同タンパク質配列間のパターン。 より高速な BLAST アルゴリズム (クエリ配列と配列データベース内のエントリ間のペアごとの同一性を使用して一致を識別する) とは異なり、PSI-BLAST は、位置特異的なスコア行列の生成に使用される相同配列のセット内の保存パターンに一致する配列を検索します。 このマトリックスは、各配列位置でのアミノ酸の置換スコアを保存し、新しい配列が検索でヒットした場合、PSI-BLAST 反復ごとに更新されます。 そのため、PSI-BLAST は、BLAST では検出できない、特定のタンパク質ファミリーに特徴的な隠れた保存パターンを特定します。 実際、PSI-BLAST は、HTH4 フォールドと wH フォールドをコードする配列の間のより強力な保存パターンを特定しました。 このアライメント手法は CTD のアライメント レジスタもシフトしたため、FixJPDB シーケンスの 97% が 6 × 10−39 の e 値で KdpEPDB とアライメントされました (図 1b、右)。 この結果は、FixJ および KdpE CTD の HTH4 および wH フォールドがアライメントアーチファクトではなく、遠い相同体であるという仮説を裏付けています。

さらに、この検索の上位 20 PSI-BLAST 一致のうち 11 について、CTD は KdpEPDB と同じ wH フォールドを想定しましたが、他の 9 つの一致は FixJPDB クエリと同じ HTH フォールドを想定しました (補足表 1)。 全長 KdpEPDB 配列をクエリとして使用した 3 ラウンドの相互 PSI-BLAST 検索により、このタンパク質の 90% が FixJPDB とアライメントされ、e 値は 10-29 でした。 特に、HTHフォールドを持つ単離されたDNA結合ドメインの配列はKdpEPDB(wH)のCTDと一致し、wHフォールドを持つ単離されたDNA結合ドメインの配列はFixJPDBのCTD(HTH4、補足表2)の配列と一致しました。 これらの結果を総合すると、(1) HTH4 ドメインと wH ドメインは共通の祖先を共有している 39、(2) 解析では分離されたドメインではなく完全長配列を使用することが正当であり、関係を特定するために必要であることを示しています。 したがって、後続のすべての検索は、特に断りのない限り、クエリとして完全長配列を使用しました。

整列した FixJPDB HTH4 および KdpEPDB wH フォールドをさらに調べると、構造の類似性と非類似性の領域が明らかになりました。両方のフォールドは保存された三らせんコアを共有しています 39 (図 1c)。 対照的に、(1) FixJPDB のαヘリックスドメイン間リンカーと KdpE の対応する四本鎖 β シートとの間には、顕著な非類似領域が明らかです。 このアラインメントにおける長いギャップは、KdpEPDBのリンカー領域が挿入によって拡張されたことを示唆しており、(2)FixJPDBのC末端ヘリックスがKdpEPDBのC末端βヘアピン「ウィング」と整列している(図1c)。 この領域のギャップのない整列は、これら 2 つの二次構造の一方が段階的な突然変異を通じて他方に進化した可能性があることを示唆しています。

段階的突然変異がαヘリックスからβシートへの切り替え(またはその逆)を引き起こした可能性があるかどうかをさらにテストするために、次に代替配列検索アルゴリズムであるjackhmmerを使用して、HTH4とwH出力を備えた応答制御因子間の潜在的な進化的関係を評価しました。ドメイン。 計算量は多くなりますが、反復隠れマルコフ モデル (HMM) ベースの検索は通常、PSI-BLAST 47 よりも感度が高く、相同性の過剰拡張を回避する方が適切である可能性があります 45。 そのために、HTH4 (11) および wH (12) ドメインを持つ 23 個の非重複の完全長応答調節因子の配列が、ECOD データベースを使用して PDB から同定されました。

このラウンドの解析では、我々の目標は、HTH4 および wH フォールドを持つ実験的に決定されたすべての全長応答制御因子の配列が、代替フォールドをコードする配列と一致するかどうか (つまり、HTH4 と wH が一致、またはその逆) を判断することでした。 jackhmmer47 を使用して、各完全長配列を使用して PDB のすべての配列をクエリしました (「方法」セクション)。 予想どおり、23の全長応答制御因子のペアワイズ配列同一性は、CTDアーキテクチャに基づいて2つのサブファミリーにクラスター化され(HTH4およびwH、図2a)、同じフォールドファミリーのCTDが異なるフォールドのCTDよりも密接な進化的関係を持っていることを示しています家族(補足図1)。 それにもかかわらず、HTH4ドメインのC末端ヘリックスは、wHフォールドドメインのC末端βヘアピンウィング内の領域と一貫して整列した(図2b)。 さらに、HTH4 のαらせんドメイン間リンカーは、wH ドメインの 4 つの N 末端 β 鎖と一貫して整列しました。 クロスフォールド関係をさらに裏付けるために、別の 19/34 CTD のみの構造が、やはりクロスフォールド認識を使用した全長クエリによって特定されました。

a 実験的に決定された構造 (PDB ID) を持つ応答制御因子のジャックマーアラインメント配列を使用して、ペアごとの配列同一性を計算しました。 配列は、HTH4 (右上の括弧) と wH (右下の括弧) の C 末端ドメインを持つ 2 つのサブファミリーに分類されます。 各行は、ペアごとの比較から計算された % 整列された恒等度 (ボックス内の数値) を報告します。 同一の配列は白になります。 他のすべては % 同一性によって色付けされます (左側のカラーバー)。 b aの各配列の二次構造を実験的に決定しました。 N 末端ドメイン、リンカー、C 末端ドメインは異なる背景色で示されています。 二次構造は、交互に折りたたまれた構造との配列ベースの二次構造のアラインメントによって色付けされます (HTH4 は wH とアラインメントされ、その逆も同様)。 一貫して整列する同一の二次構造は濃い紫色になります (例: 常にヘリックスと整列するヘリックス)。 ランダムコイルの領域と整列する二次構造は、薄紫からピンクの範囲です。 β シートと整列する α ヘリックス、またはその逆のα ヘリックスは、整列の頻度が多いか少ないかに応じて、ピンクから黄色に色付けされます。 c 代替サブファミリー(wHに対するHTH4、またはその逆)からの配列をクエリするために1倍を使用した配列のジャックマー検索のlog10(e値)の箱ひげ図。 各 HTH4 (灰色の背景)/wH (黄色の背景) ボックスの分布は、N = 12 (1A04、1YIO、3C3W、4GVP、4HYE、4LDZ、4YN8、5F64、5HEV、5O8Y)、11 (1KGS、1P2F、 2HQR、4B09)、10 (5XSO、2GWR、4S04)、9 (2OQR)、8 (4KFC、5VFA、7LZ9)、7 (1YS6、5ED4) e-value。 各ボックスは、データの四分位範囲 (IQR) (第 1 四分位、Q1 から第 3 四分位、Q3) の境界を示します。 各分布の中央値は、各ブラック ボックス内の灰色の線です。 下ヒゲは Q1-1.5*IQR を超える最低データです。 上ヒゲは Q3 + 1.5*IQR より下の最高データです。 ソース データはソース データ ファイルとして提供されます。

HTH4とwHフォールドの間の考えられる関係は、全長タンパク質と(1)それ自体のサブファミリーからのホモログ、および(2)交互に折りたたまれたサブファミリーからのホモログとの間のアラインメントからのe値分布を評価することによってさらに裏付けられました(図2c、図2c、それぞれ灰色/黄色の背景)。 実験的に決定された特定のフォールド (HTH/wH) の配列と代替フォールド (wH/HTH) を持つ一連の配列の間のアラインメントの e 値の中央値は e-33 から e-43 の範囲であり、全体にわたる重要な進化的関係を示唆しています。 2 つのサブファミリーのすべてのメンバー (図 2c)。 予想通り、同様のフォールド配列間の e 値の中央値は e-54 から e-72 の範囲であり(補足図 2a)、より密接な進化的関係を示しています。

統計的に有意なアライメントも、完全長クエリ配列と、22/23 完全長応答調節因子の代替フォールドを持つ単離された CTD との間で同定されました。 これらのアライメントの e 値中央値は e-04 から e-09 の範囲でしたが、同じフォールドファミリーからのアラインメントされた配列の e 値中央値は e-17 から e-30 の範囲でした(補足図 2b)。 これらのドメイン特異的なアラインメントは、HTH4 ドメインと wH ドメイン間の進化的な関係をさらに裏付けています。

したがって、削岩機の結果(図2)はPSI-BLASTアラインメント(図1b)と一致しており、次の2種類の進化事象を示唆しています:(1)リンカーは挿入/欠失によって延長/短縮された可能性があります。 (2) 段階的突然変異は、HTH4 の C 末端 α ヘリックスと wH の C 末端 β シートの間の構造的相互変換を誘導した可能性があります。

これらの構造に基づく配列検索は、C末端HTH4およびwHドメインにおける進化したフォールドスイッチングと一致していましたが、二次構造変換のメカニズムは、より長いwHホモログに挿入された配列の別の位置によって不明瞭でした。 PSI-BLASTは、HTH4のC末端αヘリックスをwHのβヘアピンと完全に整列させ(図1b)、完全な二次構造変換を示唆しました。 対照的に、jackhmmer は、HTH4 の C 末端 α ヘリックスを wH の最初の β 鎖のみと整列させました (図 2b)。これは、挿入を伴う部分的な変換を示唆しています。 これらのオプションを区別するために、次に、HTH4 および wH 出力ドメインを持つ応答制御因子配列の大規模なセットを収集しました。 そのために、タンパク質 BLAST を使用して FixJPDB および KdpEPDB 配列を nr データベースに対してクエリし、581,791 個の推定相同体を同定しました。 この配列セットのサイズを考慮して、最終的な配列のサブセットがさまざまな系統解析に十分小さく、かつ大規模な応答ファミリーを適切に表すのに十分な大きさになるように、データをキュレーションおよびサンプリングするためのいくつかの戦略 (「方法」セクション) を開発しました。規制当局。

そのために、貪欲クラスタリング アルゴリズムを使用して 581,791 個のシーケンスが 367 個のクラスターにグループ化され、85% の冗長性までフィルタリングされて、最終的な数は 23,791 個のシーケンスになりました。 次にクラスターを比較して、13,006 個の FixJ 様配列と 10,785 個の KdpE 様配列を特定しました。 各グループ内の配列は容易に整列します。 ただし、2 つのグループは相互に全体的に低い配列同一性を持っていました。 これらのグループを調整するためにいくつかのアプローチが試みられました。 1 つの試みでは、HTH4 を wH 配列に接続する 7 つの配列の「推移的相同経路」を特定しました (補足表 3、「方法」セクション)。これは、FixJ 様 (HTH4) および KdpE 様 (wH) アラインメントを一致させるために使用されました。 しかし、組み合わせた 23,791 配列の系統樹を IQ-Tree で構築した場合、その品質は低く (つまり、KdpEPDB 配列のギャップ 140/360 位置)、3 ラウンドのブートストラップ後に収束しませんでした。

それにもかかわらず、推移的相同経路は、HTH4 フォールドファミリーと wH フォールドファミリーを橋渡しする可能性のある追加の配列の存在を示唆しました。 そこで、別のアプローチで元のシーケンス セットを検索しました。 まず、100 個以上の配列を持つクラスターを CTD アーキテクチャーによって分類し、HTH4/wH 出力ドメインを持つ 74,741/387,276 個の配列を特定しました。 これらの配列セットは、BLAST ライブラリーを構築するために使用されました。 次に、HTH4 出力ドメインを持つ配列を 50% の冗長性までフィルター処理し、残りの 4520 配列をタンパク質 BLAST を使用して wH ライブラリに対してクエリしました。 一致が統計的に有意である場合、両方の配列の NCBI 配列レコードで CTD 構造アノテーションを検索しました。CTD 構造アノテーションは通常、隠れマルコフ モデルから推論されます。 これらの結果は、異なるフォールドファミリー間のBLASTマッチ(1つのアノテーション付きHTH4と1つのアノテーション付きwHを持つ配列ペア)を同じフォールドファミリー間のマッチから区別するために使用されました。 異なるフォールドファミリーからの注釈が付いた配列ペアが保持されました。 このプロセスにより、664 個の HTH4 タンパク質と 2541 個の wH タンパク質の間で 4 × 10−10/5 × 10−16 の平均 / 中央値 e 値を持つ 3136 個の一致が特定されました。 wH 配列をクエリとして使用した相互 BLAST 検索は、3136 件すべてで成功し、e 値の平均/中央値は 1 × 10−8/2 × 10−16 でした。 これらのより高い e 値は、HTH4 データベースのサイズが小さいこと、または HTH4 と比較して wH 配列の長さが長いことを反映している可能性があります。

次に、Clustal Omega48 と MUSCLE49 という 2 つの異なる方法を使用して 3205 配列をアラインメントしました (補足データ 1)。 繰り返しになりますが、これらのファミリーを越えた複数配列アラインメント (MSA) 間の重要な違いは、より長い wH ホモログとより短い HTH4 ホモログに挿入または削除された配列の位置でした。 それにもかかわらず、両方のクロスファミリー MSA において、HTH4 の C 末端ヘリックスは wH の C 末端 β シートウィングと完全に整列しており、挿入や欠失ではなく段階的な変異による α ヘリックスから β シートへの進化を示しています。 (図3aおよび補足図3)。 Clustal Omega アライメントでは、HTH4 フォールドの > 99% で見出される 2 残基ギャップが、注釈付きの wH フォールド (wHwing_gap) でも見つかりました。これは、α-ヘリックス ↔ β-シートの相互変換が段階的変異によって起こったことをさらに示唆しています。 さらに、wH配列と同様のリンカー長を有するいくつかのHTH4配列が同定され(例えば、図3aのHTH4_インサート)、長いリンカーがwHフォールドに限定されないことが実証された。 アラインメント内の配列は多様で、平均ペアワイズ同一性は HTH4 フォールド間で 31%、wH フォールド間で 40%、フォールド間で 31% でした。 特に、進化的保存パターンはHTH4フォールドとwHフォールド間で異なりました(補足図4)。 特に、HTH4 の C 末端ヘリックスは強い保存パターンを示さなかったのに対し、wH の β ストランドウィングは強い保存パターンを示しました。 Cordes らによって示唆されているように 27、このような明確な保存パターンは、単離された wH ドメインと HTH4 ドメインの配列間の相同性が、PDB に対する PSI-BLAST および jackhmmer 検索から推測できなかった理由を説明する可能性があります。

3205個のHTH4およびwH配列のClustal Omegaアラインメントは、進化の歴史を通じてC末端二次構造が完全に変換されたことを示している。 FixJPDB (黒色) と KdpEPDB (黄色) の構造を使用して二次構造図を生成しました。 4 つの配列の背景色は系統樹の背景色と一致します。 配列間のスペースのメモは重要な変化を示しています: (1) オレンジ色のリンカーの挿入 (または祖先配列の特性に応じて欠失) (2) 倍数変換 (3) 配列の伸長/欠失。 スラッシュの前の単語は、シーケンスが上から下に変更された場合に何が起こるかを表します。 スラッシュの後の単語は、シーケンスが下から上に変化した場合に何が起こるかを表します。 FixJPDB シーケンスと KdpEPDB シーケンスの間の共通の祖先も可能です。 ソース データはソース データ ファイルとして提供されます。 b 最尤系統樹は、HTH4 フォールドと wH フォールドを持つ応答制御因子間の進化経路を示唆しています。 NCBI タンパク質レコードの HTH/wH として注釈が付けられた C 末端ドメインを持つ配列は灰色/黄色です。 同定された 12 個の架橋配列を含むクレードはピンク色で強調表示されます。 HTH4_insert は、リンカー長が wH と類似した注釈付き HTH4 配列の例を示します。 wHwing_gap は、整列した HTH4 配列の C 末端ヘリックスの >99% に見られるものと同様の 2 残基欠失を持つ wH 配列の例を提供します。 距離の単位は任意ですが、空間のさらに遠くにある配列ほど、より遠い進化的関係があります。

最後に、ブートストラップをサポートした、クロスファミリー MSA の系統樹を生成しました。 驚くべきことに、結果は、2つのフォールドファミリーを橋渡しすると思われる配列クレードを明らかにした(図3b、図S5およびS6)。 このクレードの 12 配列には、推移的相同経路で同定された配列が含まれています。 12 個すべてに HTH4 と注釈が付けられた出力ドメインがあり、いくつかの細菌門に由来します (補足表 4)。 系統樹では、これらの12の配列はwHおよびHTH4 CTDを持つ分岐に隣接しており(図3b)、それらの祖先が2つの折り畳み間の進化的中間体である可能性があることを示唆しています。 HTH-ブリッジ-wH インターフェイスの統計的堅牢性を評価するために、6393 個の可能な分岐点すべてに根を張るツリーを使用して、その発生頻度を定量化しました。 各ルートツリーの対数尤度は、ほぼ不偏のテストを使用して計算されました50(p-AU、補足図7A)。 6393 の可能な発根のうち、18 は p-AU スコア ≥0.8 を持ち (補足図 7B)、統計的有意性を示しています。 18のケースすべてで、ブリッジ配列は注釈付きのwHおよびHTH4ドメインを持つ分岐に隣接しており(補足図8)、2つのフォールド間の進化の架け橋としてのこのクレードの役割を強く裏付けています。

次に、ブリッジクレード内の配列の予測される構造特性を調べました。 そのために、各ブリッジ配列の構造モデルを AlphaFold214 (AF2) で作成しました。 驚くべきことに、すべてのモデルは HTH4 フォールドを想定していました (補足図 9)。 この結果は、いくつかの可能性を示唆しています。 まず、一部のブリッジ配列は HTH4 フォールドと wH フォールドの間で相互変換する可能性があります。 以前の研究では、AF2 は一般に、2 つのフォールド間を切り替えることができるタンパク質の 1 つの主要な立体構造のみを予測することが示されています 42,51。 第 2 に、AF2 予測は信頼できない可能性があり、一部またはすべてのブリッジ シーケンスが実際に wH フォールドを想定している可能性があります。 第三に、フォールド遷移は、ほとんどの HTH4 配列と wH 配列を結ぶノードに位置する初期の祖先で起こった可能性があります。 これらのノードはツリー内の2つのフォールドファミリーを接続しており(補足図5)、それらの対応する祖先配列がHTHフォールドとwHフォールドの両方の特性を持っていた可能性があることを示唆しています。

したがって、次に祖先配列の再構成を実行し、HTH4 フォールドと wH フォールドを架橋する祖先配列の追加の AF2 モデルを生成しました(図 4 および S5)。 すべての祖先配列のリンカーは、wH リンカーと同じ長さであることに注意してください。 私たちの理論的根拠は、ブリッジ領域近くの一部のHTH4配列のリンカーがwH配列のリンカーと同じ長さであり(図3および補足図3)、これらのリンカーがすでに大きな挿入によって修飾されている可能性があることを示唆しています。

最古の祖先は四螺旋ヘリックス-ターン-ヘリックス (HTH4) の長いバージョンであると考えられ、そこから翼付きヘリックス (wH) 折り目が進化しました。 フォールドスイッチング C 末端ヘリックス/β ヘアピンはピンク色で示され、構造的に可塑性のリンカーは黄色で示されています。 このプロットで使用されたブリッジ シーケンスは、図 3b の祖先ノードに最も近い TME68356.1 でした。

興味深いことに、祖先の再構成の結果は、祖先の配列には、突然変異に応答してαヘリックスとβシートの間で切り替わることができる構造的に可塑的な領域があった可能性があることを示唆しています(図4および補足表5)。 特に、Ancestor 0 の最も C 末端にある二次構造要素は α ヘリックスであり、Ancestor 1 は β ヘアピンであり、Ancestor 2 は α ヘリックスに戻ります (図 4、ピンク)。 興味深いことに、Ancestor 1 の β ヘアピンの配列は、Ancestor 0 と Ancestor 2 の両方の C 末端ヘリックスの配列と 83% 同一であり、これらは互いに 75% 同一です。 これらの結果は、たった 2 つの突然変異が C 末端の α ヘリックスを β シートに切り替え、異なる配列置換セットを介して再び元に戻すことができることを示唆しています。

N 末端リンカー領域 (図 4、黄色) もプラスチックのように見えます。 Ancestors 0 ~ 2 では、このリンカーは部分的に折りたたまれて β ヘアピン構造になっていますが、Ancestors 3 では、リンカーは完全に折りたたまれた 4-β シート構造をとります。 対照的に、Ancestors 4 ~ 5 および現代のブリッジ配列では、リンカーは部分的にらせん構造をとります (図 4)。

総合すると、これらの結果は、ブリッジクレードの配列の祖先が、wH フォールドと HTH4 フォールドの両方の傾向を持っていた可能性があることを示唆しています。 この可能性をさらにテストするために、PSI-BLAST および jackhmmer 検索の両方を、祖先 CTD 配列と HTH4 および wH フォールドの両方を含む PDB 構造の間で実行しました。 Anc を除くすべてのケースで、統計的に有意なクロスフォールド一致が確認されました。 3 (補足データ 2)。 比較すると、既存の HTH4 および wH 配列の単離された CTD の以前の PSI-BLAST および jackhmmer 検索では、同じフォールドを持つホモログは一致しましたが、代替フォールドは一致しませんでした。

最後に、我々は、HTH4 から wH フォールドへの移行が進化上の利点をもたらしたかどうかを特定しようとしました。 実験的に決定された、同族 DNA パートナーと複合体を形成した HTH4 および wH 応答制御因子の構造を調べると、構造変換の利点の 1 つは結合特異性の拡大である可能性があることが示唆されています。 平均して、HTH4フォールドは17個の固有のヌクレオチドと接触するのに対し、wHフォールドは22個接触する(図5a)。 HTH4とwHの両方のフォールドは、主溝に結合する単一の認識ヘリックスを持ち、翼のあるヘリックスのC末端βヘアピンも副溝と接触しています(図5b)。 そのため、wH ドメインは HTH よりも多くのユニークなヌクレオチド配列を認識できる可能性があります。

HTH4 と DNA (黒色) および wH と DNA (黄色) の間の接触数のデータポイントを重ねた単純化された箱ひげ図。 平均して、HTH4 ドメインは wH ドメインよりも DNA 接触が 5 つ少ないです。 中央のバーは平均値に対応し、上部/下部のバーは標準偏差に対応します。 統計は、HTH-DNA/wH-DNA 複合体の 16/15 の独立して決定された構造から得られました。 ソース データはソース データ ファイルとして提供されます。 b HTH4 ドメインと wH ドメインとの DNA (灰色) 相互作用の例 (それぞれ上と下)。 HTH4 の C 末端 α ヘリックス (黒色、上) は DNA と接触しませんが、wH の β ヘアピンウィング (黄色、下) は副溝と接触します。 HTH4 (PDB ID: 1h0m、鎖 D) と wH (PDB ID: 4hf1、鎖 A) の折り畳みの構造的に類似した部分は、明るい灰色です。 この結果と、それに対応して、wH によって認識される可能性のある固有の DNA 配列の数が増加したことは、wH が応答制御因子において HTH4 から進化した理由を説明する可能性があります。

数十年にわたる研究により、タンパク質の二次構造は進化の歴史を通じて主に保存されていることが示唆されています 52,53。 したがって、さまざまな研究により、挿入、欠失、円順列変異など、二次構造を固定した状態に保つさまざまな機構を通じて新しいタンパク質の折り畳みが進化できることが示されています54。 他の研究者は、保存された二次構造を持つタンパク質が異なる三次配置を進化させることができることを示しています 24,25,55。

対照的に、いくつかの最近の研究は、段階的突然変異がタンパク質の二次構造を切り替え、新しいタンパク質フォールドの進化を促進する可能性があることを示唆しています19、28、56、57。 私たちの研究は、2 つのタンパク質の折り畳み間の統計的に有意な進化の軌跡を特定することにより、この仮説を裏付けています。 これらの折り畳みは、α-ヘリックスからβ-シートに切り替わる応答制御因子CTDのフラグメントを構成します。 我々の発見は、祖先配列の再構築、構造モデル、およびいくつかの配列アラインメント法によって裏付けられています。 さらに、この進化したフォールドスイッチングは、DNA 結合特異性の拡大という機能的な結果をもたらした可能性があります。 特に、HTH4 および wH フォールドは応答制御因子のスーパーファミリーに限定されません。 他のファミリーでは、wH は異なるメカニズムまたは追加のメカニズムを通じて HTH4 祖先から進化した可能性があります (進化の順序は異なる可能性があります)。

ここで観察されたフォールドスイッチング領域はタンパク質全体の断片を構成しているため、我々が提案する段階的機構を、「単語」58や「架橋テーマ」59、60、61などのタンパク質断片が関与するタンパク質進化の他の機構と比較する。 ここで紹介する研究は、いくつかの重要な点でこれらの研究とは異なります。 まず、「単語」は「全体的に異なる折り畳み内の配列と構造における局所的な類似性」を持つタンパク質断片として定義され 58、橋渡しとなる「テーマ」はそれぞれ「異なる連続的および構造的文脈で見出される相同タンパク質断片」のセットで構成されます 59。 したがって、これらのフラグメントの単離された配列は、タンパク質の残りの部分と関係なく、識別可能な相同性を持っています。 対照的に、ここで報告された HTH4 および wH フラグメントのフォールドスイッチング配列は、タンパク質全体の文脈内で認識できる相同性のみを示しました。 実際的に言えば、異なるタンパク質コンテキストにおけるタンパク質断片の相同配列間の一致に依存する、単語やテーマを特定するために使用される検索は、ここで提案されている進化したフォールドスイッチング遷移を特定するために使用することはできません。

第二に、単語と橋渡しテーマの根底にある進化メカニズムは、応答制御因子の HTH4 ドメインが wH フォールドに進化する原因となったと考えられる段階的変異とは異なります。 単語および架橋テーマは、タンパク質構造の非相同セグメントと再結合するか、または付加して別個のドメインを形成すると提案されている保存されたタンパク質断片です。 対照的に、ここで提案されているフォールドスイッチング遷移は、保存されたタンパク質のコンテキスト内で発生します。 この場合、段階的突然変異により、断片の組換えや付加を伴わずに、タンパク質断片がαヘリックスからβシートに切り替わったと考えられます。 重要なのは、フラグメントの組換え、付加、段階的突然変異はすべて、さまざまな状況で発生する有効な進化メカニズムであるということです。

第三に、いくつかの架橋テーマはフォールドを切り替えますが 61、その切り替えはおそらくそれらのより大きなタンパク質の状況に依存します。 つまり、異なる折り畳まれたドメイン内では、同じブリッジング テーマが異なる折り畳みを想定することもあります。 これは、異なるタンパク質状況で異なる折り畳みを有する同一のタンパク質断片であるカメレオン配列 62,63 にも当てはまります。 対照的に、この研究における相同配列は、相同タンパク質のコンテキスト内で異なる構造を想定しています。どちらのフォールドも、保存された三重らせんヘリックス-ターン-ヘリックスの C 末端にあります 39。 私たちが報告したフォールドスイッチは秘密だったと言っても過言ではありません。フォールドスイッチ領域の配列間の相同性は、N末端レシーバードメインを含むタンパク質の残りの部分の状況がなければ同定できませんでした。 この重要な点は、単語と橋渡しテーマに関するこれまでの研究や、異なるドメインをコードする遺伝子の融合を通じて新しい折り畳みが進化する「創造的破壊」メカニズムと我々の発見を区別するものである64。

この研究の範囲外ではあるが、報告されたブリッジ配列と再構築された祖先の実験的テストにより、HTH4 から wH への移行の機構の詳細が明らかになる可能性がある。 他のフォールドスイッチタンパク質で観察されているように、これらの配列のいずれかが両方のフォールドに存在するかどうかは特に興味深いでしょう。 再構築された祖先の場合、構造相互変換は、緑と赤の両方の光を発する緑と赤の蛍光タンパク質66、または独自の結合特異性を持つ現存する受容体から再構築された無差別グルココルチコイド受容体の再構築された祖先の機能研究に類似していると考えられます67。 以前の研究で示されているように 57、68、69、構造相互変換は核磁気共鳴 (NMR) 分光法で観察できます。 実際、Arc リプレッサー 70、71 および XCL157 の NMR 研究により、タンパク質のフォールドを切り替えるいくつかの重要な変異が同定されました。 したがって、HTH4配列をwHに、またはその逆に切り替える最小変異経路を実験的に同定することは興味深いであろう。

生物物理学に基づいた計算アプローチも、HTH4 および wH ドメインを含む応答制御タンパク質の機構と進化についての洞察を提供する可能性があります。 このような研究では、高レベルの配列同一性を持つが異なるフォールドを有する人工プロテイン G バリアント間のフォールド遷移を予測することに成功しました 72,73。 他の生物物理学モデルや理論と実験のハイブリッドアプローチを使用して、タンパク質進化における点突然変異、多機能性、選択圧、エピスタシスの役割を推測することができます 74,75,76。

ここで特定された例のような二次構造の切り替えは、現在実現されているよりも進化の記録においてより一般的である可能性があります。 我々の結果の中で、HTH4 から wH への進化経路が一貫して観察され、「架橋配列」のクレードが経路の重要な位置を占めていました。 注目すべきことに、これらのブリッジ配列は、主に2018年と2019年に実施されたメタゲノム配列決定から同定された。これは、進化研究を進めるための新しい配列決定技術と取り組みの重要性を示しており77、進化したフォールドスイッチングのより多くの例が現在識別可能である可能性があることを示唆している。

したがって、進化したフォールド スイッチングの将来の計算探索を支援するために、次のステップバイステップ ガイド (図 6) を提供して終わります。

明確なフォールドを持つ相同配列のペアを特定します。 ここでは、タンパク質 BLAST を使用して PDB の全対全検索を実行することでこれを達成しました (図 1、「方法」セクション)。 より多くの構造が堆積されるにつれて、進化したフォールドスイッチングの追加の例が特定される可能性があります。 あるいは、実験的に決定された予測の代わりに、AlphaFold214、ColabFold78、RGN213、または ESM-fold79 などの予測アルゴリズムによって生成された構造モデルを使用することもできます。 実験ほど確実ではありませんが、これらの予測された構造は、配列分析とその後の実験的テストの有用な出発点となる可能性があります。 注目すべきことに、ここで報告された進化経路の同定に成功するには、フォールドスイッチング C 末端ドメインのみではなく、タンパク質配列全体 (N 末端 + C 末端ドメイン) を検索する必要がありました。

実験的に決定された構造を持つ相同配列を使用して、結果を相互検証します。 ここでは、構造が実験的に決定されている HTH4 および wH ドメインを含むすべての応答制御配列のジャックマー検索を実行しました。 すべての配列についてクロスフォールド相同性の兆候が見つかりました (図 2)。 このアプローチにより、ステップ 1 で特定された進化的関係は、偶然に得られた単一のヒットではなく、両方のタンパク質ファミリーにまたがるという確信が得られます。 同様の分析は、他のタンパク質ファミリーからの推定上の進化したフォールドスイッチャーの実験的に決定された構造に対して実行することができます。 そのような構造が利用できない場合は、予測アルゴリズムを使用して生成できます。 多くの予測を行う必要がある場合は、精度が高くパフォーマンスに優れている ColabFold78 を使用することをお勧めします。

2 つのフォールドファミリーに相同な配列を特定し、クラスター化します。 識別する。 FixJ/KdpE 配列の場合、nr データベースの BLAST 検索では >1,000,000 配列が返されました。 このような大規模なデータベースを効率的に検索するため、BLAST を使用しましたが、HHBlits80 などのより感度が高く効率的な方法も使用できます。 異常なシーケンスを削除するには、シーケンス セット (「メソッド」セクション) のキュレーションが必要になる場合があります。 集まる。 カスタム作成の貪欲クラスタリング アルゴリズムを使用しましたが、MMSeqs281 も使用できます。 次に、各クラスターに対して FixJPDB および KdpEPDB の配列を BLAST し、どの配列が 200 残基以上、e 値 1e-04 以上のより多くの一致をもたらしたかを計算することで、残りの各クラスターを所定のフォールドと関連付けました。

高い e 値を持つが構造アノテーションが異なる配列を含むクロスファミリー配列アラインメントを取得します。 下流解析を正常に完了するには、この「ゴルディロックス」ステップが鍵となります。大きすぎるアライメントは解釈できない結果を招く可能性があります (「方法」セクション)。しかし、小さすぎるアライメントは重要な進化中間体を誤って省略する可能性があります。 この研究では、一方のフォールド (Fold1) に割り当てられたクラスターからのすべての配列を、もう一方のフォールド (Fold2) に割り当てられたクラスターからのすべての配列に対して検索することにより、関連するファミリー間アライメントを抽出および構築しました。 このプロセスには何千もの独立した検索が含まれるため、効率を高めるためにタンパク質 BLAST が使用されました。 一貫性を保つために、Fold1 データベースに対する Fold2 の一致の相互検索が必要です。 最後の検証ステップとして、NCBI 配列レコードで Fold1/Fold2 として注釈が付けられていない Fold1/Fold2 クラスターからの配列を破棄することをお勧めします。 次に、複数のアルゴリズムを使用して、残りのファミリー間配列のセットを整列させることができます。 この場合、Clustal Omega48 と MUSCLE49 の両方を使用しました。

下流の系統解析を実行します。 ここでは、IQ-Tree82 および Consurf83 を使用した家系間配列アラインメントと、IQ-Tree を使用した祖先配列再構成について系統解析を行いました。 家族間のアラインメントは、他のさまざまな系統解析方法と互換性がある必要があります。

1. 1 ラウンドのタンパク質 BLAST (または phmmer) を使用して、PDB (または予測構造のデータベース) に対して目的の配列 (黒色) をクエリし、異なる二次構造 (黄色) を持つヒットを検索します。 ヒットはフォールド スイッチングの進化を示している可能性があります。 2. 実験的に決定された構造を持つすべての相同配列のより高感度な配列検索 (例: jackhmmer) を実行することにより、ステップ 1 の結果を相互検証します。 黒いシーケンス=Fold1; 黄色のシーケンス = Fold2。 Fold2 の黒い領域は、Fold2 がタンパク質のサブドメインである可能性を考慮して、Fold1 と同じ折り畳みを持っています。 3. 相互検証が成功した場合は、Fold1 (黒色) および Fold2 (黄色) に相同な配列をすべて見つけます。 可能性の高いフォールドファミリーによるクラスター配列。 4. Fold1 から Fold2 に対してすべての配列を検索し、Fold1 に対して Fold2 のヒットを相互に検索することにより、クロスファミリー配列アライメントを取得します。 5. IQ-Tree、ConSurf、AlphaFold2 を含むがこれらに限定されない下流解析にはクロスファミリー アラインメントを使用します。 各ステップの詳しい説明は本文に記載されています。

FixJPDB と KdpEPDB の間の推定上の進化的関係を特定するために、タンパク質データ バンク (PDB) 内のすべての配列に対して、他のすべての PDB 配列に対して最大 e 値 1e-04 でタンパク質 BLAST 検索を実行しました 16,41。 相同配列が異なる構造に折り畳まれているかどうかを判断するために、DSSP84 によって各 PDB の二次構造アノテーションが対応する BLAST アラインメントと一致して位置合わせされ、位置ごとに 1 つずつ比較されました。 このアプローチにより、整列した二次構造の類似性を定量的に評価することができました。 潜在的な一致には、残基の少なくとも 50% が α-ヘリックス ↔ β-シートの違いを示す、少なくとも 15 残基の連続領域があることが必要でした。 このアプローチを使用すると、FixJPDB のシーケンスは、e-value 1e-07 を持つ KdpEPDB のシーケンスと一致しました。 DSSP 比較により、C 末端出力ドメインの異なる二次構造が特定されました。 すべての PDB 配列に対する FixJPDB および KdpEPDB 配列のその後の 3 ラウンド PSI-BLAST 検索は、ギャップ オープン ペナルティ 10、ギャップ拡張ペナルティ 1 で実行されました。CTD PSI-BLAST 検索では、FixJPDB および KdpEPDB の配列は残基 124 にまたがりました。それぞれ –205 および残基 129 ~ 225。 重要なのは、FixJPDB と KdpEPDB は、いくつかの独立したアノテーターによって異なるフォールドを持つように定義されたことです: Pfam85 (http://pfam.xfam.org): PF00010 (helix-turn-helix)、PF02319 (winged helix)。 ECOD86 (http://prodata.swmed.edu/ecod/) はそれらを異なる T グループ (四螺旋 HTH および翼付き)、SCOP10 (https://scop.mrc-lmb.cam.ac.uk): HTH に分類します。 8034563 (二部構成応答制御因子のスーパーファミリー C 末端エフェクター ドメイン) 翼状ヘリックス: 8075578 (スーパーファミリー: PhoB 様)。

以前に得られた PSI-BLAST 結果をテストするために、実験的に決定された構造を持つ HTH4 および wH 配列に対してジャックマー検索も実行されました。 したがって、HTH4 (11) および wH (12) 出力ドメインを持つ 23 個の全長応答調節因子の構造が、タンパク質ドメインの進化的分類 (ECOD) データベースから同定されました 86。 PDB (2021/7/15) からダウンロードしたすべての配列のデータベースを使用し、検索後に配列の重複を削除し、ギャップ開放/拡張確率がそれぞれ 0.05 および 0.5 の 23 配列のそれぞれに対して 5 ラウンドのジャックマーを実行しました。 図2aの各行からの配列同一性は、それぞれの行にIDラベルを付けたPDBエントリーの配列に対してジャックマーを実行することによって生成された各配列アラインメントから計算されました。

DSSPアノテーションは、ジャックマーが生成した各配列アラインメントと一致して位置合わせされ、図2bの二次構造図を構成しました。 さらに詳しくは、11 個の HTH4 のそれぞれの二次構造アノテーションが、ECOD から特定された 48 個の wH の二次構造アノテーションと比較されました。 同様に、12 個の各 wH の二次構造アノテーションを、ECOD から特定された 35 個の HTH4 の二次構造アノテーションと比較しました (補足データ 3)。 整列した二次構造の各ペア (11 個の HTH4 タンパク質のそれぞれに 46 ペア、12 個の wH タンパク質のそれぞれに 30 ペア) の類似性を次のようにスコア付けしました: 同一の二次構造 (ヘリックス:ヘリックス [H, DSSP 表記の G,I] またはストランド:ストランド [DSSP 表記の E])、代替二次構造を持つ位置の場合は -1 (上記と同じ DSSP 表記を使用するヘリックス:ストランドまたはストランド:ヘリックス)。 位置特異的スコアは、コイル二次構造アラインメントを含む、各位置のギャップのない残基ペアの頻度によって正規化され、実質的に 0 としてスコア化されました。これらの正規化された位置特異的スコアは、各二次構造図のカラーマップを生成するために使用されました。

FixJPDB (PDB ID 5XSO、チェーン A) と KdpEPDB (PDB ID 4KFC、チェーン A) の両方の完全配列は、最大 e 値 1e-04 のタンパク質 BLAST を使用して、nr データベース (2020 年 10 月 8 日) に対して検索されました。検索ごとに最大 500,000 のアライメントが可能です。 各アライメントからの完全な配列は、nr データベース上の blastdbcmd を使用して、NCBI アクセッション コードによって取得されました。 両方の検索からのすべての配列が結合され、配列の重複が削除された後の合計は 999,912 になりました。 162 残基未満または 300 残基を超える配列は、適切な応答制御ドメイン構造を欠いている可能性が高いため削除され、581,791 個の配列が残りました。 これは標準ツールを使用して精選するには多すぎ、多くの配列同一性は最大 40% の同一性閾値をはるかに下回っており、これを下回ると多くのアライメント ツールは信頼できなくなります 87。 したがって、これらのシーケンスをさらに分析するために、次のセクションで説明するクラスタリングとサンプリングの方法を実行しました。

581,791 個の配列のセットから、それぞれがセットの他のすべてのメンバーに対して 24% 未満のペアワイズ同一性を持つ 367 個の配列の基本セットが、シード配列クラスタリング用に選択されました。 この閾値を超えると、応答調節配列は同様の構造をとることが予想されます 52。 このシード シーケンスのセットを識別するために、581,791 シーケンスのリスト (FixJPDB) の最初のシーケンスが選択されました。 その後の配列を、Biopython88 ペアワイズ2.align.localxsを使用して、それぞれ-1、-0.5のギャップオープン/拡張ペナルティでFixJPDBの配列と整列させました。 FixJPDB 配列との配列のペアごとの同一性が 24% 未満の場合、その配列は基底関数セットに追加されました。 リスト内の配列は、以前に基底セットに追加されたすべての配列とアラインメントされ、すべてのペアワイズ アラインメントの同一性が 24% 未満の場合にのみ含まれ、合計 367 個の基底配列が得られました。 残りの 581,424 個の配列は、アライメントされたペアごとの同一性が最も高い基本シーケンスでクラスター化され、以前と同様のパラメーターを使用して、pairwise2.align.localxs を使用してすべてのシーケンスをすべての基本シーケンスとアライメントすることによって徹底的に決定されました。

シーケンスの総数をさらに減らすために、シーケンスが 50 未満の 251 個のクラスターを無視しました。 残りの 116 個のクラスターは、103 個の「中」クラスター (<5000 配列) と 13 個の「大」クラスター (> 4000 配列) で構成されていました。 大きなクラスターのうち、1 つは FixJ (PDB ID 5XSO) の配列と 283,762 の他の配列を含み、もう 1 つは KdpE (PDB ID 4KFC) の配列と 25,035 の他の配列を含みました。

まず、Clustal Omega48 を使用して、各中クラスター内の配列をアラインメントしました。 目視検査により、一部のアライメントは、クラスター内の大部分の相同体よりも実質的に短いか長い配列によって偏っていることが明らかになりました。 このような配列を計算的に識別し、フィルタリングするために、(i) 配列の 95% 以上にギャップが含まれる 8 位置のウィンドウを検索することによって「疎ゾーン」を識別し、(ii) 10 位置のウィンドウを検索することによって「密集ゾーン」を識別しました。ここで、配列の 90% 以上にアミノ酸残基が含まれています。 (1) 疎ゾーンのアミノ酸が 10% 以上、または (2) 密集ゾーンのアミノ酸が 10% 未満の配列がクラスターから除去されました。 10% のしきい値は、この「選別」ステップを最適に実行するために経験的に決定されました。 次に、各クラスター内の配列数が収束するまで、カリングとクラスターオメガアライメントを 2 ~ 7 回連続して繰り返し実行しました。 このプロセス中に、9 個の中クラスターが 50 配列未満に縮小し、その後無視され、94 個の中クラスターが残りました。

最後に、Clustal Omega のグローバル アラインメント アルゴリズムは系統発生を正確に報告したり、構造を示唆したりしないため、PROMALS89 を使用して複数の配列アラインメントをさらにアラインメントしました。PROMALS89 では、最初に系統発生に基づいて配列をグループ化し、次に認識された構造ドメインのローカル アラインメントを実行します。 すべてのクラスターのアライメントの品質を視覚的に検査しました。

数千の配列を含む大規模なクラスターでは、追加の配列解析に扱いやすいサブサンプルを適切に生成するために、さまざまな戦略が必要でした。 クラスター内の配列構成を適切に表すサブサンプル サイズを決定するために、1000 配列と 5000 配列の 3 つの独立したランダムなサブサンプルが FixJ クラスターから抽出され、3 つの 5000 配列のサブサンプルが KdpE クラスターから抽出されました。 これらのサブサンプルは、中間クラスター (上記) と同様に、反復的なカリングとアライメントの対象となりました。

次に、これらのサブサンプルの多重配列アラインメント (MSA) を ConSurf83 (https://consurf.tau.ac.il/consurf_index.php) にアップロードしました。 結果として得られたスコアを比較して、一貫した進化速度を得るために必要な配列の数を決定しました。 結果は、FixJ クラスターと KdpE クラスターの両方を適切に表現するには 5000 配列が必要であることを示しました。 これらの配列アラインメントの配列同一性マトリックスから生成されたヒートマップの視覚的検査により、5000 個の配列が配列空間を均等にサンプリングしているという結論が裏付けられました。 したがって、FixJ クラスターと KdpE クラスターを表すために、その 5000 個のサブサンプル シーケンス セットから 1 つをランダムに選択しました。 5000 を超えるシーケンスを持つ 11 個の大規模クラスターのうち 8 個についても、同様に 5000 シーケンスをサブサンプリングしました。 配列数が 5000 未満の 3 つの大きなクラスターは、中程度のクラスターについて説明したように厳選されました。

クラスター間での配列の多様性が高く、クラスター間でペアごとに整列した配列同一性が 24% 未満であることが多く、FixJ-KdpE スーパーファミリーの MSA アセンブリが妨げられました。 したがって、我々は、94 個の中規模クラスター、11 個の大規模クラスターのサブサンプル、および FixJ および KdpE の大規模クラスターの 5000 配列のサブサンプルからの配列を 1 つの結合 MSA に組み立てる戦略を探しました。 まず、FixJ または KdpE の大規模クラスターのいずれかに類似した配列を持つクラスターを 2 つの半ファミリーに分類しました。 そのために、タンパク質BLASTを使用して、各クラスターの配列をFixJおよびKdpEの大規模クラスターのすべての配列と照合しました。 これらのクラスターの配列は、大きなクラスターの 1 つに対して高い統計的有意性を持って一致する傾向がありましたが、両方には一致しなかったため、クラスターの分類が簡素化されました。 このアプローチは、各クラスターの配列が他のクラスターの配列と 38% 以上の同一性で整列し、信頼性の高いアラインメントを促進したため、有望であることが示されました。 すべての BLAST 検索を完了した後、45 個の中型クラスターと 6 個の大クラスターが FixJ ハーフファミリーに割り当てられ、合計 13,006 配列になり、49 個の中型クラスターと 5 個の大クラスターが KdpE ハーフファミリーに割り当てられ、合計 10,785 配列になりました。

サンプリングとキュレーションにもかかわらず、どちらのハーフファミリーも大きすぎて、従来のツールを使用して MSA を作成できませんでした。 したがって、Clustal Omega を使用して 2 つの参照アライメントを生成し、各クラスターの代表的な配列 (FixJ の場合は 51 個の配列、KdpE の場合は 54 個の配列) をアライメントする代替アプローチを使用しました。 次に、PROMALS を使用して 2 つのハーフファミリー参照 MSA を改良しました。 目視検査により、7 つの配列がアラインメントに多くのギャップを生成したため、KdpE 参照 MSA から削除されました。 その後、それらの起源のクラスターは無視されました。 KdpE 参照 MSA の残りの配列は、Clustal Omega と PROMALS を使用して再調整されました。 最後に、目視検査により、プロリンと荷電アミノ酸のレジスターを手動で編集して、KdpE 参照 MSA のレジスター 225 と 270 の間の 3 つの配列 (PSQ94266、HBD38673、および KEZ75144) に一致させました。 FixJ MSA では、そのような手動キュレーションは必要ありませんでした。 次に、残りの 98 個のクラスターのそれぞれ内の配列を、(i) PROMALS を使用して独立してアラインメントし、(ii) MARS (Maintainer of Alignments using Reference Sequences for Proteins90) を使用して適切なハーフファミリー参照 MSA に統合しました。 MARS プログラムを使用すると、配列セット全体を再アラインメントすることなく、少なくとも 1 つの共通の配列を持つ精選された配列アラインメントを相互にマージできます。 このプログラムを使用すると、FixJ ハーフファミリー参照 MSA をガイドとして使用して、51 個の FixJ マッチング クラスターのすべての配列と FixJ クラスターの厳選されたサブサンプルがマージされました。 同様に、47 個の KdpE 一致クラスターのすべての配列と、KdpE クラスターの精選されたサブサンプルをマージしました。

2 つの半ファミリーにわたる配列のペアごとの同一性は、MSA を確実に作成するには低すぎました。 したがって、我々は、ハーフファミリーのアラインメントをスーパーファミリーの 1 つのアラインメントに結合する「推移的相同性」アプローチを試みました。 まず、配列 A と B が相同で、配列 B と C が相同である場合、配列 A と C 間の相同性は「ブリッジ」配列 B を介して仮定できるという論理に従って、関連配列の「パス」を特定しました91,92。この戦略を実行するために、タンパク質 BLAST を使用して、サンプリングされていない FixJ と KdpE の大きなクラスター (つまり、250,000 を超える配列と 25,000 を超える配列を持つクラスター) の間で最も高い配列同一性の一致を検索しました。 次に、このヒットを反対のフォールドのデータベースに対してクエリするなど、FixJ 配列を KdpE 配列に接続する 38% 以上の配列同一性を持つペアワイズ配列アライメントを持つ 7 つの配列を特定するまで続けました (補足表 3)。 「ブリッジ」配列 TME68356 (補足表 4) は、もともと KdpE ハーフファミリーに割り当てられていましたが、どちらのハーフファミリーの別の配列ともよく整列する可能性があることに注意してください。 補足表 3 の上部/下部 4 つの配列は、Clustal Omega を使用して FixJ/KdpE ハーフファミリーとアラインメントされました。 次に、MARS を使用して、ブリッジ配列を参照として使用してハーフファミリー アラインメントを結合しました。 得られた全ファミリー MSA には 45,199 個の配列が含まれていました。 これらの配列は CD-HIT で 85% の冗長性までフィルタリングされ、最終的に 23,791 配列を含む MSA が得られました。 しかし、この配列セットの系統樹を IQ-Tree で構築した場合、その品質は低く (つまり、KdpEPDB 配列の 140 ギャップ/360 位置)、それぞれ 1000 回のブートストラップ反復を 3 ラウンド行っても収束しませんでした。

上記で特定された推移的相同経路(補足表3)は、HTH4とwHフォールドを橋渡しする可能性のある追加の配列の存在を示唆しました。 したがって、4000 を超える配列を含む、以前に割り当てられた 5/6 つの FixJ/KdpE 配列クラスターがそれぞれ結合され、HTH4 (FixJ 様) および wH4 (KdpE 様) 配列を表す 2 つの BLAST データベースに変換されました。 結合された FixJ シーケンス クラスター内のシーケンスは、推奨に従ってワード サイズ 2 の CD-HIT93 を使用して 50% の冗長性まで削減されました。 タンパク質 BLAST 検索は、完全な KdpEPDB データベースを使用して、最大 e 値 1e ~ 04 の残りの 4520 配列のそれぞれに対して実行されました。 最小配列同一性および長さがそれぞれ 33% および 200 残基である 8607 個のアライメントはすべて、有意であるとみなされました。 これらのアライメントが本当に HTH4 と wH 配列に一致することを確認するために、NCBI の efetch を使用して 1793 個の HTH4 配列と 4995 個の wH 配列の NCBI レコードが取得されました。 各レコードの CTD (HTH または wH) の構造注釈が検索されました。 最終的に、それぞれ 1 つの注釈付き HTH と 1 つの注釈付き wH CTD を含む 3,074 個の BLAST 一致が保持されました。

wH 配列と一致する可能性のある追加の HTH 配列を特定するために、38% 以上のペア同一性で wH 配列とアラインメントされた 3074 個の一致セット内の 4 つの HTH4 配列すべてに対して追加の BLAST 検索を実行しました。 今回、データベースには、最初の FixJ および KdpE BLAST 検索から特定された 581,791 個の長さ制限された配列すべてが含まれていました。 これらの検索は、クラスター化方法に関係なく追加の HTH4 配列を特定することを目的としており、追加の wH 配列とよく一致する可能性のある 66 の推定 HTH 配列が得られました。 最後に、以前に同定された 47 個の KdpE マッチング クラスターからのすべての配列に対して 66 個の推定 HTH 配列のそれぞれをクエリすることにより、さらに 66 個のタンパク質 BLAST 検索を実行しました。 結果として得られた、最小配列同一性および長さ 33%、200 残基、および以前と同様に同定された NCBI 記録からの HTH/wH アノテーションを持つ 62 個の一致が含まれ、合計 3203 個の配列間で 3136 個の一致が含まれました。 参考として、FixJPDB と KdpEPDB の配列も含まれています。 これら 2 つの配列は、代替フォールドをコードする配列に対して、最小の整列同一性と、それぞれ 32% および 198 の長さを持っていました。

結果として得られた 3205 シーケンスは、Clustal Omega を使用する方法と、super5 コマンドを使用する MUSCLE49 バージョン 3 を使用する 2 つの方法でアラインメントされました。 75% を超えるギャップのあるカラムは、さらなる分析のために Geneious Prime 2022.2.2 (https://www.geneious.com) を使用して両方のアライメントから削除されました。 最終的なアラインメントでは、HTH4 の C 末端ヘリックスと wH の β ヘアピンウィングの間の完全な重複が示されました。 その後の系統解析と祖先配列の再構築が、Clustal Omega アラインメントに対して実行されました。

ローカルで実行できる ConSurf のバージョンである Rate4Site 2.0194 (https://www.tau.ac.il/~itaymay/cp/rate4site.html) は、3205 配列の完全なアラインメントの進化速度を計算するためにも使用されました。別個のHTH4およびwHサブファミリーとして(それぞれ664および2541配列;補足図4)。 このプログラムでは、系統樹を計算するために MSA ファイルが必要です。 レートを生成するために経験的ベイズ法を選択しました。これにより、最尤法に比べて保存スコア推定の精度が大幅に向上します94。 スコアは、保存 (9) から可変 (1) までの範囲のグレードとして表されます。

最尤法 (ML) 系統樹は、アミノ酸進化の Jones-Taylor-Thorton/JTT97 モデルと部位間の進化速度の変化を説明する CAT98 近似を使用して、FastTree95,96 とのアラインメントから推論されました。 このツリーは、IQ-Tree282 で実装された超高速ブートストラップ (UFBoot99) によってさらにサポートされました。 ModelFinder100 を使用して MSA に最適な進化モデル (選択したモデル - LG + F + R10) を特定し、1000 の UFBoot レプリケートでブランチ サポートを評価しました。 収束基準の最小相関係数は 0.99 に設定されました。 コンセンサスツリーも生成されました(補足図5)。

FastTree と IQ-Tree2 によってそれぞれ生成された ML ツリーとコンセンサス ツリーには、推定された系統発生の根の配置に関する情報が不足していました。 理想的には、アウトグループなどの外部情報を使用してツリーをルート化します。 しかし、両方のフォールドに相同なアラインメントの外側の単一配列を同定することができなかったため、アウトグループを使用することはできませんでした。 したがって、私たちは非可逆モデルを、木のすべての枝にルートしている木の対数尤度を計算するために使用される最尤モデル 101 と組み合わせました。 信頼できる結果を得るために、10,000 回の反復のブートストラップが実行されました。 このメソッドは、次のように、各ノードをルートとし、対数尤度によって降順に並べ替えられた 6393 本のツリーのリストを、さまざまなテストによる他のスコアとともに返します。 bp-RELL: RELL 法を使用したブートストラップ比率 102、p-KH: 片側岸野・長谷川検定の p 値 103、p-SH: 下平・長谷川検定の p 値 104、c-ELW: 期待尤度重み 105 および p- AU: ほぼ不偏 (AU) 検定の p 値 50。

AU テストは、テストのバイアスを軽減し、統計的に有意なツリーの信頼できるセットを取得するために開発された、新しく考案されたマルチスケール ブートストラップ手法を使用します。 AU テストは、SH テストと同様に、ブートストラップ確率および KH テストの標準的な使用で見落とされる選択バイアスを調整します。 また、SH test50 から生じる可能性のあるバイアスも排除されます。 全体として、AU テストは、ツリー選択の典型的なケースでは他の方法よりも偏りが少ないことが示されており、一般的な選択問題に推奨されます50。 したがって、p-AU (AU からの p 値) に依存して、p-AU > 0.8 の最も可能性の高い根を持つ 18 本の木のリストを取得しました。

祖先シーケンスの再構成は、IQ-Tree2 に実装された最尤法を使用して実行されました。この方法は、Yang et al.106 に記載されているアルゴリズムを使用します。 祖先配列は、経験的ベイジアン法を使用して、コンセンサスツリーのすべてのノードに対して決定されました(補足図5)。 事後確率は、各ノードの各状態 (アミノ酸) について報告されます。 ノードを 3 つのステップでスコア付けしました。 まず、ノードに割り当てられたすべての状態を考慮して平均確率を計算しました。 次に、状態をブリッジ配列 (TME68356.1) のアミノ酸に置き換えて、合計 p 値を計算しました。 最後に、祖先配列とブリッジ配列間のペアワイズ配列同一性を計算しました。 3 つの基準をすべて使用して、ブリッジ シーケンス付近の低い p 値を持つ 6 つの再構成シーケンスを特定しました。 これらのシーケンスは、下流の分析とモデルの構築に使用されました。

6 つの再構築された先祖の FASTA 配列と 12 のブリッジ配列が、AlphaFold2.114 構造予測モデルの完全な構築への入力として使用されました。 MSA は、BFD、MGnify、および Uniref データベースの配列検索を組み合わせるデフォルト手順によって生成されました。 予測は、最大日付が 2022 年 4 月 20 日のテンプレートを使用して行われました。 ランク 0 の構造は図 4 および S9 に示されています。 再構成された祖先配列とブリッジ配列について AF2 によって生成された構造の妥当性をテストするために、338 個の HTH4 配列と 937 個の wH 配列について最近リリースされた AF2 予測を調べました 107。 AF2 予測はすべてのケースでゲノムのアノテーションと一致しました。 予測の品質はさまざまで、1,275 個の予測構造のうち、29% が高い信頼度で予測され、58% が中程度の信頼度で予測され、残りの 13% は低い信頼度で予測されました。

応答調節因子とそれらに対応する DNA 配列の間の固有のヌクレオチド接触は、PDB ファイルからの原子座標を使用して、設定された閾値下での非共有結合相互作用の原子内距離を計算するツールである Resmap108 を使用して同定されました。 使用されたさまざまな相互作用タイプのデフォルトの距離しきい値は次のとおりです: (1) 水素結合 - ≤3.5 Å、(2) 疎水性相互作用 - ≤4.5 Å、(3) 芳香族相互作用 - ≤4.5 Å、(4) 不安定化接触 - ≤ 3.5 Å、(5) イオンペア - ≤5.0 Å、(6) その他の接触 (ファンデルワールス相互作用を含む) - ≤3.5 Å。 Resmap の開発以来 DNA 原子の命名法が変更されたため、PDB ファイルは次の変更を加えて Resmap の入力形式に一致するように手動で編集されました: (1) 記号の ' から * への置き換え、(2) ヌクレオチド原子 (A、C) 、G、または T)には接頭辞「D」が追加されました(DA、DC、DG、DT)。(3)編集されたヌクレオチド原子には固有の原子識別番号も割り当てられました。 これらの変更を含む PDB ファイルは Resmap に入力され、タンパク質鎖の原子と DNA 鎖の原子の間の固有の接触が特定されました。

タンパク質の図は PyMOL (The PyMOL Molecular Graphics System、バージョン 2.0 Schrödinger, LLC) (https://pymol.org/2/) で生成され、プロットとヒートマップは Matplotlib109 (https://matplotlib.org/stable/index) で作成されました。 html) および seaborn110 (https://seaborn.pydata.org/)。 系統樹は、R パッケージとして実装された ggtree (https://guangchuangyu.github.io/ggtree-book/chapter-ggtree.html) を使用して視覚化されました111。

研究デザインの詳細については、この記事にリンクされている Nature Portfolio Reporting Summary を参照してください。

配列アラインメントとクラスター、系統解析、AlphaFold2 モデルなど、この研究で生成されたデータは、アクセッション コード https://doi.org/10.5281/zenodo.7837636 で Zenodo データベースに保管されています。 この研究で生成されたサポート データは、補足情報とソース データ ファイルで提供されます。 この研究で使用された構造データは、アクセッション コード 5XSO、[https://doi.org/10.2210/pdb5SXO/pdb]、チェーン A (FixJPDB) 4KFC、[https:// doi.org/10.2210/pdb4KFC/pdb]、チェーン A (KdpEPDB)、1H0M [https://doi.org/10.2210/pdb1H0M/pdb]、チェーン D、および 4HF1 [https://doi.org/10.2210/この研究で使用された構造分類は、ECOD (http://prodata.swmed.edu/ecod/)、SCOP (https://scop.mrc-lmb.cam.ac) から入手できます。 .uk)、および Pfam (https://www.ebi.ac.uk/interpro/) データベース。 ソースデータはこのペーパーに付属しています。

この原稿で報告された結果を生成するために使用されたコードは、https://doi.org/10.5281/zenodo.7837636 および https://github.com/ncbi/FixJ_KdpE で入手できます。

アンフィンセン、CB タンパク質鎖の折り畳みを支配する原理。 サイエンス 181、223–230 (1973)。

論文 ADS CAS PubMed Google Scholar

Meinhardt, S.、Manley, MW Jr.、Parente, DJ & Swint-Kruse, L. タンパク質の機能を調節するためのレオスタットとトグル スイッチ。 PLoS ONE 8、e83502 (2013)。

論文 ADS PubMed PubMed Central Google Scholar

マーキン、CJ et al. ハイスループットのマイクロ流体酵素反応速度論による酵素の機能構造の解明。 科学 https://doi.org/10.1126/science.abf8761 (2021)。

コール・ストラウス、A. 他 RNA-DNA オリゴヌクレオチドによる鎌状赤血球貧血の原因となる突然変異の修正。 サイエンス 273、1386–1389 (1996)。

論文 ADS CAS PubMed Google Scholar

モラル、N. et al. ヨーロッパ人集団における主要な嚢胞性線維症変異 (デルタ F508) の起源。 ナット。 ジュネット。 7、169–175 (1994)。

論文 CAS PubMed Google Scholar

PA ミュラー氏と KH ヴーデン氏 がんにおける p53 変異。 ナット。 セルバイオル。 15、2–8 (2013)。

論文 CAS PubMed Google Scholar

Bai, Y. & Englander, SW フォールディングにおける将来の方向性: タンパク質構造の多状態の性質。 プロテイン 24、145–151 (1996)。

3.0.CO;2-I" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291097-0134%28199602%2924%3A2%3C145%3A%3AAID-PROT1%3E3.0.CO%3B2-I" aria-label="Article reference 7" data-doi="10.1002/(SICI)1097-0134(199602)24:23.0.CO;2-I">論文 CAS PubMed Google Scholar

Jackson, SE & Fersht, AR キモトリプシン阻害剤のフォールディング 2. 1. 2 状態遷移の証拠。 生化学 30、10428–10435 (1991)。

論文 CAS PubMed Google Scholar

カリフォルニア州オレンゴ、FM パールおよび JM ソーントン CATH ドメイン構造データベース。 方法 生化学。 アナル。 44、249–271 (2003)。

CAS PubMed Google Scholar

アンドリーバ、A.ら。 データの増加と SCOP データベースへの影響: 新しい展開。 核酸研究所 36、D419–D425 (2008)。

論文 CAS PubMed Google Scholar

グリーン、LHら。 CATH ドメイン構造データベース: 新しいプロトコルと分類レベルにより、進化を調査するためのより包括的なリソースが提供されます。 核酸研究所 35、D291–D297 (2007)。

論文 CAS PubMed Google Scholar

Baek、M.ら。 3 トラック ニューラル ネットワークを使用したタンパク質の構造と相互作用の正確な予測。 サイエンス 373、871–876 (2021)。

論文 ADS CAS PubMed PubMed Central Google Scholar

チョードリー、R.ら。 言語モデルと深層学習を使用した単一配列タンパク質の構造予測。 ナット。 バイオテクノロジー。 https://doi.org/10.1038/s41587-022-01432-w (2022)。

ジャンパー、J. et al. AlphaFold による高精度なタンパク質構造予測。 Nature 596, 583–589 (2021)。

論文 ADS CAS PubMed PubMed Central Google Scholar

ディッシュマン AF とフォルクマン BF タンパク質変態の謎を解き明かす。 ACS Chem. バイオル。 13、1438–1446 (2018)。

論文 CAS PubMed PubMed Central Google Scholar

Porter, LL & Looger, LL 現存するフォールドスイッチングタンパク質は広く普及しています。 手順国立アカデミー。 科学。 USA 115、5968–5973 (2018)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Lei, X. et al. がん変異 D83V は、MEF2B のαヘリックスからβストランドへのコンフォメーションスイッチを誘導します。 J.Mol. バイオル。 430、1157–1172 (2018)。

論文 CAS PubMed Google Scholar

チャン、YGら概日リズム。 タンパク質フォールドスイッチは概日発振器に加わり、シアノバクテリアの出力をクロックします。 サイエンス 349、324–328 (2015)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Alexander, PA、He, Y.、Chen, Y.、Orban, J. & Bryan, PN タンパク質の構造と機能を切り替えるための最小限の配列コード。 手順国立アカデミー。 科学。 USA 106、21149–21154 (2009)。

論文 ADS CAS PubMed PubMed Central Google Scholar

He, Y.、Chen, Y.、Alexander, PA、Bryan, PN & Orban, J. タンパク質の折り畳みと機能を切り替えるための突然変異の転換点。 ストラクチャー 20、283–291 (2012)。

論文 CAS PubMed PubMed Central Google Scholar

Porter, LL、He, Y.、Chen, Y.、Orban, J. & Bryan, PN サブドメイン相互作用は、約 80% の配列同一性を有するがフォールドが異なる 2 つのタンパク質ペアの設計を促進します。 生物物理学。 J. 108、154–162 (2015)。

論文 ADS CAS PubMed PubMed Central Google Scholar

ルアン、B.ら。 タンパク質フォールドスイッチングネットワークの設計と特性評価。 ナット。 共通。 14、431 (2023)。

論文 ADS CAS PubMed PubMed Central Google Scholar

ソロモン、TL 他。 温度のみを使用して、設計されたシステム内で 2 つの一般的なタンパク質フォールド間を可逆的に切り替えます。 手順国立アカデミー。 科学。 USA 120、e2215418120 (2023)。

論文 CAS PubMed Google Scholar

Alvarez-Carreno、C.、Penev、PI、Petrov、AS & Williams、LD LUCA 前のフォールド進化: SH3 ドメインと OB ドメインの共通の祖先。 モル。 バイオル。 進化。 38、5134–5143 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

Farias-Rico, JA、Schmidt, S. & Hocker, B. 2 つの古代タンパク質スーパーフォールドの進化的関係。 ナット。 化学。 バイオル。 10、710–715 (2014)。

論文 CAS PubMed Google Scholar

クミロフ、VKら。 タンパク質の多段階の突然変異変換は、構造中間体を介して折り畳まれます。 タンパク質科学。 27、1767–1779 (2018)。

論文 CAS PubMed PubMed Central Google Scholar

Newlove、T.、Konieczka、JH、Cordes、MH Cro タンパク質進化における二次構造スイッチング。 構造 12、569–581 (2004)。

論文 CAS PubMed Google Scholar

Roessler、CG et al. 推移的相同性に基づいた構造研究により、配列同一性は 40% であるがフォールドが異なる Cro タンパク質が発見されます。 手順国立アカデミー。 科学。 USA 105、2343–2348 (2008)。

論文 ADS CAS PubMed PubMed Central Google Scholar

O'Leary、NA et al. NCBI の参照配列 (RefSeq) データベース: 現在のステータス、分類学的拡張、および機能的注釈。 核酸研究所 44、D733–D745 (2016)。

論文 PubMed Google Scholar

バーマン、HMら。 タンパク質データバンク。 アクタクリスタログル。 Dバイオル。 クリスタロガー。 58、899–907 (2002)。

論文 PubMed Google Scholar

バーリー、SKら。 Protein Data Bank (PDB): 単一のグローバルな高分子構造アーカイブ。 方法 Mol. バイオル。 1607、627–641 (2017)。

論文 CAS PubMed PubMed Central Google Scholar

Koretke, KK、Lupas, AN、Warren, PV、Rosenberg, M. & Brown, JR 2 成分シグナル伝達の進化。 モル。 バイオル。 進化。 17、1956 ~ 1970 年 (2000)。

論文 CAS PubMed Google Scholar

Stock、AM、Mottonen、JM、Stock、JB & Schutt、CE 細菌の走化性の応答制御因子である CheY の三次元構造。 Nature 337、745–749 (1989)。

論文 ADS CAS PubMed Google Scholar

Leonard, PG、Golemi-Kotra, D. & Stock, AM 黄色ブドウ球菌 VraR 活性化におけるリン酸化依存性の構造変化とドメイン再構成。 手順国立アカデミー。 科学。 USA 110、8525–8530 (2013)。

論文 ADS CAS PubMed PubMed Central Google Scholar

ライト、GSA et al. 完全な酸素感知 FixL-FixJ 2 コンポーネント信号伝達システムのアーキテクチャ。 科学。 信号。 https://doi.org/10.1126/scisignal.aaq0825 (2018)。

Gao, R.、Mack, TR & Stock, AM 細菌反応調節因子: 共通領域からの多用途の調節戦略。 トレンド生化学。 科学。 32、225–234 (2007)。

論文 CAS PubMed PubMed Central Google Scholar

Galperin、MY 応答レギュレータ出力ドメインの構造と機能の多様性。 カー。 意見。 微生物。 13、150–159 (2010)。

論文 CAS PubMed PubMed Central Google Scholar

Galperin、MY 細菌応答制御因子の構造分類: 出力ドメインとドメインの組み合わせの多様性。 J.Bacteriol. 188、4169–4182 (2006)。

論文 CAS PubMed PubMed Central Google Scholar

Aravind, L.、Anantharaman, V.、Balaji, S.、Babu, MM & Iyer, LM ヘリックス-ターン-ヘリックス ドメインのさまざまな側面: 転写制御とその先。 FEMS 微生物。 改訂 29、231–262 (2005)。

論文 CAS PubMed Google Scholar

Altschul、SF et al. Gapped BLAST および PSI-BLAST: 新世代のタンパク質データベース検索プログラム。 核酸研究所 25、3389–3402 (1997)。

論文 CAS PubMed PubMed Central Google Scholar

Kim, AK、Looger, LL & Porter, LL 配列類似フォールドスイッチャーのための高スループット予測法。 バイオポリマー https://doi.org/10.1002/bip.23416 (2021)。

ポーター、LLら。 多くの異なる NusG タンパク質ドメインは、アルファヘリックスフォールドとベータシートフォールドの間で切り替わります。 ナット。 共通。 13、3802 (2022)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Wang, B.、Gumerov, VM、Andrianova, EP、Zhulin, IB & Artsimovitch, I. NusG パラログ RfaH の起源と分子進化。 mBio https://doi.org/10.1128/mBio.02717-20 (2020)。

Kerfeld, CA & Scott, KM BLAST を使用して「電子価値理論」の概念を教えます。 PLoSバイオル。 9、e1001014 (2011)。

論文 CAS PubMed PubMed Central Google Scholar

Gonzalez, MW & Pearson, WR 相同過剰拡張: 反復類似性検索の課題。 核酸研究所 38、2177–2189 (2010)。

論文 CAS PubMed PubMed Central Google Scholar

ベログロフ、GA et al. 一般的な転写因子をオペロン特異的な病原性調節因子に変換するための構造基盤。 モル。 セル 26、117–129 (2007)。

論文 CAS PubMed PubMed Central Google Scholar

Eddy、SR 確率的推論に基づく新世代の相同性検索ツール。 ゲノム情報 23、205–211 (2009)。

Google スカラー

Sievers、F. et al. Clustal Omega を使用した、高品質タンパク質の複数配列アライメントの高速かつスケーラブルな生成。 モル。 システム。 バイオル。 7, 539 (2011)。

記事 PubMed PubMed Central Google Scholar

Edgar、RC MUSCLE: 高精度および高スループットの複数配列アライメント。 核酸研究所 32、1792–1797 (2004)。

論文 CAS PubMed PubMed Central Google Scholar

下平博司 系統樹選択のほぼ不偏検定。 システム。 バイオル。 51、492–508 (2002)。

論文 PubMed Google Scholar

Chakravarty, D. & Porter, LL AlphaFold2 はタンパク質のフォールドスイッチングを予測できません。 タンパク質科学。 31、e4353 (2022)。

論文 CAS PubMed Google Scholar

Rost、B. タンパク質配列アラインメントのトワイライトゾーン。 タンパク質工学 12、85–94 (1999)。

論文 CAS PubMed Google Scholar

ベイトマン、A.ら。 Pfam タンパク質ファミリー データベース。 核酸研究所 32、D138–D141 (2004)。

論文 CAS PubMed PubMed Central Google Scholar

DA リベルレスら。 タンパク質の構造、タンパク質の生物物理学、分子進化のインターフェース。 タンパク質科学。 21、769–785 (2012)。

論文 CAS PubMed PubMed Central Google Scholar

Yadid, I.、Kirshenbaum, N.、Sharon, M.、Dym, O. & Tawfik, DS 変成タンパク質は、構造の進化的移行を媒介します。 手順国立アカデミー。 科学。 USA 107、7287–7292 (2010)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Alexander, PA、He, Y.、Chen, Y.、Orban, J. & Bryan, PN 88% の配列同一性を有するが、構造と機能が異なる 2 つのタンパク質の設計と特性評価。 手順国立アカデミー。 科学。 USA 104、11963–11968 (2007)。

論文 ADS CAS PubMed PubMed Central Google Scholar

ディッシュマン、AF 他変成タンパク質におけるフォールドスイッチングの進化。 サイエンス 371、86–90 (2021)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Alva, V.、Soding, J. & Lupas, AN 折りたたまれたタンパク質の起源となる古代ペプチドの語彙。 Elife 4、e09410 (2015)。

記事 PubMed PubMed Central Google Scholar

Kolodny, R.、Nepomnyachiy, S.、Tawfik, DS & Ben-Tal, N. 架橋テーマ: 異なる構造で見られる短いタンパク質セグメント。 モル。 バイオル。 進化。 38、2191–2208 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

Nepomnyachiy, S.、Ben-Tal, N. & Kolodny, R. さまざまな長さの再利用されたタンパク質セグメントの分析で明らかになった複雑な進化の足跡。 手順国立アカデミー。 科学。 USA 114、11703–11708 (2017)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Qiu, K.、Ben-Tal, N. & Kolodny, R. 異なる進化系統のドメイン間で共有される類似のタンパク質セグメント。 タンパク質科学。 31、e4407 (2022)。

論文 CAS PubMed PubMed Central Google Scholar

Li, W.、Kinch, LN、Karplus、PA、Grishin、NV ChSeq: カメレオン配列のデータベース。 タンパク質科学。 改訂 24、1075–1086 (2015)。

論文 CAS PubMed PubMed Central Google Scholar

マイナー、DL ジュニア & キム、PS 設計されたタンパク質配列の文脈依存的な二次構造形成。 ネイチャー 380、730–734 (1996)。

論文 ADS CAS PubMed Google Scholar

Alvarez-Carreno, C.、Gupta, RJ、Petrov, AS & Williams, LD 創造的破壊: 新しいタンパク質が古いタンパク質から折り畳まれます。 手順国立アカデミー。 科学。 USA 119、e2207897119 (2022)。

論文 CAS PubMed PubMed Central Google Scholar

リーバウ、J. et al. (19)F NMRによるフォールドスイッチ細菌糖転移酵素の活性化ダイナミクスの解明。 J.Biol. 化学。 295、9868–9878 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

Ugalde, JA, Chang, BS & Matz, MV サンゴ色素の進化を再現。 サイエンス 305、1433 (2004)。

論文 CAS PubMed Google Scholar

Harms、MJ & Thornton、JW グルココルチコイド受容体の進化における歴史的偶発性とその生物物理学的基礎。 Nature 512、203–207 (2014)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Tuinstra、RL et al. リンホタクチンのネイティブ状態における 2 つの無関係なタンパク質フォールド間の相互変換。 手順国立アカデミー。 科学。 USA 105、5057–5062 (2008)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Chakravarty, D.、Schafer, JW & Porter, LL フォールドスイッチングタンパク質の際立った特徴。 タンパク質科学。 32、e4596 (2023)。

論文 CAS PubMed Google Scholar

Cordes、MH、Burton、RE、Walsh、NP、McKnight、CJ & Sauer、RT 新しいタンパク質フォールドへの進化的な架け橋。 ナット。 構造体。 バイオル。 7、1129–1132 (2000)。

論文 CAS PubMed Google Scholar

Cordes、MH、Walsh、NP、McKnight、CJ & Sauer、RT インビトロでのタンパク質フォールドの進化。 サイエンス 284、325–328 (1999)。

論文 ADS CAS PubMed Google Scholar

Sikosek, T.、Krobath, H. & Chan, HS タンパク質の双安定性と進化的スイッチの生物物理学に対する理論的洞察。 PLoS コンピューティング。 バイオル。 12、e1004960 (2016)。

論文 ADS PubMed PubMed Central Google Scholar

Tian、P. & Best、RB 2 つのタンパク質の折り畳み間の橋のシーケンス フィットネス ランドスケープを探索します。 PLoS コンピューティング。 バイオル。 16、e1008285 (2020)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Sikosek、T. & Chan、HS タンパク質進化の生物物理学および進化タンパク質生物物理学。 JR協会インターフェース 11、20140419 (2014)。

記事 PubMed PubMed Central Google Scholar

Sikosek, T.、Chan, HS & Bornberg-Bauer, E. 適応的衝突からの脱出は、弱い機能的トレードオフと突然変異の堅牢性に基づいて行われます。 手順国立アカデミー。 科学。 USA 109、14888–14893 (2012)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Morrison, AJ, Wonderlick, DR & Harms, MJ アンサンブルエピスタシス: 突然変異間の非加法性の熱力学的起源。 遺伝学 219、iyab105 (2021)。

記事 PubMed PubMed Central Google Scholar

オフチニコフ、S.ら。 メタゲノム配列データを用いたタンパク質の構造決定。 サイエンス 355、294–298 (2017)。

論文 ADS CAS PubMed PubMed Central Google Scholar

ミルディタ、M.ら。 ColabFold: タンパク質のフォールディングを誰でも利用できるようにします。 ナット。 方法 19、679–682 (2022)。

論文 CAS PubMed PubMed Central Google Scholar

Rao, R.、Meier, J.、Sercu, T.、Ovchinnikov, S. & Rives, A. Transformer タンパク質言語モデルは教師なし構造学習器です。 bioRxiv https://doi.org/10.1101/2020.12.15.422761 (2020)。

Remmert, M.、Biegert, A.、Hauser, A. & Soding, J. HHblits: HMM-HMM アライメントによる超高速反復タンパク質配列検索。 ナット。 メソッド 9、173 ~ 175 (2011)。

論文 PubMed Google Scholar

Steinegger, M. & Soding, J. MMseqs2 は、大規模なデータセットの分析のための高感度のタンパク質配列検索を可能にします。 ナット。 バイオテクノロジー。 35、1026–1028 (2017)。

論文 CAS PubMed Google Scholar

Nguyen, LT、Schmidt, HA、von Haeseler, A. & Minh, BQ IQ-TREE: 最尤系統を推定するための高速かつ効果的な確率論的アルゴリズム。 モル。 バイオル。 進化。 32、268–274 (2015)。

論文 CAS PubMed Google Scholar

アシュケナージ、H. 他。 ConSurf 2016: 高分子の進化的保存を推定および視覚化するための改良された方法論。 核酸研究所 44、W344–W350 (2016)。

論文 CAS PubMed PubMed Central Google Scholar

Kabsch, W. & Sander, C. タンパク質の二次構造の辞書: 水素結合および幾何学的特徴のパターン認識。 バイオポリマー 22、2577–2637 (1983)。

論文 CAS PubMed Google Scholar

ミストリー、J.ら。 Pfam: 2021 年のタンパク質ファミリー データベース。Nucleic Acids Res. 49、D412–D419 (2021)。

論文 CAS PubMed Google Scholar

Cheng, H. et al. ECOD: タンパク質ドメインの進化的分類。 PLoS コンピューティング。 バイオル。 10、e1003926 (2014)。

記事 PubMed PubMed Central Google Scholar

Wang, Y.、Wu, H. & Cai, Y. タンパク質クラスタリングのための配列アラインメント法のベンチマーク研究。 BMCバイオインフォーム。 19, 529 (2018)。

記事 CAS Google Scholar

コック、PJ 他 Biopython: 計算分子生物学およびバイオインフォマティクス用に無料で利用できる Python ツール。 バイオインフォマティクス 25、1422–1423 (2009)。

論文 CAS PubMed PubMed Central Google Scholar

Pei, J. & Grishin, NV PROMALS: 遠縁のタンパク質の正確な複数配列アラインメントに向けて。 バイオインフォマティクス 23、802–808 (2007)。

論文 CAS PubMed Google Scholar

Parente, DJ, Ray, JCJ & Swint-Kruse, L. 複数の共進化的制約を受けるアミノ酸の位置は、固有ベクトル ネットワーク中心性スコアによって確実に特定できます。 プロテイン 83、2293–2306 (2015)。

論文 CAS PubMed PubMed Central Google Scholar

Balten, E.、Schliep, A.、Schneckener, S.、Schomburg, D. & Schrader, R. 推移的相同性によるタンパク質配列構造予測のクラスタリング。 バイオインフォマティクス 17、935–941 (2001)。

論文 CAS PubMed MATH Google Scholar

Gerstein, M. 3 番目の「中間」シーケンスによる推移的シーケンス比較の有効性の測定。 バイオインフォマティクス 14、707–714 (1998)。

論文 CAS PubMed Google Scholar

Fu, L.、Niu, B.、Zhu, Z.、Wu, S. & Li, W. CD-HIT: 次世代シーケンス データのクラスタリングを高速化しました。 バイオインフォマティクス 28、3150–3152 (2012)。

論文 CAS PubMed PubMed Central Google Scholar

Mayrose, I.、Graur, D.、Ben-Tal, N. & Pupko, T. タンパク質配列の部位特異的速度推論法の比較: 経験的ベイジアン法が優れています。 モル。 バイオル。 進化。 21、1781–1791 (2004)。

論文 CAS PubMed Google Scholar

Price、MN、Dehal、PS & Arkin、AP FastTree: 距離行列の代わりにプロファイルを使用して大きな最小進化ツリーを計算します。 モル。 バイオル。 進化。 26、1641–1650 (2009)。

論文 CAS PubMed PubMed Central Google Scholar

Price、MN、Dehal、PS および Arkin、AP FastTree 2 - 大規模なアライメントに対する近似最尤ツリー。 PLoS ONE 5、e9490 (2010)。

論文 ADS PubMed PubMed Central Google Scholar

Jones, DT、Taylor, WR & Thornton, JM タンパク質配列からの突然変異データ行列の迅速な生成。 計算します。 応用生物科学。 8、275–282 (1992)。

CAS PubMed Google Scholar

Stamatakis, A. 第 20 回 IEEE 国際並列および分散処理シンポジウムの議事録にて。 p. 8 (2006)。

Hoang, DT、Chernomor, O.、von Haeseler, A.、Minh, BQ & Vinh, LS UFBoot2: 超高速ブートストラップ近似の改善。 モル。 バイオル。 進化。 35、518–522 (2018)。

論文 CAS PubMed Google Scholar

Kalyaanamoorthy, S.、Minh, BQ、Wong, TKF、von Haeseler, A. & Jermiin, LS ModelFinder: 正確な系統推定のための高速モデル選択。 ナット。 方法 14、587–589 (2017)。

論文 CAS PubMed PubMed Central Google Scholar

Naser-Khdour, S.、Quang Minh, B. & Lanfear, R. 系統発生における根の配置の信頼性の評価: 哺乳類の非可逆モデルを使用した実証研究。 システム。 バイオル。 71、959–972 (2022)。

論文 CAS PubMed Google Scholar

岸野 博、宮田 哲、長谷川 正. タンパク質系統発生と葉緑体の起源の最尤推定。 J.Mol. 進化。 31、151–160 (1990)。

記事 ADS CAS Google Scholar

岸野 宏 & 長谷川 正. DNA 配列データからの進化樹形トポロジーの最尤推定値とヒト科の分岐順序の評価。 J.Mol. 進化。 29、170–179 (1989)。

論文 ADS CAS PubMed Google Scholar

下平 宏 & 長谷川 正. 系統推論への応用による対数尤度の多重比較。 モル。 バイオル。 進化。 16、1114 (1999)。

記事 CAS Google Scholar

Strimmer, K. & Rambaut, A. 誤って指定された可能性のある遺伝子ツリーの信頼セットの推論。 手順バイオル。 科学。 269、137–142 (2002)。

記事 PubMed PubMed Central Google Scholar

Yang, Z.、Kumar, S. & Nei, M. 祖先のヌクレオチドおよびアミノ酸配列の新しい推論方法。 遺伝学 141、1641–1650 (1995)。

論文 CAS PubMed PubMed Central Google Scholar

Varadi, M. et al. AlphaFold タンパク質構造データベース: 高精度モデルによりタンパク質配列空間の構造範囲を大幅に拡大します。 核酸研究所 50、D439–D444 (2021)。

論文 PubMed Central Google Scholar

Swint-Kruse, L. & Brown, CS Resmap: 高分子界面の二次元ネットワークとしての自動表現。 バイオインフォマティクス 21、3327–3328 (2005)。

論文 CAS PubMed Google Scholar

Hunter、JD Matplotlib: 2D グラフィックス環境。 コンピュータ科学。 工学 9、90–95 (2007)。

記事 Google Scholar

Waskom、ML シーボーン: 統計データの視覚化。 J. オープンソース ソフトウェア。 https://doi.org/10.21105/joss.03021 (2021)。

Yu, G.、Smith, DK、Zhu, H.、Guan, Y. & Lam, TT ggtree: 共変量およびその他の関連データを含む系統樹の視覚化と注釈付けのための R パッケージ。 方法 Ecol. 進化。 8、28–36 (2017)。

記事 Google Scholar

リファレンスをダウンロードする

有益な議論をしてくれた Carolyn Ott と、この原稿を批判的に読んでくれた Loren Looger に感謝します。 この研究では、NIH HPS Biowulf クラスター (http://hpc.nih.gov) を利用しました。 この研究は、国立医学図書館の学内研究プログラム、国立衛生研究所 (LM202011、LLP)、国立総合医科学研究所、国立衛生研究所 (GM118589 to LS-K) からの資金提供によって部分的に支援されました。 WM ケック財団 (LS-K.)。

国立バイオテクノロジー情報センター、国立医学図書館、国立衛生研究所、ベセスダ、メリーランド州、20894、米国

デヴリナ・チャクラバーティ & ローレン・L・ポーター

生化学および分子生物学部、カンザス大学医療センター、カンザスシティ、カンザス州、66160、米国

シュエサ・スリーニバサン & リスキン・スウィント・クルーゼ

生化学および生物物理センター、国立心肺血液研究所、国立衛生研究所、ベセスダ、メリーランド州、20892、米国

ローレン・L・ポーター

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

概念化: LLP および LSK 方法論: LLP、DC、LSK、および SS ソフトウェア: DC、LLP、および SS 調査: LLP、DC、LSK、および SS データキュレーション: SS、DC、および LLP 視覚化: LLP、DC、および SS執筆 – 原案: LLP、DC、SS 執筆 – レビューおよび編集: LLP、LSK、DC、SS 監督: LLP および LSK プロジェクト管理: LLP 資金調達: LLP および LSK

ローレン・L・ポーターへの通信。

著者らは競合する利害関係を宣言していません。

Nature Communications は、この研究の査読に貢献してくれた Nir ​​Ben-Tal 氏、Hue Sun Chan 氏、およびその他の匿名の査読者に感謝します。査読ファイルは利用可能です。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Chakravarty, D.、Sreenivasan, S.、Swint-Kruse, L. 他 2 つのタンパク質の折り畳み間の秘密の進化経路の特定。 Nat Commun 14、3177 (2023)。 https://doi.org/10.1038/s41467-023-38519-0

引用をダウンロード

受信日: 2022 年 12 月 7 日

受理日: 2023 年 5 月 3 日

公開日: 2023 年 6 月 1 日

DOI: https://doi.org/10.1038/s41467-023-38519-0

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。