在北极星集群上跑RoseTTAFold-All-Atom

三、在北极星集群上提交RoseTTAFold-All-Atom------核酸序列

2024-04-13 23:04:54 admin 0

一、fasta格式,必须按照标准来定义:

1、核酸和蛋白的fasta格式:

8IK4_org.fasta:

>8IK4_1|Chains A, B|Type IV methyl-directed restriction enzyme EcoKMcrB subunit|Escherichia coli K-12 (83333)

MESIQPWIEKFIKQAQQQRSQSTKDYPTSYRNLRVKLSFGYGNFTSIPWFAFLGEGQEASNGIYPVIFYYKDFDELVLAYGISDTNEPHAQWQFSSDIPKTIAEYFQATSGVYPKKYGQSYYACSQKVSQGIDYTRFASMLDNIINDYKLIFNSGKSVIPPLEGHHHHHH

>8IK4_2|Chain C|DNA (5'-D(*AP*GP*AP*(5CM)P*CP*GP*GP*TP*AP*G)-3')|DNA molecule (2853804)

TGAGACCGGTAGC

>8IK4_3|Chain D|DNA (5'-D(*CP*TP*AP*CP*CP*GP*GP*TP*CP*T)-3')|DNA molecule (2853804)

AGCTACCGGTCTC

二、命令格式

RFAA.run  [–pymol]  [pdb|fasta]  [small.pdb|small.mol2]

格式说明

1、  直接跑 pdb结构 : RFAA.run  1tce.pdb 

如果想只跑A链 RFAA.run  1tce.pdb:A

 2、将所有的蛋白、DNA、RNA合成一个fasta文件 : RFAA.run  input.fasta 

!!!!这里多个蛋白或核酸链,fasta文件必须合一个文件,会被自动切割几个文件

 3、 跑小分子mol2格式 :  RFAA.run  1tce.pdb     XG4.mol2

                          RFAA.run  input.fasta  XG4.mol2

 4、 跑小分子pdb格式  :  RFAA.run  1tce.pdb     XG4.pdb

                          RFAA.run  input.fasta  XG4.pdb

 5、 跑小分子sdf格式(OE生成的):  RFAA.run  1tce.pdb     XG4.sdf

openeye(含smiles格式,推荐4,5)  RFAA.run  input.fasta  XG4.sdf

 6、 生成pymol的pse文件,和):     RFAA.run -pymol1tce 1tce.pdb     XG4.sdf

                                    RFAA.run -pymol 1tce 1tce.pdb  

 7、共价,预生成格式: RFAA.run  1tce.pdb     XG4.pdbyaml

共价键的yaml文件生成请参考 https://github.com/baker-laboratory/RoseTTAFold-All-Atom

修改后提交同上

  -h, --help      显示帮助信息

  -v, --version   显示版本信息

 

三、提交案例-fasta

案例路径:/gpfs3/database/RFAA/alian

1、建立并保存fasta: 8IK4_rfaa.fasta

>8IK4_1|Chains A, B|Type IV methyl-directed restriction enzyme EcoKMcrB subunit|Escherichia coli K-12 (83333)

MESIQPWIEKFIKQAQQQRSQSTKDYPTSYRNLRVKLSFGYGNFTSIPWFAFLGEGQEASNGIYPVIFYYKDFDELVLAYGISDTNEPHAQWQFSSDIPKTIAEYFQATSGVYPKKYGQSYYACSQKVSQGIDYTRFASMLDNIINDYKLIFNSGKSVIPPLEGHHHHHH

>8IK4_2|Chain C|DNA (5'-D(*AP*GP*AP*(5CM)P*CP*GP*GP*TP*AP*G)-3')|DNA molecule (2853804)

TGAGACCGGTAGC

>8IK4_3|Chain D|DNA (5'-D(*CP*TP*AP*CP*CP*GP*GP*TP*CP*T)-3')|DNA molecule (2853804)

AGCTACCGGTCTC

2、yaml文件

cat rf2aa/config/inference/8IK4_rfaa.yaml

#gen yaml 

###bjx ./8IK4_rfaa_bjx_protein_bjx1.fasta

###bjx ./8IK4_rfaa_bjx_dna_bjx2.fasta

###bjx ./8IK4_rfaa_bjx_dna_bjx3.fasta

defaults:

  - base

 

job_name: "8IK4_rfaa"

protein_inputs:

  A:

     fasta_file: ./8IK4_rfaa_bjx_protein_bjx1.fasta

 

na_inputs:

  B:

     fasta: ./8IK4_rfaa_bjx_dna_bjx2.fasta

     input_type: "dna"

  C:

     fasta: ./8IK4_rfaa_bjx_dna_bjx3.fasta

     input_type: "dna"

3、提交任务

1)提交到gpu_4l (800氨基酸以下):   pkurun-g4c 1 1 RFAA.run -pymol 8IK4 8IK4_rfaa.fasta

提交脚本

#!/bin/bash

#SBATCH -J RFA002851

#SBATCH -p gpu_4l

#SBATCH -N 1

#SBATCH -o RFA002851_%j.out

#SBATCH -e RFA002851_%j.err

#SBATCH --no-requeue

#SBATCH -A chen_g1

#SBATCH --qos=cheng4c

#SBATCH --gres=gpu:1

#SBATCH --overcommit

#SBATCH --mincpus=7

pkurun RFAA.run -pymol 8qhh 8qhh_input.fasta

2)提交到gpu_2l (800氨基酸以下):   pkurun-g2c 1 1   RFAA.run -pymol 8IK4 8IK4_rfaa.fasta

3)提交到gpu_a800(1300氨基酸以下):pkurun-a800 1 1  RFAA.run -pymol 8IK4 8IK4_rfaa.fasta

3)提交到gpu_ah00(1300氨基酸以下):pkurun-h800 1 1  RFAA.run -pymol 8IK4 8IK4_rfaa.fasta

 

四、结果

1、对log文件分析

(pymol3) [chen@login28 alian]$ cat 8IK4_rfaa.log

#gen pymol by chenfj 

8IK4: (0.39987727999687195, 143, 5, 2.8700876235961914, 159, 922.0, 170) ##红色为RMSD

pae_inter: nan

mean_plddt: 0.8007603883743286

mean_pae: 9.388115882873535

pae_prot: 9.388115882873535)

runned min 44.5m  ## 跑的时间

2、打开pse文件

使用北极星图形界面(web)直接打开来看,如下

图片关键词

3、其他结构

PDB

6I1V:6I1W

6IJ2

6JVX

6KR6

6KTC

6L0Y

6L5N

分类

ssRNA

RNA

RNA

RNA

RNA

RNA

RNA

报错

Class values must be smaller than num_classes

CG拆分了

Class values must be smaller than num_classes

need at least one array to concatenate

Class values must be smaller than num_classes

Class values must be smaller than num_classes

Class values must be smaller than num_classes

特征序列

UCACUGAGU

CG

UGUGUGUGUGUG

UAUUN

GCCU

GGUAGACGCUUCGGCGUUUGCC

UUUUUUUUUUUUUUU

 

PDB

8IK4

8ILW

8JFR

8JFU

8JIC

8JKK

8K8D

分类

DNA、PRO

DNA、PRO

DNA、PRO

DNA、PRO

DNA

DNA、PRO

DNA、PRO

报错

DNA偏移

DNA散了

都散了

乱了

散了

分了

特征序列








RMSD(pro)

0.37

0.424

0.49

15.683

15.945

0.626

0.852

核酸结构

TGAGACCGGTAGC

CAACACTTAATCCAAA

ATTATGACAAATGTCATAG

ATTATGACAAATGTCATAG

TAGGGTTAGGGTTAGGGTTAGG

CGATCCGCTACG

CATTACGTAATG

时间(分钟)

19.37

4.05

7.18

37.27

0.25

31.4

5.53

 

PDB

8RZV

8S1W

8U0O

8U8L

8VXA

8XA9

分类

DNA、PRO

DNA、PRO

DNA、PRO

DNA、PRO

DNA

DNA、PRO

报错

散了

散了

散了

散了

偏了一条链

特征序列






CGACCGCCAGC

RMSD(pro)

0.89

18.676

1.099

0.625

4.44

0.625

核酸结构

TTAGGGTTAGGG

GGGCGCGAAGCATTCGCGGGGTTAGGGTTAGGG

ACGCGGCA

CTGTTAGGCTTAGGCTTAG

TCGTCACCAGTACAAACTACAACGCCTGTAGCATTCCACA

TTTTTTTGCTGGCGGTCG

时间(分钟)

8.18

0.25

5.07

88.73

93.35

63.33

核酸跑的很差,RNA和DNA单链目前还没有涉及,DNA双链也就是很少一部分能跑的可以

五、结果展示:

8IK4

图片关键词

6IJ2

图片关键词

 

8ILW


图片关键词



图片关键词

8JFR

图片关键词

图片关键词

8JFU

图片关键词

8JIC

图片关键词

图片关键词

8JKK

图片关键词

图片关键词

8K8D

图片关键词

图片关键词

8RZV

图片关键词

8S1W

图片关键词

8U0O

图片关键词

8U8L

图片关键词

8VXA

图片关键词

8XA9

图片关键词


首页
资源&收费
集群
成果
问答