在北极星集群上跑RoseTTAFold-All-Atom

一·、在北极星集群上提交RoseTTAFold-All-Atom------PDB格式

2024-04-13 08:27:00 admin 0

库存放在/lustre3/share/RoseTTAFold-All-Atom

RFAA环境:source /appsnew/source/RFAA.sh

pymol环境:source /appsnew/source/pymol3.sh 

                   ## pymol和RFAA 冲突不能同时安装

RFAA.run 集成了上述得所有环境,无需source ,用原生得就用上述环境

一、命令格式

RFAA.run  [–pymol]  [pdb|fasta]  [small.pdb|small.mol2]

格式说明

1、  直接跑 pdb结构 : RFAA.run  1tce.pdb 

如果想只跑A链 RFAA.run  1tce.pdb:A

 2、将所有的蛋白、DNA、RNA合成一个fasta文件 : RFAA.run  input.fasta 

!!!!这里多个蛋白或核酸链,fasta文件必须合一个文件,会被自动切割几个文件

 3、 跑小分子mol2格式 :  RFAA.run  1tce.pdb     XG4.mol2

                          RFAA.run  input.fasta  XG4.mol2

 4、 跑小分子pdb格式  :  RFAA.run  1tce.pdb     XG4.pdb

                          RFAA.run  input.fasta  XG4.pdb

 5、 跑小分子sdf格式(OE生成的):  RFAA.run  1tce.pdb     XG4.sdf

openeye(含smiles格式,推荐4,5)  RFAA.run  input.fasta  XG4.sdf

 6、 生成pymol的pse文件,和):     RFAA.run -pymol1tce 1tce.pdb     XG4.sdf

                                    RFAA.run -pymol 1tce 1tce.pdb  

 7、共价,预生成格式: RFAA.run  1tce.pdb     XG4.pdbyaml

共价键的yaml文件生成请参考 https://github.com/baker-laboratory/RoseTTAFold-All-Atom

修改后提交同上

  -h, --help      显示帮助信息

  -v, --version   显示版本信息

 

二、提交案例-pdb

案例路径:/gpfs3/database/RFAA/alian/2JO9

1、预测已经有的PDB结构

1)提交到gpu_4l(800氨基酸以下):pkurun-g4c 1 1  RFAA.run -pymol2JO9 2JO9.pdb:A

其中-pymol2JO9,表示跑完后会和2JO9结构alian并生成pse文件和log文件

生成的脚本如下:

(pymol3) [chen@login28 testRFAA-v100]$ cat job.srp234634  

#!/bin/bash

#SBATCH -J RFA234634

#SBATCH -p gpu_4l

#SBATCH -N 1

#SBATCH -o RFA234634_%j.out

#SBATCH -e RFA234634_%j.err

#SBATCH --no-requeue

#SBATCH -A chen_g1

#SBATCH --qos=cheng4l

#SBATCH --gres=gpu:1

#SBATCH --overcommit

#SBATCH --mincpus=7

RFAA.run -pymol2JO9 2JO9.pdb:A

如果想只跑A链: pkurun-g4c 1 1 RFAA.run  2JO9.pdb

2)提交到gpu_2l (800氨基酸以下):pkurun-g2c 1 1  RFAA.run -pymol2JO9 2JO9.pdb:A

3)提交到gpu_a800(1300氨基酸以下):pkurun-a800 1 1  RFAA.run -pymol2JO9  2JO9.pdb:A

3)提交到gpu_ah00(1300氨基酸以下):pkurun-h800 1 1  RFAA.run -pymol2JO9 2JO9.pdb:A

三、结果

1、生成的文件

图片关键词


2JO9.png为绘图文件,2JO9_rfaa.log 为日志文件,2JO9_rfaa_aux.pt为torch文件,2JO9_org.fasta为pdb原始fasta文件,2JO9.pse为pymol文件,可以用pymol直接打开

yaml文件:

(pymol3) [chen@login28 2JO9]cat rf2aa/config/inference/2JO9_rfaa.yaml

#gen yaml 

###bjx ./2JO9_rfaa_bjx_protein_bjx1.fasta

defaults:

  - base##基本的定义,路径

 

job_name: "2JO9_rfaa"

protein_inputs:

  A:

     fasta_file: ./2JO9_rfaa_bjx_protein_bjx1.fasta

 

2、2JO9_rfaa.log文件

(pymol3) [chen@login28 2JO9]$ cat  2JO9_rfaa.log

pae_inter: nan ##为相互作用的打分13分以下为佳

mean_plddt: 0.7583932876586914

mean_pae: 12.079401016235352

pae_prot: 12.079401016235352

#gen pymol by chenfj 

2JO9: (1.526375412940979, 29, 3, 1.8148088455200195, 31, 213.0, 37) ##红色为RMSD

runned min 5.62m  ## 跑的时间

3、打开2JO9.pse文件(2JO9.png为绘图)

使用北极星图形界面(web)直接打开来看,如下

图片关键词

 

四:不同长度蛋白质序列在不同GPU上的测试:

PDB 

2JO9

3FDT

3DGL

1TCE 

3B2U

3POV

3AY6

3DB6

1OFG

1MUU

1E7M

2V5P

1CF3

aa number

33

60

82

108

225

229

270

298

382

437

486

493

584

V100(min)

3.68

108.33

107,51

108.33

23.51

115.02

17.35

25.18

12.47

11.38

8.02

90.47

15.27

A800(min)

2.78

112.17

106.05

108.05

22.45

118.3

18.57

29.68

11.73

11.63

5.28

13.48

13.29

H800(min)

7.35

73.85

72.93

72.38

22.05

79.15

21.35

30.43

10.82

10.28

4.75

47.82

12.25

RMSD(埃)

V100

1.569

0.611

0.727

0.889

0.983

1.925

0.402

0.692

0.491

4.815

1.394

1.215

1.219

A800

0.8

0.468

0.684

0.934

1.294

2.161

0.383

0.7

0.522

6.259

1.142

1.374

0.505

H800

1.566

0.463

0.679

0.874

1.063

1.634

0.37

0.752

0.514

20.526

1.298

12.76

0.528

 

PDB 

6HN1

4A5S

4ANU

6EQC

7LZH

5L6H

3D4Y

2F18

1G9A

4XWK

1T3T

5KIS

5URK

6MU1

aa number

610

741

833

953

960

1029

1046

1046

1291

1295

1304

1492

1739

2740

V100(min)

73.15

30.9

显存超了V100

A800(min)

103.46

29.98

106.28

102.1

15.03

108.29

9.6

11.12

93.36

49.51

显存超了H800

H800(min)

29.82

29.87

46.15

46.38

14.67

54.5

9

9.03

50.3

50.43

显存超了H800

RMSD(埃)

V100

3.197

17.972

显存超了V100

A800

1.321

8.049

5.654

5.595

41.84

1.284

2.065

26.87

6.189

31.92

显存超了H800

H800

1.511

7.697

7.609

12.801

39.421

1.057

6.225

1.823

14.407

29.674

显存超了H800

表上结果显示A800和H800并没有比V100快多少,而且V100最好不要超过800氨基酸,A800和H800不要超过1300,当氨基酸残基超过650个的时候RFAA的RMSD会变得异常,远不如AF2.3,不过速度会快

 

结构示例:

2JO9

图片关键词

4A5S-a800

图片关键词

4A5S-V100

图片关键词

4ANU

图片关键词

2F18-a800—rmsd  26.872

图片关键词

2F18-h800—rmsd  1.823

图片关键词

 

 

 

 


首页
资源&收费
集群
成果
问答