勃起时间长了睾丸疼是:基因组注释实验笔记

来源:百度文库 编辑:中财网 时间:2024/05/02 18:29:06
一、CodonCode  Aligner
下载页面:  http://www.codoncode.com/aligner/download.htm
教程页面:  http://www.codoncode.com/aligner/tutorials/index.htm 里面的FLASH做得很到位~
这节课我们学习了如何用该软件将测序所得的多个波峰文件拼接成一条一致性序列,也就是得到最终的一条Gontig。
这里使用了软件自带的测试样本数据。
打开软件,无奈地选择试用,新建工程,就可以开始今天的任务了。

1.将波峰文件导入
File->import->Add Folder
我们所用的文件在这个路径下:
<前面是你所选择的安装路径。比如D:\Program Files>\CodonCode Aligner\Example Files\Example1\chromat_dir
之后展开Unassembled Samples就可以看到刚才导入的未拼接的文件,以.R或.S结尾的,一共有7个
双击Unassembled Samples,可以在弹出的窗口中浏览波峰文件的数据图像.
不同颜色表示不同的数据质量: 绿色为较差,浅绿为较不差= =,白色为高质量序列.
点击工具条里面的颜色切换按钮,还可以用其他颜色模式来区别碱基、数据质量等等。

2.进行粗放狂野的拼接:
选中所有的Uassembled Samples
Contig->Assembl
拼接成两条一致性的Contig,可见粗放拼接并不理想

3.打散已经拼接的Contig
选中拼接好的Contig,
Contig->Unassemble

4.对片段进行修饰:除去两端的低质量区
选中所有的Uassembled Samples
Sample->Clip ends -->点击clip
这时候如果无聊,可以再双击Unassembled Samples,在打开的7条波形图中看看,是不是真的切短了好多

5.去除片段中的载体序列
Sample->Trim Vector

6.设置我自己的参数&选择我用的载体
Edit->Preferences
在End clipping中可以设置去除地质量区的阈值,如去除过短的序列,去除地质量序列等;
在Vector trimming中可以选择你所使用的载体类型..没用过..还不会选..不过这地方可以选.

7.自定义拼接过程:
Contig->Assemble With Options
一个会用到的例子是:比如将几个序列拼接成一条Contig,其中一个序列质量较差,需要提取出来:
在Contig1中右键击该序列->Move to nassembled Samples,进行手工修改...
然后在拼接回来的过程中,希望把剩下的6个片段接成的原来的Contig打散,重新和修改后的片段进行拼接..
那么..选中Contig1(此时是由剩下6个片段构成的)和手工修改后的片段
Contig->Assemble With Options
在Contigs选项卡中就不能再选择Merge existing contigs了,而是要选择下一个 Unassemble existing contigs.
同时,在这里还可以选择按物种分类,预处理步骤,挑选算法 等等...

8.导出拼接结果
选中Contig1
file->Export->Consensus Sequences,选择Fasta格式,导出..
同样,导出其中的片段序列,可从
file->Export->Samples 这里导出选择的样本.

这个软件就告一段落了~~

二、Glimmer3.02

1. Linux的基础知识。
ls 查看目录下的文件和文件夹
more 查看某个文件的内容
../ 表示当前目录的上级目录
./ 表示当前目录
嗯,足够这节课用了.不喜欢用的,可以通过图形界面访问
2. 如何看到Windows磁盘分区下的文件?我们把那俩压缩文件都方在D盘里了
(1)使用U盘,拷,很好~
(2)在应用程序->系统工具->硬件管理器中,选择硬盘驱动器,看到当前计算机上所有的磁盘.
其中我们的机房的D盘是FAT32的,编号为hda5(在hda2,即逻辑分区的下一级).
在/mnt(这目录就是专门用来mount其它设备的吧)中新建一个目录,这里我们叫win_d,表示windows分区中的d盘,好记~
打开终端,使用mount命令
mount /dev/hda5 /mnt/win_d
表示,把编号为hda5的磁盘里所有文件映射到/mnt目录下的/win_d中去.
然后进入文件系统/mnt/win_d(或者直接在终端里敲这个地址)就能看到D盘中的内容了.

3. 在根目录下创建一个文件夹,用来放这两个程序:
[root@localhost ~]# mkdir glimmer
[root@localhost ~]# cd glimmer
然后把那两个压缩文件拖进来.不喜欢代码的同学完全可以鼠标点出来~
解压:
[root@localhost glimmer]# tar -xzvf glimmer302.tar.gz
[root@localhost glimmer]# tar -xzvf ELPH-1.0.1.tar.gz
然后来看看多了些啥
[root@localhost glimmer]# ls
ELPH  ELPH-1.0.1.tar.gz  glimmer3.02  glimmer302.tar.gz
这时在目录/root/glimmer下面已经多了两个文件夹了~

4. 编译程序

首先去编译Glimmer3.02这个软件
进入它的目录
[root@localhost glimmer]# cd glimmer3.02
看看有啥
[root@localhost glimmer3.02]# ls
bin   glim302notes.pdf  LICENSE  sample-run  SimpleMake
docs  lib               obj      scripts     src

其中src这个目录里面有编译的文件(老师讲的,可能是那PDF里看的..)进去,敲make
[root@localhost glimmer3.02]# cd src
[root@localhost src]# make

然后就看到它开始编译了...
* Make Target is  all
#####    Making Directory  /root/glimmer/glimmer3.02/src/Common   all  #####
make[1]: Entering directory `/root/glimmer/glimmer3.02/src/Common'
make[1]: Leaving directory `/root/glimmer/glimmer3.02/src/Common'
make[1]: Entering directory `/root/glimmer/glimmer3.02/src/Common'
....<此处下删代码若干>...

同样地,去编译ELPH吧
[root@localhost src]# cd ..
[root@localhost glimmer3.02]# cd ..
回到了装程序的目录glimmer
[root@localhost glimmer]# cd ELPH
[root@localhost ELPH]# cd sources/   #别问我为啥这次编译代码在sources目录里..
[root@localhost sources]# make
几行代码飘过,搞定...

这个时候为了充分发挥可视化界面的优势,点进去看看编译出来的东西把.至少有两个是重要的:
装满了glimmer3.02程序的文件夹:
/root/glimmer/glimmer3.02/bin
和装着elph程序的文件夹
/root/glimmer/ELPH/sources

5. 修改程序路径

先进入/root/glimmer/glimmer3.02,里面有一个PDF文件是这个软件的说明,有耐心的童鞋请研读,里面详细地介绍了这个软件的使用方法.
进入/root/glimmer/glimmer3.02/scripts,右击g3-iterated.csh这个文件,打开方式选择文本编辑器(方便实用的东西).在开头不远处找到这三行

set awkpath = /fs/szgenefinding/Glimmer3/scripts
set glimmerpath = /fs/szgenefinding/Glimmer3/bin
set elphbin = /nfshomes/adelcher/bin/elph

由于这个路径有变化,已经编程了刚才我们看过的文件夹路径.因此需要进行修改.
这里由于我们装这两个程序的glimmer文件夹彪悍地选在了root目录下,因此这三行应该改为:

set awkpath = /root/glimmer/glimmer3.02/scripts
set glimmerpath = /root/glimmer/glimmer3.02/bin
set elphbin = /root/glimmer/ELPH/sources/elph

6. 计算
下面终于可以用这个软件了..谁还记得用这个软件是做什么的讷...
在/root/glimmer/glimmer3.02/sample-run里面,有一个测试用的微生物基因组数据文件tpall.fna,
在终端中输入:

[root@localhost bin]#  ../scripts/g3-iterated.csh  ../sample-run/tpall.fna run
代码纷飞后计算结束,在/root/glimmer/glimmer3.02中你可以看到几个名为run啥啥啥的计算结果.
至此,任务完成!

注意,由于当前目录是/root/glimmer/glimmer3.02/bin,因此老师在上课的时候华丽地使用了../回上级目录.搞得人一头雾水~
以下命令其实效果相同:
[root@localhost bin]# cd ..   
[root@localhost glimmer3.02]# ./scripts/g3-iterated.csh ./sample-run/tpall.fna run
作者: 生物信息学    时间: 2009-7-15 19:53

基因组学实验2 之 不完全笔记
首先更正1里面的一个错误.
上次课中的语句
[root@localhost work]#  ../scripts/g3-iterated.csh  ../sample-run/tpall.fna run

这里的当前路径是glimmer/glimmer3.02/work文件夹,而不是1中写的glimmer/glimmer3.02/bin文件夹.所以老师华丽地用相对路径返回上一级不是随便来的;而是因为程序运行所生成的文件会保存在当前路径下,因此在自己新建的Work下运行这个程序,用意就在于将结果保存在这个目录里面.
而在1中的语句[root@localhost bin]#  ../scripts/g3-iterated.csh  ../sample-run/tpall.fna run
跑完之后,目录bin里面会有很多新增加的结果...时间长了就乱了...这种做法不提倡~

同时,又发现一个很奇妙的把小文件从Windows传到Linux的方法:
发到你自己的邮箱里,然后换个系统,下载下来 orz......

----------------------------------------------------------我是分割线------------------------------------------------------------

第2节课的内容很少,大部分时间我们是在重复第一节课的工作.大体上需要学习的内容有两个方面:1,会用这个Linux环境下的软件;2.熟悉一些Linux操作

一 第一个Script: g3-from-scratch.csh的使用

与上节课不同的是,这次我们尝试用第一个SCRIPT文件运行.看看都生成了哪些文件出来.
当然也要保证上次课的时候,3个脚本文件的路径你都已经修改好了.

首先,为这次实验新建一个目录work,用来存放实验结果.
[root@localhost glimmer3.02]# mkdir work
[root@localhost glimmer3.02]# cd work

然后运行第一个脚本文件g3-from-scratch.csh,将计算结果命名为run1保存.
[root@localhost work]# ../scripts/g3-from-scratch.csh ../sample-run/tpall.fna run1

得到了5个文件:
run1.detail
run1.icm
run1.longorfs
run1.predict
run1.train

查阅程序的说明文档,我们得知上面程序的运行过程是这样的:

以下调用的子程序都是我们上节课编译出来的,放在/glimmer3.02/bin里面的小程序
1.首先调用long-orfs这个子程序, 用寻找开放阅读框的方法寻找可能的基因.结果保存在run1.longorfs里面.打开看看,里面记录了可能基因的起止位置.
long-orfs -n -t 1.15 tpall.fna run1.longorfs

2.调用extract程序,从原序列文件tpall.fna中提取run1.longorfs里面预测的基因的序列片段. 结果生成训练集,保存在run1.train文件里面.
extract -t tpall.fna run1.longorfs > run1.train

3.用这个训练集,运行build-icm程序进行训练,得到预测模型ICM,结果保存在run1.icm文件里面.
build-icm -r run1.icm < run1.train

4.调用glimmer3这个程序,设定好参数(参数的具体意义可在/bin下运行glimmer3后阅读参数说明),输入序列文件tpall.fna,预测模型run1.icm,即可开始基因预测.结果保存在run1.predict和run1.detail里面.
glimmer3 -o50 -g110 -t30 tpall.fna run1.icm run1

以上就是三个程序中第一个程序流程以及5个文件的来由与意义.


二 一些LINUX命令.
为了验证上面所说的程序流程,我们可以用一些LINUX命令通过部分地调用子程序,一步一步地看看每个子程序都干了些啥,生成的文件是个什么样.
当然,我觉得直接用文本编辑器打开看最方便...但是对于目标LINUX达人的生物信息学生来说,不用命令行就是不爽...所以,即使这种理由很欠扁,我们也要熟悉几种终端里面的命令,便于我们查看结果.

0.  man命令是最强大的命令...可以用来查看所有其它命令的用途.例如
man ls
man more
man cat
man head
man tail
都可以看
空格翻页,回车下一行,按Q退出来.方便实惠,有问题,找男人(man)~

1. 任务一 run1.train里面生成了多少条预测基因的序列讷??

首先看看run1.train里面文件大概是个什么样
[root@localhost work]# cat run1.train
呼啸而过,触目惊心...
[root@localhost work]# more run1.train
这样可以一页一页地看
[root@localhost work]# head run1.train
查看开头的10行
[root@localhost work]# tail run1.train
查看结尾的10行
[root@localhost work]# tail +2 run1.train
查看从第2行到末尾的内容
[root@localhost work]# tail -15 run1.train
查看末尾15行的内容

经过查看,发现每条序列都是以">"这个符号开头的.

所以我们统计">"出现的次数
[root@localhost work]# grep \> run1.train |wc -l
514

(1)grep用来提取匹配某种格式的行的.上面一句是在文件run1.train中找">"出现的次数.而只写grep \> run1.train则返回的是所有带有">"的行.之所以在>前面加\是因为>在LINUX命令中有其他重要作用,因此为了让">"只表示">"这个符号而非其他意义,要用转义符"\"进行修饰.
(2)wc 是进行统计的命令.执行后可返回3个值:行数,词数,字节数.
加入参数-l 只返回行数.
(3)|管道的用法:简单地说:
<命令1>|<命令2>|<命令3>|<...>
其中命令1的执行结果作为命令2的输入;命令2的执行结果作为命令3的输入...依此类推...

可以试着把上面的命令都man一下.

因此,上面一条语句首先提取有">"的内容,然后传递给GREP命令,统计行数.结果是514

2. 任务二 找run1.predict里面有多少预测基因?
[
root@localhost work]# grep orf run1.predict |wc -l
1066

3. 任务三 我想利用extract函数把原序列文件里的序列,按照run1.predict的标记位置抽提出来.保存在predict.fasta里面
[root@localhost work]# ../bin/extract -t ../sample-run/tpall.fna run1.predict > predict.fasta
ERROR:  Skipped following coord line
>gi|15638995|ref|NC_000919.1| Treponema pallidum subsp. pallidum str. Nichols, complete genome
成功了,但是有错误,因为第一行的格式和这个子程序要求的格式不一样,如何不要第一行讷?

4. 任务四,利用extract函数把原序列文件里的序列,按照run1.predict的标记位置抽提出来.但是不要第1行,保存在predict_1.fasta里面

[root@localhost work]# tail +2 run1.predict | ../bin/extract -t ../sample-run/tpall.fna - >predict_1.fasta
这里用了"-",意义是标准输入.即前一个命令(tail +2 run.predict0的结果经过管道("|")传递到"-"这个地方来.
结果可以去查看predict_1.fasta

5. 任务五,同上,但不要参数-t ,结果保存在predict_2.fasta中,并比较它与predict_1.fasta的不同.
[root@localhost work]# tail +2 run1.predict | ../bin/extract  ../sample-run/tpall.fna ->predict_2.fasta
[root@localhost work]# diff predict_1.fasta  predict_2.fasta
哗啦啦地,不同的行会被显示出来.


命令总结(回去可以自己慢慢man出来看看)
1.man
2.more
3.cat
4.head
5.tail
6.grep
7.wc -l
8."<" 与 ">",还有"\"
9.管道与"-'
10.diff