张艺兴摸裤衩 自己的:关于motif、 profile 、block、pattern、domain的解释

来源:百度文库 编辑:中财网 时间:2024/04/19 18:05:57
motif :基序,也有译为“模替符”,蛋白质分子的不同区域或称motif,有的在维持特定
空间结构中起着关键作用(Structuralmotif),有的则与蛋白质的生物
功能密切相关(Functional motif)。
profile:在生物信息学上一般翻译为“表达谱”。
block在生物信息学上应该翻译为“模块”。

motif

motif与domain等概念易混,以下是几个关于它的定义

www.vbi.vt.edu/pr/glossary.htm
A conserved element of a protein sequence alignment that usually correlates wi
th a particular function. Motifs are generated from a local multiple protein s
equence alignment corresponding to a region whose function or structure is kno
wn. It is sufficient that it is conserved, and is hence likely to be predictiv
e of any subsequent occurrence of such a structural/functional region in any o
ther novel protein sequence. mRNA ? See messenger RNA Mutagen ? An agent that
increases the rate of mutations in an organism. Mutation ? An inheritable chan
ge of a gene, which includes genetic (point or single base) changes, from one
allelic form to another; or larger scale alterations such as chromosomal delet
ions or rearrangements.

www.biol.lu.se/mibiol/research/wachen/glossary.htm
A short conserved region in a protein sequence. Motifs frequently form a recog
nition sequence or are highly conserved parts of domains. Motif is sometimes u
sed in a broder sense for all localized homology regions, independent of their
size.

profile

我不太同意ssmuajyy君关于profile的解释,以下是从google中搜索到的我认为比较准确的
几种定义

bioinf.uta.fi/xml/courses/glossary/glossary-items.xml
A position-specific scoring table for sequence information within complete ali
gnments. Profiles define which residues are allowed at given positions; which
positions are conserved and which degenerate.

calliope.gs.washington.edu/software/bonsaiWebDocs/Glossary.html
a set of aligned sequences, possibly with associated information such as a tre
e. The alignment itself is a set of lines of characters, one line for each ali
gned sequence. The residues in the sequence are represnted by standard 1-lette
r codes and gaps are represented by '-'.

www.genomicglossaries.com/CONTENT/ex_bio.asp
A table that lists the frequencies of each amino acid in each position of prot
ein sequence. Frequencies are calculated from multiple alignments of sequences
containing a domain of interest [NCBI Bioinformatics] How does this relate to
the other profiling terms?

www.cogsci.princeton.edu/cgi-bin/webwn
an analysis (often in graphical form) representing the extent to which somethi
ng exhibits various characteristics; "a biochemical profile of blood"; "a psyc
hological profile of serial killers"

至于block,则纯粹是从模式识别的角度进行定义的,而没有考虑其生物学背景。

我知道的是这样的:
BLOCK:a block is an ungapped multiple alignment of highly similar fragments of
protein sequences. A block represents a motif with some structural or functio
nal significance. quote from<>

MOTIF :是一段在结构和功能上保守的序列。正如天天说的,是否也包括核酸序列吧?

PROFILE:a matrix representation of a conserved region in a multiple sequence
alignment that allows for gaps in the alignment.the rows include scores for ma
tching sequential columns of alignment to a text sequence.the columns include
substitution scores for amino acids and gap penalties.profile是指有gap的BLOCK吗
?quote from <>

PATTERN的定义我还不清楚?能告之吗?

它们有什么联系?这些词汇没有一个统一的准确定义吗?非常感谢楼上的回复!

有需要<>的PM给我。

关于motif的含义,请允许我先自引一下,呵呵
(http://www.dnathink.org/modules.php?name=Forums&file=viewtopic&t=406)

关于motif,顺带还有一个domain,这两个概念,书上写的糊涂,paper中用的糊涂,大家
看的更糊涂。很多论坛上都有关于他们的讨论,也可以算一个经典“坑”了,我这里稍微
小结一下,当然不是定论,也欢迎大家继续补充,同时也要注意,这些概念也还在进一步
的发展之中。

MOTIF:中文的翻译没有,以前也有人叫基序,不合适,所以扔掉,后来大家都直接叫moti
f不翻译了,谁都知道说的是什么。
motif的概念有几个层次或者说范畴。
1、sequence motif。一般指蛋白质序列上4-15个连续的氨基酸残基,具有很强的保守性
,具有一定的生物学功能,比如一些蛋白质特异性修饰位点(糖基话磷酸化等等),或者
一些蛋白酶等等的识别位点。对于核酸序列,本来是没有motif这个概念的,但是后来用着
用着不知道怎么就糊涂了,现在,对于一些核酸序列上的functional element比如cis-ac
ting element有时也被称为motif,也是一些序列保守的功能区。这些motif的概念基本算
一维结构上的(当然也不绝对)

2、structure motif。MCB和instant notes里面提到的主要是这个概念了。相对于1,这个
概念主要针对结构上的保守性,也就是正如acorn所说的具有一定的pattern,这样的patt
ern一般是由一些二级结构组合而成,所以Instant Notes中称之为超二级结构是有一定道
理的,比如最常见的motif就是一些转录因子中的DNA结合区,bHLH啦,L-zip啦,zc-fing
er啦等等,但是也有一些比较复杂的情况,在PFam数据库中就有一些比较大的motif达到5
0多甚至100多个氨基酸残基,他们结构上的pattern比较复杂,可能超出超二级结构的范畴
,有些目前研究的也不是很清楚,只能从一级序列去做判断。

3、network motif。这是新提出的一个概念,我在今年的几篇nature和PNAS的文献上看到
的,主要是用来表述protein interaction network里面蛋白之间一些连接和互作的模式。
和前两个相比,概念上已经有不小的变化了。

最后说说motif(第二类)和domain的差异。其实这两个词在文献中被混用的很频繁,搞到
最后他们之间的界限也就越发的模糊了。我个人倾向于从序列的长度来区别它们,短一点
的形成“超二级结构”的叫做motif,大一点的接近于形成三级结构的称作domain。当然,
这只是我个人的看法,呵呵,大家可以不必理睬。

注:
From MCB5,
Particular combinations of secondary structures, called motifs or folds, build
up the tertiary structure of a protein. (Forever大哥摘录)
From MOBC4,
Motif: Element of structure or pattern that recurs in many contexts. Specifica
lly, a small structural domain that can be recognized in a variety of proteins
. (acorn网友提供)

"motif is a very small sequence region. It is only an element of structure or
pattern, instead of structure itself. E.g., a glycosylation site may be regard
ed as a motif, however, it is usually consisted of only 4 amino acids, far fro
m enough to create a predictable structure. Most of the time it is a more func
tional than structural concept."(引自acorn网友)

至于BLOCK的概念,他的老家Blocks WWW Server (http://blocks.fhcrc.org/blocks/)上
是这么解释的:
“Blocks are multiply aligned ungapped segments corresponding to the most high
ly conserved regions of proteins.”

对照中的定义,可以看出,其实BLOCK和MOTIF是非常相关
的两个概念,存在很细微的差别。我个人的理解是,Block是由多序列无空比对而产生的那
个“同源框”(大家可以想象一下由ClustaW或者HMMer比对后生成的那些个保守的框框 )
这也是为什么起名叫Block的原因了,很形象的。相对于Block来自计算的结果,Motif则更
多的是来自实验的结果了,因此也就带有更多功能相关的信息了。

Pattern和Profile是两个“玄”且“泛”的概念。前者翻译成“模式”,后者翻译成“谱
”,呵呵,也是同样的“玄”。这两个概念涉及的范围都很广,基本一千个人就有一千种
理解了,所以很难有精确的定义了。“Pattern”还好一点,是从AI中的模式识别理论中借
用过来的,主要指从大量数据中抽象出来的具有的特殊性的范式,是具有特定结构的信息
集合。比如,可以说原核生物的操纵子模型是一种pattern,典型的启动子结构是一种pat
tern,而具有HLH结构的DNA binding motif也是一种pattern。bioinfor的一项重要任务就
是识别并推广这些pattern。

Profile和pattern一样,是一个很抽象的概念,从一维到N维。LaughCry朋友给出的定义主
要是指一维谱中的序列谱的概念。具体就是指利用多序列比对结果的全部信息构造每一个
位点的残基替代、插入、删除分数表。从序列谱可以看出,哪些残基可以出现在某个特定
位点,哪些位点是高度保守的,哪些是位点突变可能性较大,哪些位点或区域可以插入空
位,等等。
或者,表示为一条根据匹配、缺失或插入状态之间发生转换概率的链,来检测序列比对结
果中的保守区。序列比对结果中的每一个保守残基可以用一个匹配状态来描述(这我们称
之为HMM Profiles)。根据序列谱,同样可以获得类似BLOCK那样的结果,但是区别于Blo
ck所使用的模式识别方法。

但是Profiles的范畴还远远不只这些。序列谱,表达谱,结构谱,系统发育谱,相互作用
谱等等等等,尤其是表达谱,几乎是bioinfor领域中出现频率最高的名词了,呵呵。在这
些不同的概念中,“profiles”都和特定的多元矩阵以及打分函数相关联。其实说白了,
profiles就是一张多元/N维的数据表!

BTW,基因表达谱是由Okubo等(1991)倡导的人体基因图(body map of expressed human g
enes)计划时提出的。通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规
模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或
组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱,从
mRNA水平反映了细胞或组织特异性的Pattern。