天涯海角

My Web Home

Monthly Archives: 7月 2012

[喝下一罐可乐后1小时内身体的反应] Response in you body after drinking one-can Cola

喝下一罐碳酸饮料后,一小时内身体的反应

  • 10分钟:10匙的糖涌入你的身体,这相当于 100% 的推荐日摄入量。这剂量本应让你恶心想吐,但是(饮料内)的磷酸阻断了这种感觉。
  • 20分钟:你的血糖火箭般飚升。为了把过高的血糖转为脂肪,你的胰腺要开始忙乎了,满载生产胰岛素。
  • 40分钟:咖啡因吸收得也差不多了,你的瞳孔开始放大,血压升高,肝脏把更多的糖泵入血浆。你脑部的腺苷受体阻断身体的真实感受,让你疲劳顿失。
  • 45分钟:身体的多巴胺释放增加,让你快感倍加,同时对饮料的依赖性也在增加。这种身体神经反应和吸海洛因异曲同工。
  • 60分钟:小肠里的磷酸和钙、镁、锌结合,让你新陈代谢加速。高剂量的糖与人工甜味剂加速尿中钙的排泄,咖咖因的利尿作用也同时联袂登场(你要动身了!!)。原可存积于骨骼的钙镁锌将从你的体内流失,同时流失的还有钠、电解质和水。你的身体排出了所有先前喝下的碳酸饮料中的水;同时,溶解在水中的,体内那些原本用来构建你的细胞、骨骼、牙齿的营养物质与矿物质,也跟随着排出。

糖消耗的差不多时,你变得不安和(或)怠倦。你开始有了废物一般的感觉,是时候再来一瓶了?

[香蕉基因组]Banana Genome

The banana (Musa acuminata) genome and the evolution of monocotyledonous plants

Angélique D’Hont, France Denoeud, Jean-Marc Aury, Franc-Christophe Baurens, Françoise Carreel, et.al

Nature (2012) doi:10.1038/nature11241   PDF

Received:10 February 2012;  Accepted: 18 May 2012;  Published online 11 July 2012

 

ABSTRACT

Bananas (Musa spp.), including dessert and cooking types, are giant perennial monocotyledonous herbs of the order Zingiberales, a sister group to the well-studied Poales, which include cereals. Bananas are vital for food security in many tropical and subtropical countries and the most popular fruit in industrialized countries1. The Musadomestication process started some 7,000 years ago in Southeast Asia. It involved hybridizations between diverse species and subspecies, fostered by human migrations2, and selection of diploid and triploid seedless, parthenocarpic hybrids thereafter widely dispersed by vegetative propagation. Half of the current production relies on somaclones derived from a single triploid genotype (Cavendish)1. Pests and diseases have gradually become adapted, representing an imminent danger for global banana production3, 4. Here we describe the draft sequence of the 523-megabase genome of a Musa acuminata doubled-haploid genotype, providing a crucial stepping-stone for genetic improvement of banana. We detected three rounds of whole-genome duplications in the Musa lineage, independently of those previously described in the Poales lineage and the one we detected in the Arecales lineage. This first monocotyledon high-continuity whole-genome sequence reported outside Poales represents an essential bridge for comparative genome analysis in plants. As such, it clarifies commelinid-monocotyledon phylogenetic relationships, reveals Poaceae-specific features and has led to the discovery of conserved non-coding sequences predating monocotyledon–eudicotyledon divergence.

nature11241-f1.2

Figure 1: Chromosomal distribution of the main M. acuminata genome features. Distribution of genes and transposable elements (left) and paralogous relationships between the 11 chromosomes indicated with 12 distinct colours corresponding to the 12 Musa a/b ancestral blocks (right). LINEs, long interspersed elements.

nature11241-f2.2

Figure 2: Whole-genome duplication events. a, Paralogous relationships between chromosome segments from Musa α/β ancestral blocks 2 (red) and 8 (green). The 12 Musa α/β ancestral blocks are shown in different colours on the circle. b, Orthologous relationships of Musa ancestral blocks 2 and 8 with rice ancestral blocks ρ2, ρ5 and σ6. We did not observe a one-to-one relationship between, for instance, Musa α/β ancestral block 2 and one ρ ancestral block, which suggests that the γ and σ duplications are two separate events. c, Representation of the deduced WGD event.

nature11241-f3.2

Figure 3: Timing of whole-genome duplications relative to speciation events within representative monocotyledons and eudicotyledons. Boxes indicate WGD events. Green boxes indicate WGD events analysed in this paper. All nodes have 100% bootstrap support in a maximum likelihood analysis. Branch lengths (synonymous substitution rate) are indicated. The timing of the β WGD event relative to the Musaceae/Zingiberaceae split remains to be clarified.

2012072718195599

Figure 4: Six-way Venn diagram showing the distribution of shared gene families (sequence clusters) among M. acuminata, P. dactylifera, Arabidopsis thaliana, Oryza sativa, Sorghum bicolorand Brachypodium distachyon genomes. Numbers of clusters are provided in the intersections. The total number of sequences for each species is provided under the species name (total number of sequences/total number of clustered sequences).

***************************Text from BioonNews START*********************************

Nature:香蕉基因组测序完成
关于香蕉正濒临灭绝境地的报道很有可能被严重夸大了。至少这是一个科学家小组所希望的。这个小组的科学家终于完成了香蕉基因组的测序,并指望借此来获得新的抗性基因,以使香蕉免遭它的两个真菌“敌人”——黄叶病和黑斑病的侵袭。

世界上超过一半的香蕉和几乎所有出口到美国和欧洲的香蕉,都属于一种名为“卡文迪许”的香蕉。

“卡文迪许”香蕉没有种子,不能进行有性繁殖。这意味着所有香蕉的基因都是相同的,而且都同样容易受到真菌的威胁。

同时,“卡文迪许”香蕉拥有三条染色体,这使得它的基因组测序非常困难。

因此,在一项于7月12日在线发表在《自然》(Nature)志上的最新研究中,研究人员对另一个被称为DH Pahang的香蕉品种的基因组进行了测序。

DH Pahang香蕉是形成“卡文迪许”品种的三种香蕉之一,而且它对威胁“卡文迪许”香蕉的黄叶病具有很强的抵抗力。

更重要的是,正如右图中DH Pahang香蕉的种子所示,它有着完整的“性生活”。这意味着,DH Pahang香蕉可以被用来培育新的品种,或许其生命力要比今天的香蕉更为顽强。

***************************Text from BioonNews End*********************************

英研究称5亿年前生物DNA错误复制促成人类

20127271458435080

一条文昌鱼,它是人类和其它有脊椎动物的远古近亲。它似乎和一种早期无脊椎生物在它发生那两次严重的基因复制错误之前的状态相当相似

北京时间7月27日消息,据国外媒体报道,一项最新研究向我们讲述了这样一个故事:在大约5亿年前,在海底有一条无脊椎生物经历了两次成功的DNA复制——这是一次“程序错误”,但是这一个“错误”却意外地触发了其它生物包括人类的最终出现。

好消息是这一次古老的基因“突变”极大地改善了细胞通讯系统,因此我们的身体细胞整合信息的能力比现有最先进的智能手机还要好。不过也有坏消息,那就是这种信息通讯偶尔会出现崩溃,导致这一现象的基因渊源最早可以追溯到寒武纪时期,这一缺陷会导致糖尿病,癌症和神经错乱。有关这一研究的论文作者之一,英国邓迪大学生命科学学院的卡罗尔·麦肯托什教授(Carol MacKintosh)表示:“借由有性生殖的生命体一般拥有两份基因,分别遗传自父方和母方。而在5亿年前所发生的事情便是:这一过程在一只无脊椎动物的身上出现了错误,它继承了两次原本应当只继承一次的基因组。而在后来的几代中,这一错误反复发生,基因数量再次翻倍。”

麦肯托什教授表示,这样的基因复制现象也同样存在于植物演化过程中。因为采用这种新方法繁殖的后代在自然界中的适应和生存能力显然更强。她说:“这种复制并非是稳定的,然而绝大部分被复制的基因都很快丢失了,远远早于人类出现之前。”但是麦肯托什教授和她的小组发现确实有一小部分幸存了下来。

她的研究组对人体细胞内数百种不同的蛋白质进行研究,考察它们对生长因素和胰岛素的反应情况,胰岛素是荷尔蒙的一种。在这一过程中涉及的关键性蛋白质被称作14-3-3。在这项最近的研究工作中,科学家们对这些蛋白质进行制图,分类并展开生物化学分析。正是在这一过程中她们回溯到了最初的基因复制时期,回溯到了寒武纪。

世界上最初携带这一基因组的生物究竟是什么目前仍然无从知晓,不过麦肯托什教授表示现代生活在海中的文昌鱼似乎和这种早期无脊椎生物在它发生那两次严重的基因复制错误之前的状态相当相似。因此,麦肯托什教授认为“文昌鱼可以被视作是今天所有脊椎动物的非常古老的姐妹。”

这种被一路继承下来的蛋白质似乎已经经过演化,它会形成一个“小组”,相比单个蛋白质的情况,这种蛋白质组能生成更多的生长因子。麦肯托什教授表示:“因此在人体细胞内部的这一系统的行为就像是一套信号多路分发系统,就像是我们的手机能得以同时处理多条信息的功能类似。”

尽管像这样的“团队合作”有时也并非一直是有益的。但是研究人员们指出如果某项关键性的功能是由单一一个蛋白质实现的,比就像是在文昌鱼体内那样,那么这一蛋白质的丢失或突变将会是致命的。而如果蛋白质进行“团队工作”,即便其中的一个或几个出现丢失或变异,这个个体也将得以存活下来,尽管可能会有一些身体功能上的障碍。这种缺陷或缺陷可以解释疾病的发生,如糖尿病,癌症这些让人类深受其苦的病症。

麦肯托什教授说:“在二型糖尿病中,作为对胰岛素的反应,肌肉细胞失去了吸收糖的能力。与此相反,癌细胞则是贪得无厌,完全打破规则,肆意抢占其它细胞的营养,疯狂生长。”克里斯·马歇尔(Chris Marshall)是英国皇家癌症医院所属癌症研究中心的细胞生物学教授。他说他认为这项研究工作“加深了人们对于控制我们细胞行为的信号机制演化进程。”

麦肯托什教授和她的同事们目前正将注意力集中在一种能引起黑色素瘤和神经错乱的蛋白质大类上。由于这项研究中可能牵涉到和远古时期基因突变事件之间的联系,这项研究在帮助对抗疾病的同时还将有望揭开人类和其它动物的演化之谜。

Translation from ScienceNet

Ancient ‘mistake’ led to humans

Jennifer Viegas

More than 500 million years ago a spineless ocean-dwelling creature experienced a dramatic change to its DNA, which may have led to the evolution of vertebrates, says a new study.

The good news is that these ancient DNA doublings boosted cellular communication systems, so that our body’s cells are now better at integrating information than even the smartest smartphones.

The bad part is that communication breakdowns, traced back to the very same genome duplications of the Cambrian Period, can cause diabetes, cancer and neurological disorders.

“Organisms that reproduce sexually usually have two copies of their entire genome, one inherited from each of the two parents,” says Professor Carol MacKintosh, co-author of a study appearing today in the Royal Society journal Open Biology.

“What happened over 500 million years ago is that this process ‘went wrong’ in an invertebrate animal, which somehow inherited twice the usual number of genes. In a later generation, the fault recurred, doubling the number of copies of each gene once again.”

MacKintosh, of the College of Life Sciences at the University of Dundee, says such duplications also happened in plant evolution. As for the progeny of the newly formed animal, they remarkably survived and thrived.

“The duplications were not stable, however, and most of the resulting gene duplicates were lost quickly – long before humans evolved,” she says. But some did survive, as MacKintosh and her team discovered.

Her research group studies a network of several hundred proteins that work inside human cells to coordinate their responses to growth factors and to insulin, a hormone. Key proteins involved in this process are called 14-3-3.

Cambrian ancestor

For this latest study, the scientists mapped, classified and conducted a biochemical analysis of the proteins. This found that they date back to the genome duplications, which occurred during the Cambrian.

The first animal to carry them remains unknown, but gene sequencing shows that a modern day invertebrate known as amphioxus “is most similar to the original spineless creature before the two rounds of whole genome duplication,” says MacKintosh. “Amphioxus can therefore be regarded as a ‘very distant cousin’ to all the vertebrate (backboned) species.”

The inherited proteins appear to have evolved to make a “team” that can tune into more growth factor instructions than would be possible with a single protein.

“These systems inside human cells therefore behave like the signal multiplexing systems that enable our smartphones to pick up multiple messages,” says MacKintosh.

The downside of multiplexing

The teamwork may not always be a good thing, though. The researchers propose that if a critical function were performed by a single protein, as in amphioxus, then its loss or mutation would likely be lethal, resulting in no disease.

If multiple proteins are working as a team, however, and one or more becomes lost or mutated, the individual may survive, but could still wind up with a debilitating disorder and pass it onto the next generation. Such breakdowns could help to explain how diseases, such as diabetes and cancer, are so entrenched in humans.

“In type 2 diabetes, muscle cells lose their ability to absorb sugars in response to insulin,” says MacKintosh. “In contrast, greedy cancer cells don’t await instructions, but scavenge nutrients and grow out of control.”

Chris Marshall, a professor of cell biology at the Institute of Cancer Research at Royal Cancer Hospital, thinks the research “gives new insights into the evolution of signalling mechanisms that control cell behaviour.”

MacKintosh and her team are now focusing on the protein families whose upset causes melanoma and neurological disorders. Because of the likely connection to ancient genetic events, the research could shed light on human and other animal evolution while also helping to unravel diseases.

 

Orignal TEXT from ABCsicence

[强大的进化树编辑软件] Powerful on-line phylogenetic tree editor

Zhang et al (2012)开发了一款很强大的进化树编辑、管理的在线服务程序,EvolView。EvolView是一个进化树可视化的软件,同时可以做各种编辑和处理,同时还支持额外增加一些数据上去,譬如把进化树和其他的表格数据关联起来等。最喜欢的另外一点,他是我目前用到的可视化编辑软件中,画出来的图形最漂亮的。EvolView支持一些列的数据格式例如,Newick, Nexus, Nhx and PhyloXML。图片可以导出高质量的PNG,JPEG,SVG等图片。

EvolView在线网站地址:http://www.evolgenius.info/evolview.htmlF1

 

EvolView, an online tool for visualizing, annotating and managing phylogenetic trees
Huangkai Zhang, Shenghan Gao, Martin J. Lercher, Songnian Hu1, and Wei-Hua Chen

EvolView is a web application for visualizing, annotating and managing phylogenetic trees. First, EvolView is a phylogenetic tree viewer and customization tool; it visualizes trees in various formats, customizes them through built-in functions that can link information from external datasets, and exports the customized results to publication-ready figures. Second, EvolView is a tree and dataset management tool: users can easily organize related trees into distinct projects, add new datasets to trees and edit and manage existing trees and datasets. To make EvolView easy to use, it is equipped with an intuitive user interface. With a free account, users can save data and manipulations on the EvolView server. EvolView is freely available at: http://www.evolgenius.info/evolview.html.

Nucleic Acids Research 40, W569-W572.

doi: 10.1093/nar/gks576

Original TexT from PLoB

Bean Asr gene polymorphisms [大豆脱落酸胁迫应答基因的多样性]

Molecular ecology and selection in the drought-related Asr gene polymorphisms

 in wild and cultivated common bean (Phaseolus vulgaris L.)

Andrés J CortésCarolina M ChavarroSantiago MadriñánDominique This and Matthew W Blair

BMC Genetics 2012, 13:58 doi:10.1186/1471-2156-13-58  PDF

Published: 16 July 2012


Abstract (provisional)

Background

The abscisic acid (ABA) pathway plays an important role in the plants’ reaction to drought stress and ABA-stress response (Asr) genes are important in controlling this process. In this sense, we accessed nucleotide diversity at two candidate genes for drought tolerance (Asr1 and Asr2), involved in an ABA signaling pathway, in the reference collection of cultivated common bean (Phaseolus vulgaris L.) and a core collection of wild common bean accessions.

Results

Our wild population samples covered a range of mesic (semi-arid) to very dry (desert) habitats, while our cultivated samples presented a wide spectrum of drought tolerance. Both genes showed very different patterns of nucleotide variation. Asr1 exhibited very low nucleotide diversity relative to the neutral reference loci that were previously surveyed in these populations. This suggests that strong purifying selection has been acting on this gene. In contrast, Asr2 exhibited higher levels of nucleotide diversity, which is indicative of adaptive selection. These patterns were more notable in wild beans than in cultivated common beans indicting that natural selection has played a role over long time periods compared to farmer selection since domestication.

Conclusions

Together these results suggested the importance of Asr1 in the context of drought tolerance, and constitute the first steps towards an association study between genetic polymorphism of this gene family and variation in drought tolerance traits. Furthermore, one of our major successes was to find that wild common bean is a reservoir of genetic variation and selection signatures at Asr genes, which may be useful for breeding drought tolerance in cultivated common bean.

Figure 1. Genetic regions considered for the diversity analysis of Asr1 and Asr2. Genetic regions considered for the diversity analysis of a. Asr1 and b. Asr2 in the wild and cultivated collections. Silver boxes are introns. Gray markers are transitions and pink markers are transversions

AthaMap —- web-tools for genome-wide identification of microRNA targets in Arabidopsis 鉴定拟南芥基因组中miRNA作用位点

‘MicroRNA Targets’, a new AthaMap web-tool for genome-wide identification of miRNA targets in Arabidopsis thaliana


Authors: Lorenz BülowJulio C. BolívarJonas RuheYuri Brill and Reinhard Hehl

BioData Mining 2012, 5:7 doi:10.1186/1756-0381-5-7     PDF

Published: 16 July 2012

Abstract (provisional)

Background

The AthaMap database generates a genome-wide map for putative transcription factor binding sites for A. thaliana. When analyzing transcriptional regulation using AthaMap it may be important to learn which genes are also post-transcriptionally regulated by inhibitory RNAs. Therefore, a unified database for transcriptional and post-transcriptional regulation will be highly useful for the analysis of gene expression regulation.

Methods

To identify putative microRNA target sites in the genome of A. thaliana, processed mature miRNAs from 243 annotated miRNA genes were used for screening with the psRNATarget web server. Positional information, target genes and the psRNATarget score for each target site were annotated to the AthaMap database. Furthermore, putative target sites for small RNAs from seven small RNA transcriptome datasets were used to determine small RNA target sites within the A. thaliana genome.

Results

Putative 41,965 genome wide miRNA target sites and 10,442 miRNA target genes were identified in the A. thaliana genome. Taken together with genes targeted by small RNAs from small RNA transcriptome datasets, a total of 16,600 A. thaliana genes are putatively regulated by inhibitory RNAs. A novel web-tool, ‘MicroRNA Targets’, was integrated into AthaMap which permits the identification of genes predicted to be regulated by selected miRNAs. The predicted target genes are displayed with positional information and the psRNATarget score of the target site. Furthermore, putative target sites of small RNAs from selected tissue datasets can be identified with the new ‘Small RNA Targets’ web-tool.

Conclusions

The integration of predicted miRNA and small RNA target sites with transcription factor binding sites will be useful for AthaMap-assisted gene expression analysis. URL: http://www.athamap.de/

Figure 1. The ‘MicroRNA Targets’ web-tool after performing a search for miRNA163 target genes
Figure 2. Partial screenshot of the sequence window linked to the miRNA163 target site at position 24877969 on chromosome 1

Identification and Characterization of MicroRNAs from Barley

Identification and Characterization of MicroRNAs from Barley 

(Hordeum vulgare L.) by High-Throughput Sequencing


State Key Laboratory of Crop Stress Biology in Arid Areas, College of Agronomy and Yangling Branch of China Wheat Improvement Center, Northwest A&F University, Yangling 712100, Shaanxi, China

International Journal of Molecular Sciences (Int. J. Mol. Sci.) 201213(3), 2973-2984; doi:10.3390/ijms13032973
(This article belongs to the Special Issue Advances in Molecular Plant Biology)


Abstract: MicroRNAs (miRNAs) are a class of endogenous RNAs that regulates the gene expression involved in various biological and metabolic processes. Barley is one of the most important cereal crops worldwide and is a model organism for genetic and genomic studies in Triticeae species. However, the miRNA research in barley has lagged behind other model species in grass family. To obtain more information of miRNA genes in barley, we sequenced a small RNA library created from a pool of equal amounts of RNA from four different tissues using Solexa sequencing. In addition to 126 conserved miRNAs (58 families), 133 novel miRNAs belonging to 50 families were identified from this sequence data set. The miRNA* sequences of 15 novel miRNAs were also discovered, suggesting the additional evidence for existence of these miRNAs. qRT-PCR was used to examine the expression pattern of six randomly selected miRNAs. Some miRNAs involved in drought and salt stress response were also identified. Furthermore, the potential targets of these putative miRNAs were predicted using the psRNATarget tools. Our results significantly increased the number of novel miRNAs in barley, which should be useful for further investigation into the biological functions and evolution of miRNAs in barley and other species.
Keywords: barley; miRNA; Solexa sequencing; qRT-PCR; abiotic stress


==============[Translation from “NGS-from Sun xiaoyu” BLOG] start ==============

MiRNA是一类在不同生物和代谢通路中起基因表达调节作用的内源性RNA。大麦是一种全球性的重要谷类农作物,同时也是一种遗传模式生物和小麦亚族遗传研究的模式生物。但是,对大麦miRNA的研究一直落后于对其他禾本科植物的模式物种。为了获得更多的大麦miRNA基因信息,我们用Solexa对一个是由4个不同组织的等量RNA混合得到样品进行了小RNA文库测序,本次测序除发现了126个保守的miRNA外(属于56个家族),还发现了133个新的miRNA,这些新的miRNA隶属于50个家族。此外还发现了15个新的miRNA的miRNA*序列,更好的证明了这些miRNA的存在。利用qRT-PCR对6个随机挑选的miRNA进行了表达模式验证。本次研究也发现了一些参与干旱和高盐胁迫应答的miRNA。此外,这些预测的miRNA的靶基因也通过psRNATarget软件进行了预测。本次研究大大增加了大麦中参与大麦和其他物种的生物学功能和进化的miRNA的数量。


1.       小RNA文库测序

共得到9,540,562条 clean reads, 其中4,045,224为unique sequences。利用BLASTN将所有reads与Rfam和 RNAdb数据库进行比对 

2.       大麦中保守小RNA的鉴定及其进化保守性分析

将测序所得到的小RNA序列与miRBase 18.0数据库中已知植物miRNA进行比对,发现了126个保守的miRNA外(属于56个家族)。大部分大麦中发现的miRNA是单子叶植物中具有高保守性的miRNA,尤其是禾本科植物。

3.新小RNA的预测

4. 大麦小RNA的验证

利用qRT-PCR对大麦不同发育时期不同组织的小RNA进行验证分析 


5. 小RNA和 miRNA 压力耐受性

6. 靶基因预测


============== [Translation from “NGS-from Sun xiaoyu” BLOG] end ==============



###################################################################################


######################################################################################







学用BLAST程序进行数据分析

Source from helixnet

主要内容
1.基本概念
2.常用BLAST程序介绍
3.BLAST算法简介
4.BLAST常用参数设置
5.本地BLAST的安装步骤
6.本地BLAST的使用

1、基本概念
相似性(Similarity)
是指序列比对过程中用来描述检测序列和目标序列之间相同或相似碱基或氨基酸残基占全部比对碱基或氨基酸残基的比例的高低,属于量的判断。
同源性(Homology)
是指从某一共同祖先经趋异进化而形成的不同序列。只有当两个蛋白质在进化关系上具有共同的祖先时,才可称它们为同源的,属于质的判断。

相似性和同源性的关系
当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;
而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。
总之不能把相似性和同源性混为一谈。所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应避免使用。

序列相似性比较和同源性分析
序列相似性分析:
就是用来计算待研究序列与某序列之间的相似性程度,常用的软件包有BLAST、FASTA等;
序列同源性分析:
是将待研究与来自不同物种的序列中进行进化分析,以确定该序列与其它序列间的亲源关系。常用的程序包有Phylip及Mega等进化分析软件;

全局比对与局部比对
全局比对
寻找序列在全长范围内最佳比对。
常用算法如:Needleman-Wunschalgorithm(Needle)
在线程序如:Needle
局部比对
寻找序列在局部区域的最高比对打分。
常用算法如:Smith-Waterman algorithm,blast,fasta等
在线程序如:Water
Needle及Water的在线程序
http://bioweb2.pasteur.fr/alignment/intro-en.html
也可以本地安装Emboss执行以上程序

局部相似性比对的生物学基础
蛋白质功能位点往往是由较短的序列片段组成的,尽管在序列的其它部位可能有插入、删除等突变,但这些关键的功能部位的序列往往具有相当大的保守性。
而局部比对往往比整体比对对这些功能区段具有更高的灵敏度,因此其结果更具生物学意义。
通过以上两个基本概念我们应明白BLAST属于一种局部比对程序,最终比对出的结果是序列之间的相似性。

BLAST 程序常用的两个评介指标
Score:
使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大,结果越可信。
E-value:
BLAST程序在搜索空间中可随机找到获得这样高分的序列的可能性(期望值),因此E-value越高,则代表结果越有可能是随机获得的,也就越不可信。搜寻空间大小约略等于查询序列的长度乘以全部database序列长度的总和,再乘以一些系数。
我们在获得一个Blast结果时需要看这两个指标。
如果Blast获得的目标序列的Score值越高并且E-value越低表明结果越可信,反之越不可信。

其它的一些重要关键概念
HSP(HighScoring Pair):
在局部比对时,得分高的匹配序列被称为高分值片段。
LCRs(lowcompositional complexity regions):
低复杂度区域,即这些区域的组成有某些偏好,比如DNA中的简单重复序列。在蛋白质中一些残基过多表现。在进行BLAST比较时,将会把LCRs屏蔽掉,防止它们过高评价匹配的显著性。在核酸中用n,在蛋白质中用X代替。
gi(GenBankIndex)
特定于GenBank数据库中所赋予每一条序列的特定索引数字。
nr(non-redundant database)
非冗余数据库,该库信息多,并且无冗余序列

 

2、常用BLASTBLAST程序
BLAST(BasicLocal Alignment Search Tool)基于匹配短序列片段,并用一种强有力的统计模型来确定未知序列与数据库序列的最佳局部联配的一种程序。

主要的 BLASTBLAST程序

程序名 查询序列 数据库 搜索方法
Blastn 核酸 核酸 逐一搜索核酸数据库中的序列
Blastp 蛋白质 蛋白质 逐一搜索蛋白质数据库中的序列
Blastx 核酸 蛋白质 将核酸序列以6种读码框翻译成蛋白质然后和蛋白质数据库中的序列逐一比对。
Tblastn 蛋白质 核酸 将蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对。
TBlastx 核酸 核酸 将核酸序列以6种读码框翻译成蛋白质序列再和核酸数据库中的核酸序列以6种读码框翻译成的蛋白质序列逐一进行比对。

 
PSI PSI-BLAST( 位置相关的迭代BLAST)
这个程序主要用来搜索蛋白质的“远亲”。
首先,用户提交的蛋白质序列的所有“近亲”的列表被建立起来,然后这些蛋白质被结合成一种平均的“特征序列”。
再用这个特征序列在蛋白质数据库中进行搜索,就会找出更大的一组蛋白质的列表。再将这个蛋白质列表生成一个不同的特征序列,这个序列被用来迭代地运行上述过程。
通过在搜索中包含相关的蛋白质,PSI-BLAST对于寻找已知蛋白进化上的“远亲”的灵敏度要比一般的blastp高很多。

其它的一些 BLASTBLAST子程序
Gapped BLAST
允许在它产生的比对(alignments)中存在缺口。
Megablast
该程序使用“模糊算法”加快了比较速度,可以用于快速比较两个较长的序列。
discontiguousmegablast
与megablast不同的是主要用来比较来自不同物种之间的相似性较低的分歧序列。
PHI-BLAST
模式发现迭代BLAST。
Bl2seq
给定两个序列,相互进行BLAST比对,快速检查两个序列是否存在相似性片断

Specialized Blast Specialized BLAST pages
CD -Search
是使用RPS -BLAST程序以一个蛋白质序列与保守结构域数据库(Conserved Domain Database) 做比较。
PairwiseBLAST
PairwiseBLAST是用BLAST程序实现两个序列之间的比较。
IgBLAST
IgBLAST被开发出来以便於分析在GenBank中的免疫球蛋白的序列。它允许用blastp或blastn来搜索nr资料库或一个由免疫球蛋白生殖系变化区基因的特殊的资料库。

 

3、BLASTBLAST算法简介
BLAST 是一种基本局域联配搜索工具,主要用来搜索数据库中相似序列。
它的搜索速度快并且把数据库搜索建立在了严格的统计学基础之上,是目前最常用的同源检索工具,是由AltschulSF et al(1990)提出的一种算法。

BlastBlast的算法流程

image
BLAST 的基本步骤
将待检索序列分割成长度为w的连续子串
快速找出数据库中所有与固定长度w完全配对的位置
以此位置为起点进行延伸比对,并计算出最高分数
将最高分标准化,并按此分数进行排序
换算成期望值(E-VALUE)
显示出符合Score及E-value的序列

 

4、BLASTBLAST常用参数设置
在NCBI进行BLAST的操作程序非常简单,只要将你的序列贴进去,点几下鼠标就会得到结果,但是如果能正确的修改一下BLAST的参数,可能你会得到更好的结果!以下我们一起讨论一下如何来修改BLAST的参数!

BLAST 的具体过程:
1.登陆NCBI的BLAST主页    http://www.ncbi.nlm.nih.gov/BLAST/
2.根据序列类型及目的选择合适的程序
3.填写表单信息
4.提交任务
5.查看和分析结果

BLAST 程序的选择
在BLAST程序选择上,应尽可能地利用blastp从蛋白质水平进行检索,然后用blastx、tblastn、tblestx从DNA或蛋白质翻译水平进行检索,最后才用blastn进行DNA水平进行检索。
当然如果为非编码序列只有采用blastn进行检索。

E-value 的设置
如果检索的序列较短,可适当的提高E值,否则可能会找不到目的序列,反之如果序列较长可适当提高E值。
通常无论是从DNA水平,还是蛋白质水平进行检索,E值设为1通常可满足要求。

Word size 的选择
BLAST算法将查询序列分割成一系列具有字段长度的小的序列段进行数据库搜索,因此当此值越小得到的搜索结果越多,但假阳性也越多,服务器负担也越重。
对于蛋白质搜索,窗口大小可设置为3或2,默认为3;对于核酸搜索,默认的字段长度是11,可选择7,11或15。
因此如果你对搜索的结果不满意时可以试着降低Word size的值。

打分矩阵的选择
比对所选用的记分矩阵对最终结果影响也很大。
一般高值BLOSUM矩阵和低值PAM矩阵最适合于研究近相关的蛋白质序列。低值BLOSUM矩阵和高值PAM矩阵最适合于研究远相关的蛋白质序列。
一般情况BLOSUM62检测各种蛋白的效果比BLOSUM60和BLOSUM70稍好,比PAM矩阵好得多。
在BLAST五个程序中只有BLASTN不需要这些矩阵,搜索时不必选定。

空位罚分的选择
严紧的罚分很难将本来很相似的序列对准;而松弛的罚分甚至可以使两个无关的序列达到100%的相似性。
一般情况下程序默认的空位罚分(11/1)基本能满足检索要求,但对具体的查询序列,采用不同的空位罚分方法会取得不同的检索效果。

低复杂区域及重复区域的处理
无论是DNA序列类似性检索,还是蛋白质序列类似性检索,一般都应该去除查询序列中的低复杂区域。
蛋白质序列检索而言,不必去除序列中的重复片段,但对DNA序列检索,就必须去除序列中的重复片段

 

5、本地BLASTBLAST的安装
大家一般都做过基于网络的BLAST ,但网络BLAST一般只能搜索一个序列,要搜索多个序列,特别是做大量的数据比较时,网络BLAST几乎是不可能的,这个时候我们就可以考虑做本地BLAST了。

使用本地 BLASTBLAST的原因
1.特殊的数据库要求
2.涉及序列的隐私与价值
3.批量处理
4.与其它本地程序配合使用
5.其他原因??

本地 BLASTBLAST构建步骤
下载BLAST的安装程序
将BLAST保存到适当的位置
点击安装程序来安装BLAST
设置BLAST的相应参数

下载 BLASTBLAST的本地安装程序
可以到NCBI的官方网站下载最新的BLAST程序。
下载网址:ftp://ftp.ncbi.nih.gov/blast/executable
注意一定要选择和你的计算机操作系统相匹配的程序,如Windows系统要下载“blast-2.2.18-ia32-win32.exe”。

本地 BLASTBLAST的相应参数设置
告诉BLAST程序你的数据及数据库放在哪
1.建立一个新的文件并命名为:ncbi.ini
2.在该文件中输入四行数据如下所示:
[NCBI]
Data=“C:\ncbi-blast\data”(你的数据存放的文件夹)
[BLAST] BLASTDB=“C:\ncbi-blast\db”(数据库存放在的文件夹)
3.将该文件拷贝到你的Windows或Winnt目录里

路径设置步骤(系统环境设置-便于命令调用)
右键点击我的电脑
选择属性
再选择系统属性
选择高级标签
选择环境变量
双击path
在路径中填入你的BLAST的可执行文件所在目录
有的时候还需要重新启动电脑

BLASTBLAST的路径设置
image

 

6、本地BLASTBLAST的使用
构建本地数据库
进行BLAST搜索

数据库的获取
最简单的方法是直接到NCBI或别的网站去下载
也可以将自己的序列,或与自己工作相关的序列进行整理构建成一个小型的数据库
注意:以上文件格式一般可存为fasta格式

构建 BLASTBLAST用的数据库
将已构建好的数据拷贝到你所设定的数据库所在文件夹
运行cmd命令
在cmd环境中输入如下所示命令
formatdb–i inseqs.fa–p F –o T –n db_name
命令结束后你会发现在你的数据库文件夹里多了一些以db_name开头的文件,这些就是BLAST所需要的一些文件

输入过程

image

Formatdb 的一些参数说明
-i 输入文件,只能是一个文件
-o Parse options (默认是F) T -True: Parse SeqId and create indexes. F -False: Do not parse SeqId. Do not create indexes
-p 文件类型(默认是T) T -protein F -nucleotide [T/F] Optional
-n 数据库名称不指出的话默认为输入文件名
更多选项请参阅解压后的doc文件夹的formatdb.html文件

进行 BLASTBLAST搜索
在命今行下录入blastall命令及相应的参数
打开输出文件分析结果,如果结果不好可以试着调整参数再次进行BLAST
如下所示命令:
blastall-p blastn-d db_name-i QUERY -o out.QUERY

Blastall 的一些参数说明
-p 程序名包括
blastp: 通过蛋白质序列搜索蛋白质序列数据库
blastn: 通过核酸序列搜索核酸数据库
blastx: 通过翻译后的核酸序列搜索蛋白质数据库
tblastn: 通过蛋白质序列搜索翻译后的核酸数据库
tblastx: 通过翻译后的核酸序列搜索翻译后的核酸数据库
-d 数据库名称与formatdb中-n选项一致
-i 输入文件不指明的话默认为STDIN
-o 输出文件不指明的话默认为STDOUT
-e:设置e-value
-m:比对结果显示格式选项,缺省值为0 ,即pairwise格式。另外还可以根据不同的需要选择1~6等不同的格式。
-I:在描述行中显示gi号[T/F],缺省值F
-b:显示的比对结果的最大数目,缺省值250
-F:对于要查询的序列做低复杂度区域(low complexity regions, LCR)的过滤[T/F],缺省值T。对blastn用的是DUST程序,其他比对用的是SEG程序。
-G: 打开一个gap的罚分(0表示使用缺省设置值),默认0
-E: 扩展一个gap的罚分(0表示使用缺省设置值),默认0
-q: 一个核酸碱基的错配(mismatch)的罚分(只对blastn有效),缺省值-3
-r : 一个核酸碱基的正确匹配(match)的奖分(只对blastn有效),缺省值1
-M: 所使用的打分矩阵,缺省值BLOSUM6244

Bl2seq(两条序列的BLAST)
bl2seq的绝大部分参数是与通用检索程序blastall一致的,只是没有了-d 的选项。另外增加了两个输入选项:
-i:第一个输入序列文件
-j:第二个输入序列文件
注:这两个输入序列都应该是FASTA格式,各自的序列类型–核酸或蛋白–应由所选择的-p 参数决定
命令如下所示:
bl2seq -i query.fa-j sbjct.fa-e 0.01 -o out

Psi Psi-BLAST
Psi-BLAST是由blastpgp命令实现的,它的大部分参数是与blastall一致的,只有少数与迭代检索相关的选项是特别的:
-j: 最大迭代检索的次数,缺省值1,即等同与在blastall中所使用blastp程序
-h: 在每轮检索后构建新的打分矩阵时所选择的序列的期望值(E value)的阈值,缺省值0.001
-C: 将生成的位点特异性的打分矩阵输出到一个文件(二进制格式)
-R: 从文件读取一个原先输出的位点特异性的打分矩阵,然后使用这个矩阵来继续进行以后的检索比对
-Q: 输出一个可读的文本(ASCII)格式的PSI-BLAST的打分矩阵
-B: 设置让blastpgp读取一个已经存在的多重比对文件来构建位点特异性的打分矩阵而进行以后的检索
如下命令所示:
blastpgp-i query.faa-d db_name-o query_out

Fastacmd从数据库中提取序列
-a:是否提取重复accession号的序列[T/F]
-l :设置输出的序列文件每行的字符数
-t :设置在FASTA格式的序列的描述行中只包含gi号[T/F]
-o:输出文件名
命令如下:
fastacmd-d db_name-s p38398

PDF FILE

专业老色狼给小色狼们的一点忠告

第一句:当她要你请她吃饭的时候,你不妨长时间注视她,如果她表现出来的不是乖巧和温情,那你就别破费。
第二句:你在决定追一个女人的时候,先想想自己能不能在她面前保持本色,否则别去委屈自己。
第三句:一等色狼爱才女,二等色狼爱淑女,三等色狼爱美女,四等色狼爱妓女。
第四句:与她上街许多次,她一直阻止你为她花钱并不时问你饿不饿渴不渴累不累,并且你由衷感动的话,则你应该考虑娶她。
第五句:女人的自尊心比超薄丝袜还脆弱。很多时候你太在乎她的自尊,她就可能不在乎你的自尊,她要变成慈禧的话,你别当李莲英。
第六句:爱撒谎的美女不是女人,别太在意。
第七句:色狼的最高境界是专一,滥情是菜鸟无能的表现。
第八句:与其手捧玫瑰西装革履站在楼下等她,不如让她到看你在运动场上,篮球架下如何生龙活虎。
第九句:多吻她的额头和手背,吻她不敏感的地方,比吻她敏感的地方更能让她有感觉。
第十句:爱情比荒原还残酷。爱情的快乐有多大,伤口就有多大,但你既想追她就不要怕痛。
第十一句:色狼完全没理由为自己是狼而忘形,记住女人是老虎,老虎比狼厉害。
第十二句:别吃她吃剩的饭菜,
第十三句:兜里揣一百全为她花光的效果,比揣一万为她花一千的效果强好几倍。
第十四句:女人的承诺与豪言壮语常不及男人一半可靠。
第十五句:她面对孕妇与儿童时的表现常证明她对你的感情深到什么程度。
第十六句:男人去酒吧歌厅找刺 激,跟狗翻垃圾堆找食吃一样,要想做条真正的色狼,就别去泡吧K歌。
第十七句:虽说装嫩的女 人是白骨精,但你也别当孙悟空。
第十八句:女人用两个极端方式管你索要宽厚与温情:小鸟依人、歇斯底里。
第十九句:对温柔聪明的女人而言,一束百荷比999朵玫瑰更有说服力。
第二十句:适时讲些H色笑话,经常从背后抱住她轻吻。
第二十一句:女人经常迟到十分钟以上或不来,并说一些你将信将疑的理由,那你不妨考虑和她分手。
第二十二句:如果女人看你的时候眼睛从来没有亮晶晶过,那绝对是你的失败。
第二十三句:游刃有余地在多个男人之间周旋的女人不可信。
第二十四句:惩治超级自恋不可理喻的女人最好的方式,是直截了地指出她的缺点,别在乎她的咆哮与掉头离去。
第二十五句:在你无法识破女人是否假装高潮之前,你还是别自诩成熟。
第二十六句:别对女人期望太高,没有极品好女人,但有极品坏女人。
第二十七句:女人时时对你任性,挑剔,冷淡,拒绝却还口口声声说爱你的时候,她只不过是在压榨你利用你。
第二十八句:尽量欣赏一丝不挂的她,而不是用情趣内衣装潢起来的她。
第二十九句:晚上揣把刀走路去接她,比开奔驰宝马去接她更能让她感动。
第三十句:对女人要多用心去感觉。
第三十二句:色狼就是色狼,不应该披上羊皮,别去刻意表现绅士风度,营造什么浪漫——那样你只能追到不懂事的黄毛丫头。解除外挂原生态一些反而更有魅力!

植物表型组到基因组[Plant phenome to genome: a mini-review]

Plant phenome to genome: a mini-review

Rudi Appels

Functional Plant Biology 39(7) iii-viii http://dx.doi.org/10.1071/FPv39n7_FO
Published: 12 July 2012

PDF

Abstract

Rapid advances in biotechnologies have provided a template for defining the genome–transcriptome–proteome in many plant species and these advances now highlight a particular challenge to link the molecular biology–based studies to changes in the phenome of plant species. Selected examples are provided to review advances in defining environment–phenotype interactions, the genome–transcriptome–proteome in plants and translating research outputs more broadly to society. The specific examples include computer modelling of plant phenotypes and responses to environmental signals, advances in small molecule signal transduction, visualising macromolecules and defining the complex genomes that are important to society. The need to translate research outputs to society more broadly is also discussed.

生物技术的快速进展为定义许多植物物种的基因组-转录组-蛋白质组提供了模版框架,现在这些进展强调了链接基于分子生物学的研究到植物表型组变化的挑战。故特选几个例子来综述在以下几方面的进展:定义环境-表型互作、植物基因组-转录组-蛋白质组,并将研究成果向大众解释。几个对大众很重要的例子包括植物表型的计算机建模、环境信号应答、小分子信号转导进展、大分子可视化和定义复杂基因组。同时也讨论了将研究成果解释给大众的必要性。