天涯海角

My Web Home

Category Archives: 生物信息学

Full_lengther_NEXT v0.0.8 database setup and run

Full_lengther_next is an excellent program to test if you EST assembly are full-length or not, or test how much percentage it can get.

for the 1st step of analysis, you probably needs a database for the program to blast+. the built-in script ‘download_fln_dbs.rb’ is designed to setup the database for you. Basically, the script would download taxonomy database from uniprot, splice database from uniprot, and non-coding RNA database from SCBI, filter out the non-full-length sequences, and make BLAST+ database for BLAST+ program. Unfortunately, the script would report NET::FTP or gzip problems.

I ran ‘download_fln_dbs.rb’, and got error like:

550 Permission denied. (Net::FTPPermError)

This is probably duo to errors either from ruby NET::FTP and uniprot FTP sever. (Sorry I am a PERLer, NOT a RUBYer).

and if you get a gzip error,

gzip *.gz not found

probably you need to change you environment variable BLASTDB in ~/.bashrc to a format like:

BLASTDB=/path/to/your/blastdb/

The last letter ‘/’is needed to find /path/to/your/blastdb/*.gz files downloaded from uniprot, or else if will find /path/to/your/blastdb*.gz files.

 

OK, let’s start to setup half-manually:

 

1. Setup environment variable BLASTDB if you did NOT do this

to test if you already had one:

$ echo $BLASTDB

If it returns a path like /path/to/your/blastdb, ignore this step

$ vim ~/.bashrc

#add one more line at the end of file

#press letter i or a

#NOTE: change /path/to/your/blastDB/ to a specified path depending on your machine, like: $HOME/blastdb

export BLASTDB=/path/to/your/blastDB/

#Esc and :wq in vim to save the changes

#log out-and-in or use source ~/.bashrc to take effect

#It seems no effect just using shell ‘export BLASTDB=/path/to/blastdb, no idea why. I knew it will detect $ENV[‘BLASTDB’], but it still  shows the path in ./.bashrc

2. Download necessary files from uniprot:

$ mkdir –p $BLASTDB

$ cd $BLASTDB

$ wget ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/taxonomic_divisions/uniprot_trembl_plants.dat.gz

$ wget ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/taxonomic_divisions/uniprot_sprot_plants.dat.gz

$ wget ftp://ftp.uniprot.org//pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot_varsplic.fasta.gz

 

#setup non-coding database

$ mkdir $BLASTDB/nc_rna_db

$ cd $BLASTDB/nc_rna_db

$ wget http://www.scbi.uma.es/downloads/FLNDB/ncrna_fln_100.fasta.zip

$ unzip ncrna_fln_100.fasta.zip

$ mv ncrna_fln_100.fasta ncrna_fln_100.fasta.oldID

#change seqids

$ perl -ne ‘BEGIN {$seqid=ncrna0000000001;} if (/^>/) {chomp; s/^>//; $_=”>”.$seqid.” “.$_; print $_, “\n”;$seqid++;}else {print;}’ ncrna_fln_100.fasta.oldID > ncrna_fln_100.fasta

# make blast DB

$ makeblastdb -in ncrna_fln_100.fasta -dbtype nucl -parse_seqids

3. find download_fln_dbs.rb  and edit:

# The script should not be detected using which cmd

#it either locates in /var/lib/gems/*/gems/full_lengther_next-0.0.8/bin/ or $HOME/.gem/ruby/*/gems/full_lengther_next-0.0.8/bin/

#open it with editor:

#go to line 202

my_array = [“human”,”fungi”,”invertebrates”,”mammals”,”plants”,”rodents”,”vertebrates”]

#Add # from left, to make it inactive

#my_array = [“human”,”fungi”,”invertebrates”,”mammals”,”plants”,”rodents”,”vertebrates”]

#and edit the following line:

# my_array = [“plants”,”human”]

#Remove # and unnecessary species, like:

my_array = [“plants”]

# I used PLANTS and download PLANTS uniprot database as showed in DOWNLOAD section

# comment the following line to:

#conecta_uniprot(my_array, formatted_db_path)

#This line it used to down load the uniprot database, which usually report some NET::FTP error

#and edit following line to:

system(‘gunzip ‘File.join(formatted_db_path, ‘uniprot*.gz’))

#Haha, Just learning RUBY. Ruby looks like python. That will fix the gzip uncompress error and avoid to uncompress all the GZ files in your $BLASTDB

#

#find line below:

download_ncrna(formatted_db_path)

#and comment with #, to

#download_ncrna(formatted_db_path)

#this will inactivate the downloading of NON-CODING RNA database, which can not successfully create the BLAST+ database using makeblastdb, guess some special letters in seqids

And then execute download_fln_dbs.rb

$ download_fln_dbs.rb

You will have 3 folders:

$ ls $BLASTDB/tr_plants

tr_plants.fasta         tr_plants.fasta.00.pog  tr_plants.fasta.00.psq  tr_plants.fasta.01.pog  tr_plants.fasta.01.psq
tr_plants.fasta.00.phr  tr_plants.fasta.00.psd  tr_plants.fasta.01.phr  tr_plants.fasta.01.psd  tr_plants.fasta.pal
tr_plants.fasta.00.pin  tr_plants.fasta.00.psi  tr_plants.fasta.01.pin  tr_plants.fasta.01.psi

 

$BLASTDB/sp_plants

sp_plants.fasta      sp_plants.fasta.pin  sp_plants.fasta.psd  sp_plants.fasta.psq
sp_plants.fasta.phr  sp_plants.fasta.pog  sp_plants.fasta.psi

 

$BLASTDB/nc_rna_db

ncrna_fln_100.fasta      ncrna_fln_100.fasta.nin  ncrna_fln_100.fasta.nsd  ncrna_fln_100.fasta.nsq
ncrna_fln_100.fasta.nhr  ncrna_fln_100.fasta.nog  ncrna_fln_100.fasta.nsi

Run full_length_next as normal:

$ full_lengther_next -fasta $fastafile -taxon_group plants

I am still testing, at least I had database successfully created. Waiting for further error report. Will Update this post once have any updates

Aha… Have fun….Hope it helps

Plus: I want help from a RUBYer to figure out how full_length_next filters out non-full-length proteins. I would like to revise it in PERL, so Everyone can run it without any error. IF YOU WANT TO HELP, LET ME KNOW PLEASE.

 

Dr Fu-Hao Lu

Post-Doctoral Scientist

Jogn Innes Centre, Colney Lane

Norwich NR4 7ES, UK

Email: Fu-Hao.Lu@jic.ac.uk

[2011华大基因的生物信息学全国公开课课件]2011 BGI Bioinformatices PPT

2011年华大基因的生物信息学全国公开课课件
Title: 基于高通量测序技术的癌症研究
Title: 如何学习生物信息学
Content: Bio-Linux installation and analysis workflow for DNA and protein
Title: Development history of bioinformatics

Title: miRNA introduction, bioinfo analysis and usage; mRNA analysis

学用BLAST程序进行数据分析

Source from helixnet

主要内容
1.基本概念
2.常用BLAST程序介绍
3.BLAST算法简介
4.BLAST常用参数设置
5.本地BLAST的安装步骤
6.本地BLAST的使用

1、基本概念
相似性(Similarity)
是指序列比对过程中用来描述检测序列和目标序列之间相同或相似碱基或氨基酸残基占全部比对碱基或氨基酸残基的比例的高低,属于量的判断。
同源性(Homology)
是指从某一共同祖先经趋异进化而形成的不同序列。只有当两个蛋白质在进化关系上具有共同的祖先时,才可称它们为同源的,属于质的判断。

相似性和同源性的关系
当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;
而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。
总之不能把相似性和同源性混为一谈。所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应避免使用。

序列相似性比较和同源性分析
序列相似性分析:
就是用来计算待研究序列与某序列之间的相似性程度,常用的软件包有BLAST、FASTA等;
序列同源性分析:
是将待研究与来自不同物种的序列中进行进化分析,以确定该序列与其它序列间的亲源关系。常用的程序包有Phylip及Mega等进化分析软件;

全局比对与局部比对
全局比对
寻找序列在全长范围内最佳比对。
常用算法如:Needleman-Wunschalgorithm(Needle)
在线程序如:Needle
局部比对
寻找序列在局部区域的最高比对打分。
常用算法如:Smith-Waterman algorithm,blast,fasta等
在线程序如:Water
Needle及Water的在线程序
http://bioweb2.pasteur.fr/alignment/intro-en.html
也可以本地安装Emboss执行以上程序

局部相似性比对的生物学基础
蛋白质功能位点往往是由较短的序列片段组成的,尽管在序列的其它部位可能有插入、删除等突变,但这些关键的功能部位的序列往往具有相当大的保守性。
而局部比对往往比整体比对对这些功能区段具有更高的灵敏度,因此其结果更具生物学意义。
通过以上两个基本概念我们应明白BLAST属于一种局部比对程序,最终比对出的结果是序列之间的相似性。

BLAST 程序常用的两个评介指标
Score:
使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大,结果越可信。
E-value:
BLAST程序在搜索空间中可随机找到获得这样高分的序列的可能性(期望值),因此E-value越高,则代表结果越有可能是随机获得的,也就越不可信。搜寻空间大小约略等于查询序列的长度乘以全部database序列长度的总和,再乘以一些系数。
我们在获得一个Blast结果时需要看这两个指标。
如果Blast获得的目标序列的Score值越高并且E-value越低表明结果越可信,反之越不可信。

其它的一些重要关键概念
HSP(HighScoring Pair):
在局部比对时,得分高的匹配序列被称为高分值片段。
LCRs(lowcompositional complexity regions):
低复杂度区域,即这些区域的组成有某些偏好,比如DNA中的简单重复序列。在蛋白质中一些残基过多表现。在进行BLAST比较时,将会把LCRs屏蔽掉,防止它们过高评价匹配的显著性。在核酸中用n,在蛋白质中用X代替。
gi(GenBankIndex)
特定于GenBank数据库中所赋予每一条序列的特定索引数字。
nr(non-redundant database)
非冗余数据库,该库信息多,并且无冗余序列

 

2、常用BLASTBLAST程序
BLAST(BasicLocal Alignment Search Tool)基于匹配短序列片段,并用一种强有力的统计模型来确定未知序列与数据库序列的最佳局部联配的一种程序。

主要的 BLASTBLAST程序

程序名 查询序列 数据库 搜索方法
Blastn 核酸 核酸 逐一搜索核酸数据库中的序列
Blastp 蛋白质 蛋白质 逐一搜索蛋白质数据库中的序列
Blastx 核酸 蛋白质 将核酸序列以6种读码框翻译成蛋白质然后和蛋白质数据库中的序列逐一比对。
Tblastn 蛋白质 核酸 将蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对。
TBlastx 核酸 核酸 将核酸序列以6种读码框翻译成蛋白质序列再和核酸数据库中的核酸序列以6种读码框翻译成的蛋白质序列逐一进行比对。

 
PSI PSI-BLAST( 位置相关的迭代BLAST)
这个程序主要用来搜索蛋白质的“远亲”。
首先,用户提交的蛋白质序列的所有“近亲”的列表被建立起来,然后这些蛋白质被结合成一种平均的“特征序列”。
再用这个特征序列在蛋白质数据库中进行搜索,就会找出更大的一组蛋白质的列表。再将这个蛋白质列表生成一个不同的特征序列,这个序列被用来迭代地运行上述过程。
通过在搜索中包含相关的蛋白质,PSI-BLAST对于寻找已知蛋白进化上的“远亲”的灵敏度要比一般的blastp高很多。

其它的一些 BLASTBLAST子程序
Gapped BLAST
允许在它产生的比对(alignments)中存在缺口。
Megablast
该程序使用“模糊算法”加快了比较速度,可以用于快速比较两个较长的序列。
discontiguousmegablast
与megablast不同的是主要用来比较来自不同物种之间的相似性较低的分歧序列。
PHI-BLAST
模式发现迭代BLAST。
Bl2seq
给定两个序列,相互进行BLAST比对,快速检查两个序列是否存在相似性片断

Specialized Blast Specialized BLAST pages
CD -Search
是使用RPS -BLAST程序以一个蛋白质序列与保守结构域数据库(Conserved Domain Database) 做比较。
PairwiseBLAST
PairwiseBLAST是用BLAST程序实现两个序列之间的比较。
IgBLAST
IgBLAST被开发出来以便於分析在GenBank中的免疫球蛋白的序列。它允许用blastp或blastn来搜索nr资料库或一个由免疫球蛋白生殖系变化区基因的特殊的资料库。

 

3、BLASTBLAST算法简介
BLAST 是一种基本局域联配搜索工具,主要用来搜索数据库中相似序列。
它的搜索速度快并且把数据库搜索建立在了严格的统计学基础之上,是目前最常用的同源检索工具,是由AltschulSF et al(1990)提出的一种算法。

BlastBlast的算法流程

image
BLAST 的基本步骤
将待检索序列分割成长度为w的连续子串
快速找出数据库中所有与固定长度w完全配对的位置
以此位置为起点进行延伸比对,并计算出最高分数
将最高分标准化,并按此分数进行排序
换算成期望值(E-VALUE)
显示出符合Score及E-value的序列

 

4、BLASTBLAST常用参数设置
在NCBI进行BLAST的操作程序非常简单,只要将你的序列贴进去,点几下鼠标就会得到结果,但是如果能正确的修改一下BLAST的参数,可能你会得到更好的结果!以下我们一起讨论一下如何来修改BLAST的参数!

BLAST 的具体过程:
1.登陆NCBI的BLAST主页    http://www.ncbi.nlm.nih.gov/BLAST/
2.根据序列类型及目的选择合适的程序
3.填写表单信息
4.提交任务
5.查看和分析结果

BLAST 程序的选择
在BLAST程序选择上,应尽可能地利用blastp从蛋白质水平进行检索,然后用blastx、tblastn、tblestx从DNA或蛋白质翻译水平进行检索,最后才用blastn进行DNA水平进行检索。
当然如果为非编码序列只有采用blastn进行检索。

E-value 的设置
如果检索的序列较短,可适当的提高E值,否则可能会找不到目的序列,反之如果序列较长可适当提高E值。
通常无论是从DNA水平,还是蛋白质水平进行检索,E值设为1通常可满足要求。

Word size 的选择
BLAST算法将查询序列分割成一系列具有字段长度的小的序列段进行数据库搜索,因此当此值越小得到的搜索结果越多,但假阳性也越多,服务器负担也越重。
对于蛋白质搜索,窗口大小可设置为3或2,默认为3;对于核酸搜索,默认的字段长度是11,可选择7,11或15。
因此如果你对搜索的结果不满意时可以试着降低Word size的值。

打分矩阵的选择
比对所选用的记分矩阵对最终结果影响也很大。
一般高值BLOSUM矩阵和低值PAM矩阵最适合于研究近相关的蛋白质序列。低值BLOSUM矩阵和高值PAM矩阵最适合于研究远相关的蛋白质序列。
一般情况BLOSUM62检测各种蛋白的效果比BLOSUM60和BLOSUM70稍好,比PAM矩阵好得多。
在BLAST五个程序中只有BLASTN不需要这些矩阵,搜索时不必选定。

空位罚分的选择
严紧的罚分很难将本来很相似的序列对准;而松弛的罚分甚至可以使两个无关的序列达到100%的相似性。
一般情况下程序默认的空位罚分(11/1)基本能满足检索要求,但对具体的查询序列,采用不同的空位罚分方法会取得不同的检索效果。

低复杂区域及重复区域的处理
无论是DNA序列类似性检索,还是蛋白质序列类似性检索,一般都应该去除查询序列中的低复杂区域。
蛋白质序列检索而言,不必去除序列中的重复片段,但对DNA序列检索,就必须去除序列中的重复片段

 

5、本地BLASTBLAST的安装
大家一般都做过基于网络的BLAST ,但网络BLAST一般只能搜索一个序列,要搜索多个序列,特别是做大量的数据比较时,网络BLAST几乎是不可能的,这个时候我们就可以考虑做本地BLAST了。

使用本地 BLASTBLAST的原因
1.特殊的数据库要求
2.涉及序列的隐私与价值
3.批量处理
4.与其它本地程序配合使用
5.其他原因??

本地 BLASTBLAST构建步骤
下载BLAST的安装程序
将BLAST保存到适当的位置
点击安装程序来安装BLAST
设置BLAST的相应参数

下载 BLASTBLAST的本地安装程序
可以到NCBI的官方网站下载最新的BLAST程序。
下载网址:ftp://ftp.ncbi.nih.gov/blast/executable
注意一定要选择和你的计算机操作系统相匹配的程序,如Windows系统要下载“blast-2.2.18-ia32-win32.exe”。

本地 BLASTBLAST的相应参数设置
告诉BLAST程序你的数据及数据库放在哪
1.建立一个新的文件并命名为:ncbi.ini
2.在该文件中输入四行数据如下所示:
[NCBI]
Data=“C:\ncbi-blast\data”(你的数据存放的文件夹)
[BLAST] BLASTDB=“C:\ncbi-blast\db”(数据库存放在的文件夹)
3.将该文件拷贝到你的Windows或Winnt目录里

路径设置步骤(系统环境设置-便于命令调用)
右键点击我的电脑
选择属性
再选择系统属性
选择高级标签
选择环境变量
双击path
在路径中填入你的BLAST的可执行文件所在目录
有的时候还需要重新启动电脑

BLASTBLAST的路径设置
image

 

6、本地BLASTBLAST的使用
构建本地数据库
进行BLAST搜索

数据库的获取
最简单的方法是直接到NCBI或别的网站去下载
也可以将自己的序列,或与自己工作相关的序列进行整理构建成一个小型的数据库
注意:以上文件格式一般可存为fasta格式

构建 BLASTBLAST用的数据库
将已构建好的数据拷贝到你所设定的数据库所在文件夹
运行cmd命令
在cmd环境中输入如下所示命令
formatdb–i inseqs.fa–p F –o T –n db_name
命令结束后你会发现在你的数据库文件夹里多了一些以db_name开头的文件,这些就是BLAST所需要的一些文件

输入过程

image

Formatdb 的一些参数说明
-i 输入文件,只能是一个文件
-o Parse options (默认是F) T -True: Parse SeqId and create indexes. F -False: Do not parse SeqId. Do not create indexes
-p 文件类型(默认是T) T -protein F -nucleotide [T/F] Optional
-n 数据库名称不指出的话默认为输入文件名
更多选项请参阅解压后的doc文件夹的formatdb.html文件

进行 BLASTBLAST搜索
在命今行下录入blastall命令及相应的参数
打开输出文件分析结果,如果结果不好可以试着调整参数再次进行BLAST
如下所示命令:
blastall-p blastn-d db_name-i QUERY -o out.QUERY

Blastall 的一些参数说明
-p 程序名包括
blastp: 通过蛋白质序列搜索蛋白质序列数据库
blastn: 通过核酸序列搜索核酸数据库
blastx: 通过翻译后的核酸序列搜索蛋白质数据库
tblastn: 通过蛋白质序列搜索翻译后的核酸数据库
tblastx: 通过翻译后的核酸序列搜索翻译后的核酸数据库
-d 数据库名称与formatdb中-n选项一致
-i 输入文件不指明的话默认为STDIN
-o 输出文件不指明的话默认为STDOUT
-e:设置e-value
-m:比对结果显示格式选项,缺省值为0 ,即pairwise格式。另外还可以根据不同的需要选择1~6等不同的格式。
-I:在描述行中显示gi号[T/F],缺省值F
-b:显示的比对结果的最大数目,缺省值250
-F:对于要查询的序列做低复杂度区域(low complexity regions, LCR)的过滤[T/F],缺省值T。对blastn用的是DUST程序,其他比对用的是SEG程序。
-G: 打开一个gap的罚分(0表示使用缺省设置值),默认0
-E: 扩展一个gap的罚分(0表示使用缺省设置值),默认0
-q: 一个核酸碱基的错配(mismatch)的罚分(只对blastn有效),缺省值-3
-r : 一个核酸碱基的正确匹配(match)的奖分(只对blastn有效),缺省值1
-M: 所使用的打分矩阵,缺省值BLOSUM6244

Bl2seq(两条序列的BLAST)
bl2seq的绝大部分参数是与通用检索程序blastall一致的,只是没有了-d 的选项。另外增加了两个输入选项:
-i:第一个输入序列文件
-j:第二个输入序列文件
注:这两个输入序列都应该是FASTA格式,各自的序列类型–核酸或蛋白–应由所选择的-p 参数决定
命令如下所示:
bl2seq -i query.fa-j sbjct.fa-e 0.01 -o out

Psi Psi-BLAST
Psi-BLAST是由blastpgp命令实现的,它的大部分参数是与blastall一致的,只有少数与迭代检索相关的选项是特别的:
-j: 最大迭代检索的次数,缺省值1,即等同与在blastall中所使用blastp程序
-h: 在每轮检索后构建新的打分矩阵时所选择的序列的期望值(E value)的阈值,缺省值0.001
-C: 将生成的位点特异性的打分矩阵输出到一个文件(二进制格式)
-R: 从文件读取一个原先输出的位点特异性的打分矩阵,然后使用这个矩阵来继续进行以后的检索比对
-Q: 输出一个可读的文本(ASCII)格式的PSI-BLAST的打分矩阵
-B: 设置让blastpgp读取一个已经存在的多重比对文件来构建位点特异性的打分矩阵而进行以后的检索
如下命令所示:
blastpgp-i query.faa-d db_name-o query_out

Fastacmd从数据库中提取序列
-a:是否提取重复accession号的序列[T/F]
-l :设置输出的序列文件每行的字符数
-t :设置在FASTA格式的序列的描述行中只包含gi号[T/F]
-o:输出文件名
命令如下:
fastacmd-d db_name-s p38398

PDF FILE

转录组测序概述及实验分析流程Transcriptome sequencing and main workflow

一、 转录组测序概述

转录组是特定物种、组织或细胞类型转录的所有RNA(转录本)的集合,包括mRNA和非编码RNA(Non-coding RNA, 非编码RNA又包括:tRNA,rRNA,snoRNA,microRNA,piRNA,lncRNA等。通过比较转录组或基因表达谱的研究以揭示生物学现象或疾病发生的分子机制是高通量组学研究的一个常用策略。利用高通量测序技术研究转录组在全面快速得到基因表达谱变化的同时,还可以通过测定的序列信息精确地分析转录本的cSNP(编码序列单核苷酸多态性)、可变剪接等序列及结构变异,另外对于检测低丰度转录本和发现新转录本具有其独特的优势。

二、 转录组测序技术优势

1. 直接得到核酸序列信息,除了得到基因表达量的差异,更可以检测RNA的结构和结构变异。

2. 开放性的转录组分析:无需参考基因组信息,无需设计探针,不但能检测已知基因还能够发现新的转录本。

3. 在测序覆盖率足够大时能够检测到细胞中的低丰度转录本。

4. 随着测序深度的增加可以获得更广的动态检测范围,能够同时鉴定和定量高丰度转录本和低丰度转录本。

三、 转录组测序实验技术路线

四、 转录组测序数据分析技术路线

生物科学专业信息资源推介

数据库名称BGI家蚕基因组数据库 BGISilkworm Database数据库网址http://silkworm.genomics.org.cn/数据库简介家蚕基因组有28条染色体,约4.8亿碱基对,估计有基因4万个。2003年11月,中科院华大基因和西南农大等单位已率先完成家蚕基因组”框架图”绘制工作,在此基础上构架家蚕基因组数据库系统。包括国际最全的家蚕基因组研究数据,包括突变体、EST、基因、重复序列等基因组信息。服务方式:查询、免费下载。关键字家蚕基因组

数据库名称韩国大米基因组数据库Korea Rice Genome Database数据库网址http://bioserver.myongji.ac.kr/ricemac.html数据库简介KRGD是韩国大米的基因数据库,它搜集有关韩国大米的所有基因。数据库提供的EST序列查找能够快速找到所要研究的基因的EST。数据库还提供韩国大米的基因图谱,帮助相对准确地在基因组染色体上找到基因的定位。KRGD目前由韩国Myongji大学的生物科学系负责维护管理。服务方式:查询、免费下载。关键字Korea 韩国rice大米genome 基因组

数据库名称线虫基因组数据库AceDB数据库网址http://www.acedb.org /数据库简介AceDB是于1989年最初由Jean ThierryMieg和Richard Durbin开发的一个基因组数据库系统。它提供一个自定义数据库核心和一个特别设计的非标准数据模型以便灵活地处理科学数据,以及一个绘图用户界面和许多特别的显示和基因组数据处理工具。AceDB用于管理基因组计划内的数据和使基因组数据供科学界使用。服务方式:查询、分析、免费下载。关键字 AceDBgenome基因组

数据库名称线虫基因组预测蛋白数据库 WormPep  C.elegans Proteins db数据库网址http://www.sanger.ac.uk/Projects/C_elegans/wormpep/数据库简介Wormpep 包括了线虫基因组中所有预测蛋白。在线虫基因组数据库AceDB的基础上,它共有9,745,258个碱基长度的基因预测的22,246个蛋白序列(其中 1705个蛋白具有不同的剪接本)。搜寻方式可以使用蛋白序列、对应cDNA序列、序列的CDS编码和位置数据、蛋白的TREMBL或 Swiss-Prot编码等。另外,提供基于BLAST的同源比对。本数据库由线虫基因组计划衍生出来,主要数据由英国Sanger中心、美国圣路易斯测序中心提供和更新。服务方式:查询、分析、免费下载。关键字elegan worm线虫predicted protein预测蛋白

数据库名称盘基网柄菌基因组数据库 DictyDb -Dictyostelium discoideum Genome Database数据库网址http://dictybase.org/数据库简介盘基网柄菌基因组,包括染色体以及线粒体的全部基因组数据库, 在细胞粘菌中,由于盘基网柄菌的生活史最简单,且发育阶段分明,是极好的研究材料。该数据库不仅提供了盘基网柄菌的基因组信息,还为盘基网柄菌的序列提供了,已知及同源的基因列表,BLAST服务器,染色体定位图,已完成和进行中的基因敲除变异种的粘菌资料。并提供了相关的盘基网柄菌cDNA文库的链接及使用说明。该数据库由加州UCSD大学的发育基因项目(DGP)支持。服务方式:查询、免费下载。关键字盘基网柄菌genome基因组

数据库名称枯草杆菌基因组数据库 BSORFBacillus subtilis Genome Database数据库网址http://bacillus.genome.ad.jp/数据库简介枯草杆菌基因组数据库是由日本枯草杆菌协会建立的专业数据库。该数据库收集的数据主要分为两类:以彩色图谱显示的基因组图谱以及以列表形式出现的其他来源数据,如突变信息、DNA芯片数据。用户可以通过输入基因名称、描述性字眼、分类号等方式进行查询,也可以直接输入序列检索是否是枯草杆菌的基因组序列或基因组中的编码序列。该数据库最近一次更新于2003 年9月。服务方式:查询。关键字B. subtilis枯草杆菌genome 基因组

数据库名称枯草杆菌基因组信息数据库 Bacillus subtilis Genetic Database数据库网址http://genolist.pasteur.fr/SubtiList/数据库简介该数据库介绍了枯草杆菌基因组的各方面信息,它包含了B. subtilis 168(枯草杆菌的模式菌种)4,214,630bp DNA,蛋白质序列以及相关基因的注释和功能推测。该数据库的信息主要来源于EMBL/GenBank/DDBJ 数据库以及发表在国际杂志上或者相关方面科研工作者的报告,主要由Institut Pasteur维护(法国的一个私人的非盈利性的疾病预防基金会),它提供了方便的查询系统,可以通过输入基因名,基因的染色体定位以及功能分类进行查询,并可以对查出的序列进行BLAST等分析。它的特色是提供了枯草杆菌彩色的染色体定位图,在图上的每一点均提供了链接,介绍具体的基因定位及相关信息。具有感官认识,可以方便查询。服务方式:查询、免费下载。关键字B. subtilis枯草杆菌genome 基因组

数据库名称枯草杆菌全基因组、基因图谱和密码子方面的数据库 NRSUBNonredundant B.subtilis Database数据库网址http://pbil.univlyon1.fr/nrsub/nrsub.html数据库简介该数据库收录了枯草杆菌的全基因组,并加入基因图谱和密码子方面的数据,可通过web方式查询,也可直接根据关键字、序列名称或基因编号查询,并提供序列文件全文搜索。库内总碱基数达4214814条;可由SWISSPROT, ENZYME和HOBACGEN数据库参考相关基因家族;所有基因图谱位置由电脑计算得出,精确度为0.1。维护单位包括日本国家遗传所、法国里昂大学遗传学和群体生物学实验室、法国巴斯德学院基因表达调控系及瑞士生物信息学学院。服务方式:查询、免费下载。关键字B. subtilis枯草杆菌genome 基因组

数据库名称酵母基因组数据库 Saccharomyces Genome Deletion Project数据库网址http://sequencewww.stanford.edu/group /yeast_deletion_project/deletions3.html数据库简介酵母基因组数据库提供了Saccharomyces cerevisiae (酿酒酵母)基因组及其开放阅读框(open reading frame, ORF)功能的很多相关信息。其中开放阅读框的功能是通过基于基因剔除的PCR技术和突变的遗传分析获得的。数据库内容包括:不同的ORFs剔除品系、 ORFs剔除所用的引物序列、重要的ORFs等。此外,该数据库给出了很多技术和方法相关的文献并可以与YDPM 数据库(Yeast Deletion Project and Mitochondria Database)等相链接,它由Saccharomyces Genome Deletion Project Consortium(酵母基因组剔除研究计划协会)维护。服务方式:查询。2005, 25(11)中国生物工程杂志 China Biotechnology

中国生物工程杂志 China Biotechnology Vol.25 No.11 2005

关键字Saccharomyces cerevisiae酿酒酵母genome 基因组

数据库名称蓝细菌基因组数据库 CyanoBaseThe Genome Database of Cyanobacteria数据库网址http://www.kazusa.or.jp/cyano/cyano.html数据库简介蓝细菌基因组数据库可以获得关于蓝细菌基因组结构的序列和全部解释资料。它最初由Makoto Hirosawa, Takakazu Kaneko和Satoshi Tabata创办,现在的版本由Kazusa DNA研究所Yasukazu Nakamura, Takakazu Kaneko和Satoshi Tabata发展并维护。生氧光合作用是地球上的最基本的生命过程,蓝细菌带有生氧光合作用的全部基因。该有机物出现于非常古老的年代,可以在多种环境下生存。该数据库还提供了很多其它菌类或藻类相关的链接,便于用户查找相关信息。服务方式:查询。关键字蓝细菌genome 基因组

数据库名称细胞器基因组数据库 GOBASE  The Organelle Genome Database数据库网址http://megasun.bch.umontreal.ca/gobase/数据库简介GOBASE细胞器基因组数据库由加拿大健康研究院(CIHR)和加拿大医学研究委员会(MRC)资助,2003年12月建立,由Canada Dalhousie University维护。整合了与线粒体和叶绿体相关的各种数据,今后将包含细菌的信息。核酸和蛋白数据来源于NCBI的Entrez数据库,分类信息来源于NCBI的Taxon数据库。提供到PID, Entrez, Blast等的链接,界面友好,便于查询。服务方式:查询。关键字细胞器genome

基因组数据库名称基因组在线数据库 GOLD  Genomes Online db数据库网址http://www.genomesonline.org/数据库简介基因组在线数据库(GOLD)在国际网内提供全世界已完成的和正在进行的基因组项目,其中有315个已发表的完成的基因组项目和正在进行的804个原核生物的基因组项目和547个真核生物的基因组项目。服务方式:查询。关键字genome基因组

数据库名称人类基因组图谱标准数据库 GeneLocThe Unified Database for Human Genome Mapping (UDB)数据库网址http://genecards.weizmann.ac.il/geneloc/数据库简介人类基因组图谱标准数据库,GeneLoc整合了包括Genethon, NCBI,基因组数据库等在内的多个数据库的资料,统一了基因的收集,剔除了冗余的部分,并且赋予每一个基因有意义的定位标识符,也叫作基因卡片 ID。GeneLoc包含了人类所有染色体的基因整合信息,此外,与基因平行的DNA片段信息也包含在其中。它为用户提供了友好的检索界面,用户可以根据染色体的位置,基因名称,基因登记号等方式查询基因的具体定位。并为初学者提供了检索实例。该数据库由以色列生物信息 & Crown 人类基因组研究中心支持维护。服务方式:查询。关键字human人类genome基因组

数据库名称人类组织的全基因组数据库 HOWDYHuman Organised Whole Genome Database数据库网址http://gdb.jst.go.jp/HOWDY/top_en.pl数据库简介人类组织的全基因组数据库是一个数据库系统为检索人的染色体信息并供给公众的不同的数据源。您能发现这里的信息从基因数据库自动地被提取和被显示以所有数据有标识符,共同兴趣和链接的数据。数据库促进获得人的基因的信息由使用正式标志和别名被HUGO 人的基因命名原则委员会、GDB 和LocusLink 批准。它为完成的contigs 并且提供人的染色体地图的一个图解看法并且产生辐射杂种地图。由日本科技集团维护,是一个集成的人类基因数据库,通过网络接口,用基因信号和基因别名访问数据库。服务方式:查询。关键字human人类tissue组织genome基因组

数据库名称GDB人类基因组数据库  The GDB Human Genome Database数据库网址http://www.gdb.org/数据库简介人类基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述。目前GDB中有:人类基因组区域(包括基因、克隆、amplimers PCR 标记、断点breakpoints、细胞遗传标记cytogenetic markers、易碎位点fragile sites、EST序列、综合区域syndromic regions、contigs和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、content contig图谱和综合图谱等);人类基因组内的变异(包括突变和多态性,加上等位基因频率数据)。GDB数据库以对象模型保存数据,提供基于Web的数据对象检索服务,用户可以搜索各种类型的对象,并以图形方式观看基因组图谱。服务方式:查询。关键字Human人类genome基因组

数据库名称DDBG/CIB 人类基因组数据库 (DDBJ/CIB Human Genomics Studio)数据库网址http://studio.nig.ac.jp数据库简介自从人类基因组草图公布以后,已有大量的基因组序列注册到国际DNA 数据库里(DDBJ/EMBL/GenBank)。DDBJ/CIB Human Genomics Studio从2000年开始启动,由日本生物信息中心建立,它搜集了DNA数据库中人的基因组数据,并按24条染色体重新组织基因组序列。人们可以从该站点下载非冗余的人基因组序列。服务方式:查询。关键字Human人类genome基因组

数据库名称人类线粒体基因组数据库 MITOMAP - A Human Mitochondrial Genome Database数据库网址http://www.mitomap.org/数据库简介HMGDB是人类线粒体基因组数据库,它包含人类线粒体DNA的突变信息和多态性信息。数据库提供的查询功能可以通过基因名,疾病名和酶名来检索。可以通过访问线粒体蛋白库来获取有关蛋白的序列和三维结构等资料。数据库提供的MitoAnalyzer可以显示多态性如何影响人类线粒体DNA表达的蛋白。服务方式:查询。关键字Human人类mitochondrial线粒体genome基因组

数据库名称动物基因组数据库  Animal Genome Research Program(AGP)数据库网址http://animal.dna.affrc.go.jp/agp/index.html数据库简介Animal Genome Research Program(AGP)是由NIAS,ISTA和STAFFInstitute携手开发的一个合作项目。该项目构建了一个有关动物基因的数据库,通过使用酵母人工染色体的标记来对基因进行检索存放,利用DNA标记也能够方便地从数据库中找到所需要的基因数据。数据库提供的BAC Identifier是一个很有用的工具,输入详细的数据就能得到所要找的酵母人工染色体的编号。现在提供的PEDE还能通过使用EST片断来检索数据库查找信息。该数据库目前由上述三个机构共同维护管理。服务方式:查询、分析、免费下载。关键字animal动物gene基因

数据库名称阐释基因组DNA序列的工具 TRADAT  TRAnscription Databases and Analysis Tools数据库网址http://www.epd.isbsib.ch/TRADAT.html数据库简介由CNRITBA、GBF、GSF、 Medical Resource Council、ISREC、UNIL合作,旨在提供一种用特殊区域来阐释基因组DNA序列的工具。由于全基因组扫描使得数据量骤增,对这些序列的系统功能分析被对基因产物的结构功能分析取代。该数据库收集了序列分析的相关数据,并适当整合,用数学公式精确描述,对启动子、增强子、LCR和编码区、开放阅读框的关联作广泛分析,所有的数学公式用适当的模式基因组修正。服务方式:查询、分析、免费下载。关键字tool工具genome 基因组

数据库名称小鼠基因组信息数据库 The Mouse Genome Database数据库网址http://www.informatics.jax.org/数据库简介小鼠基因组信息数据库由美国著名的杰克森实验室创建,提供了针对实验室小鼠的遗传学、基因组学和生物学数据的综合检索。该数据库提供了多种检索工具,如针对序列的小鼠BLAST。该数据库分类详细,用户可以根据所需选择适当的分类检索,如基因和标记、等位基因和表型、株系和多态性、基因表达、图谱、小鼠肿瘤生物学、探针和克隆以及参考文献等。该数据库允许用户按分类列表提交新的数据,同时也提供相关的数据下载服务。服务方式:查询。关键字mouse小鼠genome 基因组

数据库名称整合鼠基因及基因组数据库 The Rat Genome Database数据库网址http://rgd.mcw.edu/数据库简介由威斯康星医学院和NIH血液中心创建,鼠基因及基因组的研究机构合作维护,旨在收集、巩固和整合鼠基因及基因组的研究成果,使之能尽快被科研机构取得,并提供数量显著位点、突变和其他表型数据,每月1日、15日更新。是目前全世界重要的鼠研究合作机构,有研究论坛和ftp下载。数据包括基因序列、QTL、SSLP、EST、家系、图谱等。可用的工具有BLAT、BLAST、基因注释、基因组扫描等。目前,日本和中国都有其镜像站点。服务方式:查询、分析、免费下载。关键字mouse小鼠genome 基因组中国生物工程杂志China Biotechnology, 2005, 25(11):98~103

生物信息学软件

>综合
    NCBI 
        web
            http://www.ncbi.nlm.nih.gov
    EBI 
        web
            http://www.ebi.ac.uk
    CBI 
        web
            http://www.cbi.pku.edu.cn
    ExPASy Proteomics tools
        web
            http://ca.expasy.org/tools/
    EMBOSS
        web
            http://www.ebi.ac.uk/emboss/
            http://211.161.196.209/w2h/
        local
            http://www.hgmp.mrc.ac.uk/Software/EMBOSS/
            http://www.emboss.org/
    Web-based Sequence Analysis 
        web
            http://analysis.molbiol.ox.ac.uk/pise_html/index.html
    BCM Search Launcher
        web
            http://searchlauncher.bcm.tmc.edu/
        local
            ftp://ftp.hgsc.bcm.tmc.edu/sl/software/search-launcher/
    Pasteur Institute
        web
            http://bioweb.pasteur.fr/intro-uk.html
    SeWeR
        web
            http://iubio.bio.indiana.edu/webapps/SeWeR/
    The Sequence Manipulation Suite
        web
            http://www.ualberta.ca/~stothard/javascript/index.html
    CBS Prediction Servers
        web
            http://www.cbs.dtu.dk/services/
    CMS Molecular Biology Resource
        web
            http://restools.sdsc.edu/
>Alignment
    ClustalW
        web
            http://www.ebi.ac.uk/cgi-bin/newclustalw.pl
    DCA
        web
            http://bibiserv.techfak.uni-bielefeld.de/dca/
    SIM4
        web
            http://biom3.univ-lyon1.fr/sim4.html
    SIM
        web
            http://ca.expasy.org/tools/sim-prot.html
    DIALIGN
        web
            http://bibiserv.techfak.uni-bielefeld.de/cgi-bin/dialign_submit

>Pairwise alignment
    bl2seq
        web
           http://www.ncbi.nlm.nih.gov/blast/bl2seq/bl2.html
    align
        web
           http://www.ebi.ac.uk/emboss/align/

>Sequence  Viewers and editor
    GeneDoc
        local
            http://www.psc.edu/biomed/genedoc/
    CHROMA
        local
            http://www.lg.ndirect.co.uk/chroma/
    BioEdit
        local
            http://www.mbio.ncsu.edu/BioEdit/bioedit.html
>Sequence format conversion tools
    READSEQ
        web
            http://bimas.dcrt.nih.gov/molbio/readseq/
    Reverse Complement
        web
            http://www.bioinformatics.vg/bio … s/reversecomplement
.htm
    Reverse Complement
        web
            http://www.ualberta.ca/~stothard/javascript/rev_comp.html
    RevComp
        local
            http://www.cmrsinc.com/sequence/RevComp.exe
>Translation tool                                          
    Transeq
        web
            http://www.ebi.ac.uk/emboss/transeq/index.html
    Translate
        web
            http://us.expasy.org/tools/dna.html
    Translation Machine
        web
            http://www2.ebi.ac.uk/translate/
    DNA Sequence Translator
        web
            http://biocommons.bcc.washington … oftware/dnatranslat
or/index.html
>Sequence search
    BLAST
        web
            http://www.ncbi.nlm.nih.gov/BLAST/
        local
            NCBI-Blast ftp://ftp.ncbi.nlm.nih.gov/blast/
            WU-Blast  http://blast.wustl.edu/
    Fasta
        web
            http://www.ebi.ac.uk/fasta33/index.html
    MPsrch
        web
            http://www.ebi.ac.uk/MPsrch/index.html
    Smith-Waterman Reverse-Frame Search
        web
            http://www.dna.affrc.go.jp/htbin/tswn.pl
    ESTblast
        web
            http://www.hgmp.mrc.ac.uk/ESTBlast/
>Sequence search by Genome
    NCBI:Genomic BLAST pages
        web
            http://www.ncbi.nlm.nih.gov/BLAST/
    GOLD
        web
            http://wit.integratedgenomics.com/GOLD/
>UTR analysis
    UTRhome
            http://bighost.area.ba.cnr.it/BIG/UTRHome/
>Signal Scan
    SignalP
        web
            http://www.cbs.dtu.dk/services/SignalP-2.0/
            http://bimas.dcrt.nih.gov/molbio/signal/
            http://www.dna.affrc.go.jp/htdocs/sigscan/signal.html
        local
            Send inquiries by e-mail to software@cbs.dtu.dk .
    TargetP
        web
            http://www.cbs.dtu.dk/services/TargetP/
    SIGSCAN
        web
            http://bimas.dcrt.nih.gov/molbio/signal/
    ChloroP
        web
            http://www.cbs.dtu.dk/services/ChloroP/
    NetPhos
        web
            http://www.cbs.dtu.dk/services/NetPhos/
>Promoter Scan
    PROSCAN
        web
            http://bimas.dcrt.nih.gov/molbio/proscan/
    TRANSFAC
        web
            http://transfac.gbf.de/TRANSFAC/
    COMPEL
        web
            http://compel.bionet.nsc.ru/compel/compel.html
        local
            http://compel.bionet.nsc.ru/cgi-bin/download/download.pl
    Promoter 2.0
        web
            http://www.cbs.dtu.dk/services/Promoter/
    PROMOTER SCAN II
        web
            http://www.molbiol.ox.ac.uk/promoterscan.htm
    Promoter Prodiction
        web
           http://www.fruitfly.org/seq_tools/promoter.html
>Protein Motif&Domain analysis
    InterProScan
        web
            http://www.ebi.ac.uk/interpro/scan.html
        local
            ftp://ftp.ebi.ac.uk/pub/databases/interpro/
    SMART
        web
            http://smart.embl-heidelberg.de/
    PROSITE
        web
            http://us.expasy.org/prosite/
        local
            http://us.expasy.org/ftp/databases/prosite/
    Pfam
        web
            http://pfam.wustl.edu/
        local
            ftp://ftp.genetics.wustl.edu/pub/Pfam/
    CDD
        web
            http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
    PRINTS
        web
            http://bioinf.man.ac.uk/dbbrowser/PRINTS/
    ProDom
        web
            http://prodes.toulouse.inra.fr/prodom/2002.1/html/home.php
    ELM
        web
            http://elm.eu.org/
    TIGRFAMs                                              
        web           
            http://www.tigr.org/TIGRFAMs/
        local                                                           
            ftp://ftp.tigr.org/pub/data/TIGRFAMs
>Transmembrane Domains
    TMHMM
        web
            http://www.cbs.dtu.dk/services/TMHMM-2.0/
    PRED-TMR
        web
            http://o2.db.uoa.gr/PRED-TMR/
    DAS
        web
            http://www.sbc.su.se/~miklos/DAS/
    TopPred
        web
            http://www.sbc.su.se/~erikw/toppred2/
    TMpred
        web
            http://www.ch.embnet.org/software/TMPRED_form.html
>Post-translational modifications
    YinOYang
        web
            http://www.cbs.dtu.dk/services/YinOYang/
    GlycoMod
        web
            http://ca.expasy.org/tools/glycomod/
    FindMod
        web
            http://ca.expasy.org/tools/findmod/
    PhosphoBase
        web
            http://www.cbs.dtu.dk/databases/PhosphoBase/
    O-GlycBase
        web
            http://www.cbs.dtu.dk/databases/OGLYCBASE/
    NetOGlyc
        web
            http://www.cbs.dtu.dk/services/NetOGlyc/
    NetPhos
        web
            http://www.cbs.dtu.dk/services/NetPhos/