GEOGeneExpressionOmnibus高通量基因表达数据库

上传人:无*** 文档编号:46484766 上传时间:2021-12-13 格式:DOC 页数:9 大小:1.09MB
收藏 版权申诉 举报 下载
GEOGeneExpressionOmnibus高通量基因表达数据库_第1页
第1页 / 共9页
GEOGeneExpressionOmnibus高通量基因表达数据库_第2页
第2页 / 共9页
GEOGeneExpressionOmnibus高通量基因表达数据库_第3页
第3页 / 共9页
资源描述:

《GEOGeneExpressionOmnibus高通量基因表达数据库》由会员分享,可在线阅读,更多相关《GEOGeneExpressionOmnibus高通量基因表达数据库(9页珍藏版)》请在装配图网上搜索。

1、ISSN 100727626CN 1123870Q中国生物化学与分子生物学报Chinese Journal of Biochemistry and Molecular Biology2007 年 3 月23 (3) :236244技术与方法Expression Omnibus ) :高通量基因表达数据库GEO( Gene3刘华,马文丽 ,郑文岭( 南方医科大学基因工程研究所 ,广州 510515)摘要 GEO ( Gene Expression Omnibus) 数据库包括高通量实验数据的广泛分类 ,有单通道和双通道以微阵列为基础的对 mRNA 丰度的测定 ; 基因组 DNA 和蛋白质分子的实

2、验数据 ; 其中包括来自以 非阵列为基础的高通量功能基因组学和蛋白质组学技术的数据也被存档 ,例如基因表达系列分析( serial analysis of gene expression ,SAGE) 和蛋白质鉴定技术 . 迄今为止 , GEO 数据库包含的数据含概10 000 个杂交实验和来自 30 种不同生物体的 SAGE 库 . 本文概述了 GEO 数据库的查询和浏览 ,数 据下载和格式 , 数据分析 , 贮存与更新 , 并着重分析 GEO 数据浏览器中控制词汇的使用 , 阐述了 GEO 数据库的数据挖掘以及 GEO 在分子生物学领域中的应用前景. GEO 可由此公众网址直接登陆http

3、 :www. ncbi . nlm. nih. govprojectsgeo.关键词 基因表达 ; 数据库 ; 控制词汇 ; 数据挖掘中图分类号 Q254 ;Q26GEO ( Gene Expression Omnibus) : High2throughputGene Expression Data ba seL IU Hua 3 , MA Wen2Li , ZHENG Wen2Ling( Institute of Genetic Engineering , Southern Medical University , Guangzhou 510515 , China)Abstract The

4、Gene Expression Omnibus ( GEO) database , the first public repository for gene expressiondata , premiered at National Center for Biotechnology Information (NCB I) in J uly 2000 . The GEO database contains a wide assortment of high2throughput experimental data , including single and dual channel micr

5、oarray2 based experiments measuring the abundance of mRNA , genomic DNA and protein molecules. Data are also archived which origin from non2array2based high2throughput functional genomics and proteomics technologies , including serial analysis of gene expression ( SAGE) and protein identification te

6、chnology. To date , the GEO database contains data representing almost 10 000 hybridization experiments and SAGE libraries from 30 different organisms. This paper outlines the query and browse in GEO database , data download , format , data analysis , and deposit and update . Also , it focuses on th

7、e managing terminology used in the GEO2databrowser , while describing the course of data mining and GEOs future applications in the field of molecularbiology. GEO is publicly accessible at http :www. ncbi . nlm. nih. govprojectsgeo.Key words gene expression ; database ; managing terminology ; data m

8、iningGEO ( Gene Expression Omnibus) 数 据 库 , 作 为 第一个基 因 表 达 数 据 的 公 共 贮 存 库 , 2000 年 7 月 在 NCB I 上首次公布于众 . 创建 GEO 的最初目的是适 应高通量实验方法在将来的普遍发展 ,具有强大的 数据收录功能 . 因此 ,它有着极大灵活性和与时俱进 的设计风格 ,不需设立严格的登陆要求和标准. GEO 是 支 持 符 合 MIAME ( minimum information about a microarray experiment ) 数 据 提 交 的 基 因 表 达分 子 丰资源. GEO 可

9、作为广泛的高通量试验数据的公共贮存库. 这 些 数 据 包 括 单 通 道 和 双 通 道 的 微 阵 列 实收稿日期 : 2006209226 , 接收日期 : 2006212225广东省重点实验室基金资助3 联系人 Tel : Tel :13560475855 , E2mail :annylh2008 126 . comReceived : September 26 ,2006 ;Accepted : December 25 ,2006Supported by Key Laboratory Program of Guangdong Province3 Corresponding autho

10、r Tel : 13560475855E2mail : annylh2008 126 . com1度库,关于基因表达数据浏览 ,查询和检索的在线验2 ,3,用于测量 mRNA4 ,5 ,基因组 DNA 和蛋白质丰化等条件在数据组中是连贯的 . 它是存贮治疗基因表达和由基因表达库组成的分子丰度数据库.113GEO 表达谱这个数据库贮存个体基因表达和由基因表达库 组成的分子丰度图 ,可以通过基因注解或预处理的图谱特征寻找感兴趣的特殊图谱9 ,10 . GEO 表达谱有利于强大的搜索和附注资源的链接 .度 , 以 及 非 阵 列 技 术 , 如 基 因 表 达 系 列 分 析( SAGE) 6 和质

11、谱分析蛋白组学数据. 至今公共数据 中已有2 807个 GPL (platforms) 平台 , 105 243个 GSM ( GEO samples) 样品 ,4 476个 GSE ( series) 系列.1数据库的构成111提交到 GEO 的数据分类2 查询和浏览211 检索 GEO 数据的方式使用显示条查看有登陆号的详细 GEO 记录 ,此 工具对格式和查看的数据量有多个选项.使用 Entrez GEO 数据集或 Entrez GEO 表达谱界 面查看某个特殊领域或整个领域的所有 GEO 投稿 ,Entrez GEO 表达谱可查询预处理的基因表达分子 丰度图谱 ,而 Entrez GE

12、O 数据集则查询所有的实验 注解 . 正如其它的 NCB I Entrez 数据库 , 可以使用布 尔短语 ,并限定在支持的特征字段 ,能够进行有效的 查询和挖掘.使用 GDS 浏览器或查看当前的 GEO 存贮目录 ,可以浏览 GEO 数据和实验列表.平 台 记 录 描 述 阵 列 上 的 成 分 ( 例 如 ,平台cDNAs , 寡聚核苷酸探针 ,ORFs , 抗体) 或 在 实 验 中可检测和定量的成分 (例如 SAGE 标签 ,肽) .样品 样品记录描述个体样品信息 ,经过的处 理 ,和每个元素的丰度测定 ,即关于被检测的 mRNA 样本 ,实验条件 , 和实验产生的基因表达测量数据信息

13、.系列 系列记录定义一组相关样品 ,样品间如 何相关 ,以及是否有序和怎样排序 . 就整体而言 ,系 列提供试验的焦点描述 . 系列记录也包含描述提取 数据 ,概括结论 ,或分析的表格. 每一个系列记录指定唯一固定 GEO 登陆号 ( GPL xxx) 7 .212GEO 数据浏览器21211 控制词汇与非控制词汇控制词汇是标准化术语的选择 ,具有固定的意 义 ,用来避免不同标题下相关主题意义的弥散. 控制词汇处理有许多方式说明同一事物的情况 ,多年前已经用于信息学和其它领域. 例如 , 在航空控制领 域 ,管理员和飞行员一样使用相同的术语描述航空 器的不同类型 ,它们的高度 ,方向和速度 ,

14、所有这些对航空工业的安全运行是至关重要的 . 如果不使用 这些词汇 ,将导致飞行员错误地转向 ,使别的飞行员 转向或以错误的高度飞行 ,所有这些可能导致事故 发生.虽然因特网中非控制词汇的使用不会导致事故 ,但控制词汇是非常有用的 ,因为它们有助于元数 据创建者和查找者使用相同的意义.搜索引擎通过改变不同术语的搜索方式 ,使用 先进的方法加快非控制词汇的搜索 :自由词搜索 自由词搜索包括以正文字符串的形式 来自专业和日常用语的单词 ,短语或句子. 自由词搜索最普遍地用于使用者寻找地理学名称 ,其它固有 名称 ,或当使用者寻找的概念在他们搜索的来源物 中的陈述很少的时候. 查找引擎会匹配所有的单

15、词 , 按照从最相关 (如大多数单词匹配) 到最不相关 ( 如Fig. 1 The entity2relationship diagra m f or GEOGEO 为了能够有效地检索 , 显示 和 分 析 数 据 ,几个新的工具和特性已经开发. 为了创建这些工具 , GEO 数据首先组合为可比较的集合 ,或 GEO 数据集( GDS) . GDS 代表在生物学和统计学上有可比性的GEO 样品. 两个新的数据库已经被创建用于查询这 些数 据2Entrez GEO 表 达 谱 和 Entrez GEO 数 据 集 .Entrez GDS 查询数据定义和原始的实验注解以确认感兴趣的实验. Entr

16、ez GEO 表达谱显示每一组数据 的个体基因表达分子丰度图谱 .112GEO 数据集GEO 数据集 ( GDSxxx) 是当前的 GEO 样品数据 库 . GDS 记 录 代 表 生 物 学 上 和 统 计 学 上 可 比 较 的 GEO 样 品 集 合 及 数 据 显 示 和 分 析 工 具 的 基 础 形式8. 在 GDS 内的样品是指相同的平台 , 也就是它们分享一组共同的探针. GDS 内的每一个样品值的测定假定通过等值的方法计算 ,即背景处理和标准中国生物化学与分子生物学报23 卷238一或两个单词匹配) 的顺序排列. 通常自由词搜索比控制词汇搜索检索到更多的采样数 ,但是很可能返

17、 回的结果和正搜索的主题不相关.关键词检索 关键词检索是至今为止因特网搜索最普遍的形式 ,被大多数搜索引擎所使用 . 当使用关键 词时 ,用于搜索的引擎将忽略所有的介系词 ,如 the , an ,at ,with ,for .21212控制词汇与非控制词汇的使用 控制词汇的使用比非控制词汇有更多的优点.但是 ,可以用非控制词汇查找某些时段. 这两种方法 最好一起使用 ,控制词汇的查找用于限定主题范围 , 非控制词汇的查找用于精炼主题范围内的查找. 对 于它们本身而言 ,每一种方法都是独立的 ,而不是综 合的搜索工具 . 两种工具结合起来可以更为精确的 ,广泛的搜索工具.因此 ,推荐 GEO

18、数据浏览器使用两种方法结合 的方式 ,包括针对高级使用者的嵌套法 ,布尔运算 , 截词和近似查找. 扩展的 ,限制性和相关的术语的结 构控制词汇的引入加强了 GEO 数据浏览器的查找能力.GEO 数据浏览器仅仅搜索包含几千个记录的 数据库 ,然而 ,搜索引擎如 Excite 在包含数百万记录 的巨大资源库中查找. 尺寸的不同可能影响我们利 用不同类型的查找技术. 很明显 ,使用者会采用简单的搜索策略 , 从查询结果中发现它们搜索的内容. GEO 数 据 浏 览 器 必 须 包 含 供 这 种 用 户 使 用 的 界以容纳 2 份数据和多个平台 ,样品和序列原始数据 ,可以直接上传到数据库. 批

19、量更新也可用 SOFT 格 式来快速 ,有效完成.以有效的 MAGE ML 格式传输文件到 GEO.31111 网络存贮简述提交者分 4 部分提供数据 :平台 ,样品 ,序列 ,和 补充数据12步骤 1 输入联系信息创立一个 GEO 帐号. 这是必 要的公共信息 ,给数据提供适当的可信度 .步骤 2 检查 GEO 中是否存在平台 . 如果实验使用 商业阵列 (如 ,Affymetrix) 完成 ,可以不必提交平台记录 ,在上述情况下可以直接进入步骤 4 . 注解为限定 平台的不需要 SAGE 数据 ;也直接进入步骤 4 .步骤 3 提交对平台的限定 ,平台记录包括出现在阵列中的元素 (如 ,c

20、DNAs ,寡核苷酸 ,ORFs ,抗体) 的 数据列表和描述性信息 ( 但是没有杂交测量结果) . 使用者首先要从下拉菜单中规定平台类型 ,然后必须以文本 , 表格限定的格式提供平台数据表 ( Table1) . 数据表的第一行必须包括专栏标题 ;此后每一行 表示仅仅一个元素 ,或者阵列上的“点”. 平台数据表需要一个有标志符的列被命名为“ID”,每一个 ID 在平台中是唯一的 , 并包括序列标记 ; 对用于索引的Entrez GEO 文档应引出此信息 ,并提供附加描述栏. Ta ble 1 The data f or a non2commercial nucleotide platf or

21、m IDGB ACCGene symbolGene name123U83857M61764NM - 012094API5TUB G1PRDX5apoptosis inhibitor 5tubulin , gamma 1 peroxiredoxin 5面11. 然而 ,这并不意味着高级的查找技术没有效用 . 我们宁可主检索界面是单一的 ,与高级检索界面分离 ,这样不熟悉高级技术的用户不会被复杂的多 功能界面所迷惑.在数据表通过批准后 ,使用者要提供平台标题 ,组织 ,描述性信息 ,和撰稿人.步骤 4 提交杂交数据 ( 或 SAGE 标签计数资料) 作 为样品记录. 一个样品记录参照一个平台 ,描

22、述单一 杂交实验状态的丰度测量. 首先要说明样品类型并参照原平台 GEO 登陆号. 然后使用者必须以文本 , 表格分隔的形式提供样品数据表. 数据表的第一行 必须包 括 专 栏 标 题. 样 品 数 据 表 需 要 一 个 命 名 为3 数据提交与下载311 数据的提交与更新一旦提交者确定了自己的 GEO 帐号 ,便可通过 以下 3 种方法来存储数据 :交互的网络形式. 每个提交的平台和样本 ,都可以上传和验证文本格式的数据文件 ,通过一系列的 网络格式来交互上传原始数据 ,这个过程十分简单 , 尤其是提交的条目较少时. 单个记录的更新也可用 类似的网络格式来执行.用简 单 的 文 本 格 式

23、 ( SOFT text ) 和 SOFT 格 式 ( SOFTformat) 直接提交. SOFT 格式是为快速批量提 交数据而设计的 ,从普通的电子表格和数据库应用 软件 ,可以很容易得到这些文件. 单个 SOFT 文件可“ID2REF”的列来匹配参考平台的“ID”栏和“VALUE”栏 (或 SAGE 数据的“TAG”和“COUNT”. 对于双通道实验 ,VALUE 反应标准化 ( 量化) 的对数比测量值. 对于单通道实验 ,VALUE 是标准化的信号运算数据 (非对数转换) .GEO 数据显示和分析工具仅仅在使用标准化 值时才有效. 如果用户数据库中的中位数变异很大 ,报16 ,17那么

24、此数据库是非标准化的 ,不能合并入 GEO 的查询和分析工具.步骤 5 用户提交了所有的样品数据后 , 提交一个 系列记录. 一个系列把样品的相关组集合在一起 ,提供一个集中和整体的研究描述 . 反应亚型的信息也 可以详细说明 .步骤 6 在样品和序列号经过处理和批准后 , GEO 服务人员会给用户发送电子邮件确认 GEO 序列号 , 要求用户提供相应的补充数据文件. 补充数据类型的样 品 包 括 cDNA 阵 列 , tiff 扫 描 图 像 , Affymetrix , CEL ,EXP 文件 , GenePix , gpr 文件. 补充数据文件将 传送到 GEO 的私人 FTP 站点2F

25、TP 详细地址在确认 的电子邮件中提供.31112 更新对个人记录的编辑和更新 ,提交者可以通过选 择在 Web depositupdate 页面上的“UPDATE”部分进 行操作13 .312 数据下载和格式31211 GEO 记录在 Accession Display 栏 (位于 GEO 主页底部和每 一条 GEO 记录顶部) 有几种选择可供原始 GEO 记 录的检索和显示.“Scope”可以是一个登陆号或关于 登陆的任何记录 ( 平台 ,样品或序列) 或所有 ( 家簇) 记录.“Amount ”指显 示 数 据 的 数 量 , 选 项 包 括 元 数据 ,元数据和数据表的前 20 行 ,

26、数据表 ,或整个元数 据数据表记录 .“Format ”是记录是否以 HTML 或以 SOFT 格式显示. SOFT 是设计为数据检索或提交给 GEO 的可机读的 ASC11 文本格式.31212 GDS 记录每 1 个 GDS 记录对数据组的下载有 3 种选择. 完整的 SOFT 文档包含整个数据组的所有信息 , 包 括对数据组的描述 , 类型 , 组织 , 亚群的定位等 . 另 外 ,数据表包括标记物和数值 .;3) 提供值得在实验室中进一步研究的可能的候选基因18;4) 关于异常通道或基因相互作用形成假说19 ;5) 发现特征基因的新作用20 .412 数据检索GEO 数据可以使用 En

27、trez GEO 数据集和 Entrez GEO 表达谱进行查询. Entrez GEO 表达谱查询预处 理的基因表达分子丰度图谱 ,即样品和系列记录 , 浏 览 器 网 址 为 http :www. ncbi . nlm. nih. govgeo querybrowse . cgi ,而 Entrez GEO 数据集查询所有的实验 注 解 ( http :www. ncbi . nlm. nih. govprojectsgeo gdsgds- browse . cgi) ,正如其它的 NCB I Entrez 数据库 , 可以使用布尔短语 ,并限定在支持的特征字段 ,进行 有效的查询和挖掘2

28、1 .对于感兴趣的实验 ,使用 Entrez GEO 数据集进行属性限定 ,如基因名 , GEO 登陆号 ,关键词 ,变异 性 ,组 织 , 创 建 日 期 和 平 台 等 . 例 如 , 使 用 检 索 词dual channel Experiment TypeAND metastasis ANDhuman Organism 寻找人类新陈代谢的所有的双通道核苷酸微点阵实验数据组. 检索信息显示了数据 组标题 ,简短实验说明 ,分类法 ,实验变量类型和原始平台的链接 , 相关系列记录和完整 GDS 记录. 一旦确定相关数据集 ,可进一步研究感兴趣基因的表 达图谱.Entrez GEO 表达谱进

29、行属性限定 ,如关键词 ,平台和样品类型 ,提交者 ,组织 ,发表日期和补充文档 类型等. 例如 ,利用检索词Type 1 diabetesGDS Text AND apolipoprotein Gene Description NOT Homo sapiens Organism ,检索到所有在非人类的物种中 型糖尿病相关数据集中的载脂蛋白相关的基因资料 . 检索结果显示报告人的注解 ,简短实验信息 ,分 类法和这个图谱的条形索引图 . 这个索引图对于快 速 、大量文档扫描 、比较非常有用 ,单击索引图像可 显示图谱的详细内容22 .因为样品通常组合为系列内有意义的数据组 ,所以对一个系列及其

30、相关样品和平台的检索更具有 说明性. 在 GEO 中检索某一感兴趣的数据系列的例 子如下 :4数据检索与分析411数据挖掘的作用1) 证实感兴趣的基因的表达动向 ,这在个体实验中可以忽略14 ,15;2) 确 认 实 验 室 结 果 或 感 兴 趣 基 因 功 能 的 学 术 汇中国生物化学与分子生物学报23 卷240在 GEO 主页面的 GDS 检索框输入系列号 GDS279 ,单击 GO :搜索结果显示为检索的 GDS 序列号及相关的平台与样品 ,单击 GDS279 record :在“GDS Summary”上关于 GDS279 的描述是对数据的简要评价 ,在 download 中可以选

31、择 SOFT 格式下载 :413 数据分析通过 Entrez GEO 表达谱中的“Profile neighbors”、 “Sequence neighbors”、“Links”等工具 ,可以找到感兴趣的相关数据. Profile neighbors 检 索 显 示 为 相 似 类 型数据组的其它基因分子 ,由此可以推断某些普通 功能元件或调控 元 件. Sequence neighbors 基 于 核 苷酸序列相似性在所有 GEO 数据库寻找相关基因 ,因 此可以用于鉴别同源序列如相关基因家族 ,或用于物种间对照23 26 . Links 可以通过 GEO 数据库链接 到其 他 Entrez

32、 数 据 库 的 相 关 纪 录 , 包 括 GenBank ,这个特性是通过计算一个数据集内 、不同实验子集间的平均秩次或值的差别 ,来鉴别感兴趣的基 因表达谱. 例如 :对于数据集 GDS279 ,如果研究者想定位那些在高脂饮食与低脂饮食的老鼠之间表达高 出 3 倍的基因 ,可以使用此复选框 ( Fig. 3 所示) . 点 击”Query A vs B”可以检索到符合条件的图谱 :41313Subset effects 子集效应 如果不同子集间的基因表达值或秩次存在显著性差异 ,那么这些表达谱就会被自动标记. 通过这个 特性可以检索到所有相关的表达谱. 换句话说 ,对于某个特别的实验变量

33、 ,如年龄或血型,一旦出现 有意义的表达谱 ,该表达谱即会被标记.41314Value distribution 数值分布 一个数据集中的每个样本均会有对应的箱丝图 ,可以大概了解一个数据集的数值分布状态.41315 GEO BLAST GEO 的序列比对该界面是通过 BLAST 来搜索感兴趣的 ,核苷酸 序列相似的 GEO 基因表达谱. GEO BLAST 数据库包含了 所 有 GenBank 中 的 序 列. 而 且 , 是 用 NCB Is BLAST 界面输出标准的 BLAST 比对结果 ,并且在适 当的位置显示E图标链接 ,点击E图标即可直接链接到 GEO Profiles 数据33

34、 .5 前景与展望为了支持公共使用和散布基因表达数据 ,NCB IPubMed ,Gene ,Uni Gene ,OMIM ,Homolo Gene ,Taxonomy , SAGEMap , and MapViewer27 ,29 .辅助分析工具除了 Entrez 查询系统以外 , GEO 还提供了几个 辅助工具来协助增强数据的挖掘和可视化30 .41311Cluster heat map s 聚类图大多 数 据 集 提 供 了 样 本 和 基 因 等 级 聚 类图31 ,32. 用户可以选择浏览这些聚类图 ,并选择感兴趣的多聚类部分 ,然后进行放大 ,下载 ,做成线性图表或直接链接到 En

35、trez GEO Profile 记录. GEO 提供 9种预处理的分层聚类类型和用户确定的 K 均数 和K 中位数聚类 ( 见 Fig. 3) . 以 GDS279 为例的数据聚 类分析如 Fig. 2 所示 :41312 Query subset A versus B 比较 A 子集和 B 子 集的查询中国生物化学与分子生物学报23 卷242Fig. 2Data Set cluster analysisSection of DataSet GDS279 uncentered correlation UPGMA hierarchical cluster analysis. Each colu

36、mn represents an individual sample , or hybridization ; each row represents a gene , identified by a GenBank accession number . The light color indicates high expression and the darker color low expression. The dashedbox can be moved and resized to select regions of interest , the data for which may

37、 be downloaded , or exported to Entrez GEO Profiles开始了基因表达汇编 ( GEO) 计划. GEO 努力建立一个基因表达数据仓库和在线资源 ,用于从任何物种 或人造的来源检索基因表达数据. 来自于微阵列 ,高 密度寡核苷酸阵列 ( HAD) ,杂交膜 (filter) 和 SAGE 的 许多类型的基因表达数据都被接受 ,登记 ,和存档 , 作为一个公共数据集合 GEO 即将增加一系列预处 理的数据的定义和描述 ,以及用于交互检索和分析 这些表达数据的在线工具34 .在提 高 索 引 , 链 接 , 搜 索 和 显 示 功 能 的 方 面 ,

38、GEO 资源正处于不断地发展中 ,以便进行更有效的 数据挖掘. 由于 GEO 中存贮的数据来自不同的技术和原始资料 , 因此它们不一定具有可比性36 . 基于 这点 , GEO 把 ProbeSet 限 定 为 包 含 可 比 较 资 料 的 GEO 样品的集合. 在 GEO 贮存库中的数据集合到其它 NCB I 资源以前 ,有必要对进入 ProbeSet 的 GEO 样品进行选择 ,以及针对这些数据开发有用的显示工 具 ( Fig. 4) . 另外 ,由于 GEO 贮存库的扩充 , GEO 现在 正发展一个完整的丰度测量数据库 ,它将支持个体 丰度测量结果的查询与检索. 但是 ,在由复杂性和

39、当 前高通量基因表达和染色体组杂交实验的快速发展所带来的限制下 ,丰度测量仅仅在相似来源的数据 组中才具有可比性. GEO 计划开发可比较的数据子 集 ,以便于能够尽可能自由地查询丰度测量结果以 及提供关于这些数据的有用概略图. GEO 凭着操作 简单 、数据全面 、免费共享等特点 ,将在基因表达 、数据挖掘 、信息推广等中发挥重要作用 ,为后续研究提 供了更好的平台.Fig. 3 GEO Data Set recordA screen shot of a typical DataSet record , GDS279 , which investigates the effect of a

40、high2fat diet on liver tissue in wild2type and LDL receptor2deficient mice . The locations of the main DataSet features and tools are indicatedFig. 4 Constellation of NCBI gene expression resourcesAnticipated development of gene expression resources at NCBI is shown. Blue spheres represent Web sites

41、 , orange cylinders represent primary NCBI databases , green cylinders represent secondary databases , and yellow cylinders represent tertiary NCBI interface databases. Arrow represent data flow , and lines represent Web site links中国生物化学与分子生物学报23 卷244Proc Natl Acad Sci USA ,2004 ,101 (32) :116892116

42、94Zhou X J , Kao M C , Huang H , et al . Functional annotation and network reconstruction through cross2platform of integration microarray data J . Nat Biotechnol ,2005 , 23 (2) :2382243Calcagno A M , Ludwig J A , Fostel J M , et al . Comparison of drug transporter levels in normal colon , colon can

43、cer , and Caco22 cells : impact on drug disposition and discoveryJ . Mol Pharm , 2006 , 3(1) :87293Calvo S , Jain M , Xie X , et al . Systematic identification of human mitochondrial disease genes through integrative genomics J Nat Genet ,2006 ,38 (5) :5762582Chen Q , Qian K , Yan C. Cloning of cDNA

44、s with PDCD2 ( C) domainand their expression during apoptosis of HEK293T cellsJ . Mol CellBiochem ,2005 ,280 (122) :1852191Altschul S F , Gish W , Miller W , et al . Basic local alignment search tool J . J Mol Biol ,1990 , 215 (3) :4032410Jansen B J , Spink A , Saracevic T. Real life , real users ,

45、and real needs : A study and analysis of user queries on the web J . Information Processing Management , 2000 ,36 (2) :2072227Barrett T , Edgar R. Mining microarray data at NCBIs Gene ExpressionOmnibus ( GEO) 3 J . Methods Mol Biol ,2006 , 338 :1752190Oue N , Hamai Y , Mitani , et al . Gene expressi

46、on profile of gastric carcinoma : identification of genes and tags potentially involved in invasion , metastasis , and carcinogenesis by serial analysis of gene expressionJ . Cancer Res ,2004 , 64 (7) :239722405Cheadle C , Cho2Chung Y S , Becker K G , et al . Application of z2score transformation to

47、 Affymetrix data J . Appl Bioinformatics ,2003 ,2 (4) :2092217Koide T , Vencio R Z , Gomes S L . Global gene expression analysis of the heat shock response in the phytopathogen Xylella fastidiosa J . J Bacteriol , 2006 ,188 (16) : 582125830Wheeler D L , Barrett T ,Benson D A , et al . Database resou

48、rces of the National Center for Biotechnology Information J . Nucleic Acids Res ,2005 ,33 (Database issue) :D39245Schena M , Shalon D , Davis R W , et al . Quantitative monitoring of gene expression patterns with a complementary DNA microarray J . Science ,1995 ,270 (5235) :4672470Boyle J . SeqExpre

49、ss : desktop analysis and visualisation tool for gene expression experimentsJ . Bioinformatics ,2004 , 20 (10) :164921650Peters T A. The history and development of Log transaction analysisJ . Library Hi Tech ,1993 , 42 (11) : 41266Schuler G D , Epstein J A , Ohkawa H , et al . Entrez : molecular bio

50、logy database and retrieval system J Methods Enzymol , 1996 ,266 :1412162Ott S , Hansen A , Kim S Y , et al . Superiority of network motifs over optimal networks and an application to the revelation of gene network evolutionJ . Bioinformatics ,2005 , 21 (2) :2272238Zhou X J , Kao M C , Huang H , et

51、al . Functional annotation andnetwork reconstruction through cross2platform integration of microarray data J . Nat Biotechnol ,2005 , 23 (2) :2382243Bassett D E J r , Eisen M B , Boguski M S , et al . Gene expression informatics its all in your mine J . Nat Genet , 1999 , 21 ( 1Suppl) :51255参考文献 ( R

52、eferences)171Brazma A , Hingamp P , Quackenbush J , et al . Minimum information about a microarray experiment ( MIAME ) 2toward standards for microarray data J . Nat Genet ,2001 , 29 (4) :3652371Lipshutz R J , Morris D , Chee M , et al . Using oligonucleotide probe arrays to access genetic diversity

53、J . Biotechniques ,1995 , 19(3) :4422447Kononen J , Torhorst J , Kallioniemi O P , et al . Tissue microarrays for182193high2throughput molecular profiling of tumor specimens J . Med ,1998 ,4 (7) :8442847Chen Q , Qian K , Yan C. Cloning of cDNAs with PDCD2 ( C) domain and their expression during apop

54、tosis of HEK293T cellsJ . Mol Cell Biochem ,2005 ,280 (122) :1852191Lelandais G , Vincens P , Badel2Chagnon A , et al . Comparing geneexpression networks in a multi2dimensional space to extract similarities and differences between organisms J . Bioinformatics ,2006 , 22 (11) : 135921366Griffith O L

55、, Pleasance E D , Fulton D L , et al . Assessment and integration of publicly available SAGE , cDNA microarray , and oligonucleotide microarray expression data for global coexpression analysesJ . Genomics ,2005 , 86 (4) :4762488Velculescu V E , Zhang L , Vogelstein B , et al . Serial analysis ofgene

56、 expressionJ . Science ,1995 , 270 (5235) :4842487Barrett T , Suzek T O , Troup D B , et al . NCBI GEO : mining millions of expression profiles22database and toolsJ . Nucleic Acids Res ,2005 ,33 (Database issue) :D5622566Jordan I K ,Marino2Ramirez L , Wolf Y I , et al . Conservation andcoevolution i

57、n the scale free2human gene coexpression network J . Mol Biol Evol ,2004 ,21 (11) :205822070Lee H K , Hsu A , Sajdak J , et al . Coexpression analysis of human genes across many microarray data sets J . Genome Res , 2004 , 14 (6) :108521094Schuler G D , Epstein J A , Ohkawa H , et al . Entrez : mole

58、cular biology database and retrieval system J . Methods Enzymol , 1996 ,266 :1412162Edgar R , Domrachev M , Lash A E. Gene Expression Omnibus : NCBI gene expression and hybridization array data repository J . Nucleic Acids Res ,2002 ,30 (1) :2072210Wheeler D L , Church D M , Edgar R , et al . Databa

59、se resources of the National Center for Biotechnology Information : update J . Nucleic Acids Res ,2004 ,32 (Database issue) :D35240Shen D , He J , Chang H R. In silico identification of breast cancergenes by combined mutiple high throughput analyses J . Int J MolMed ,2005 ,15 (2) :2052212Gomez2Merin

60、o FC , Brearley CA , Ornatowska M , et al . a novel diacylglycerol kinase from Arabidopsis thaliana , phosphorylates 12 stearoyl222arachidonoyl2sn2glycerol and 1 , 22dioleoyl2sn2glycerol and exhibits cold2inducible gene expressionJ . J Biol Chem , 2004 , 279 (9) : 823028241Puffenberger E G , Hu2Lince D , Parod J M , et al . Mapping of sudden infant death with dysgenesis of the testes syndrome ( SIDDT) by aSNP genome scan and identification of TSPYL loss of function J .Nat20421522623247825926102711281229301331143215333416

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!