目录

    • 1.GEO数据库简介
    • 2.从GEO数据库下载数据
      • 2.1使用GEOquery包从GEO数据库下载数据
      • 2.2了解下载函数返回的对象
      • 2.3ExpressionSet对象简单讲解
    • 3.芯片基础知识
      • 3.1基础介绍
      • 3.2illumina的bead 系列表达芯片扫盲

1.GEO数据库简介

NCBI Gene Expression Omnibus(GEO)是一个存储各种高通量实验数据的公共数据库。这些数据包括基于单通道和双通道微阵列的实验,检测mRNA,基因组DNA和蛋白质丰度,以及非阵列技术,如基因表达系列分析(SAGE),质谱蛋白质组学数据和高通量测序数据。网址:https://www.ncbi.nlm.nih.gov/geo/

series:GSE数量
platforms:各个公司出的各种芯片 各种测序仪
samples:样品数
可以点击overview查看具体信息

比如在首页搜索GSE42872,可以看到下列对应信息:
点击图一的GPL6244可以得到图二,可以看到芯片信息:

图二左滑可以得到图三,gene_assignment里能够看到基因对应的真正基因名,就可以利用R中字符串切割,提取这些基因名。


有时候会看到一个GSE里有三个芯片,根据生信技能树这篇文章: http://www.biotrainee.com/forum.php” />解读GEO数据存放规律及下载,一文就够

  • 芯片基础知识打卡
  • illumina的bead 系列表达芯片扫盲
  • 2.从GEO数据库下载数据

    2.1使用GEOquery包从GEO数据库下载数据

    参考文章链接: http://www.bio-info-trainee.com/bioconductor_China/software/GEOquery.html,学习使用方法,获取所有芯片探针与gene的对应关系。

    下载GEOquery包

    BiocManager::install("GEOquery")library(GEOquery)

    getGEO函数

    #根据GDS号下载数据 下载soft文件gds858<-getGEO('GDS858',destdir=".")#根据GPL号下载的是芯片设计的信息gpl96 <- getGEO('GPL96', destdir=".") #据GSE号下载数据,下载_series_matrix.txt.gzgse1009 <- getGEO('GSE1009', destdir=".")#destdir:指定下载地址 默认是工作目录#GSEMatrix:TRUE下载Matrix文件 F下载soft文件#AnnotGPL:T下载注释文件 F不下载#getGPL:TRUE 下载GPL注释文件 F不下载

    2.2了解下载函数返回的对象

    1.查看下载GDS返回的对象 soft文件

    #Table(gds858) 可以得到表达矩阵#Meta(gds858) 可以得到描述信息#suppressMessages 代码检查#soft文件下载很慢 可以选择AnnotGPL和getGPL都为F 只获得expression setoptions(warn=-1) #不显示报错信息suppressMessages(library(GEOquery))gds858 <- getGEO('GDS858', destdir=".")names(Meta(gds858)) #列出所有列名即描述信息Table(gds858)[1:5,1:5]

    2.查看下载GSE返回的对象 _series_matrix.txt.gz文件

    gse1009 <- getGEO(‘GSE1009’, destdir=“.”)

    gse1009就是expression set 对象,处理函数有:geneNames/sampleNames/pData/exprs。

    3.查看下载GPL返回的对象 soft文件

    gpl96 <- getGEO('GPL96', destdir=".")names(Meta(gpl96))Table(gpl96)[1:10,1:4]

    也有其他数据下载的方式,主要是GEO主页直接点击下载原始数据或者直接下表达矩阵,但会因为网速的问题出现bug,所以个人感觉这种会更方便,因为下载之后的数据就在对应文件夹,一目了然。

    2.3ExpressionSet对象简单讲解

    exprs():提取表达矩阵pData():查看该对象的分组信息

    ExpressionSet对象简单详解

    3.芯片基础知识

    3.1基础介绍

    基因芯片也叫DNA芯片、生物芯片、微阵列,能够获得大量基因表达图谱的高通量技术。

    DNA芯片原理与生物学中Southern杂交等试验技术相似,都是利用DNA双螺旋序列的互补性,即两条寡聚核苷酸链碱基之间形成氢键互补配对。

    DNA芯片通常以尼龙、玻璃、塑料、硅片等为基质材料,固着特定序列DNA单链探针Oligo,并与被检测序列单链cDNA序列互补结合,即杂交。被检测序列用生物素或荧光染链标记,通过荧光染料信号强度可以推算每个探针对应的样品量,即样本中该mRNA水平的高低。一张DNA芯片,可以固着成千上万个探针。

    根据制备方法,DNA芯片主要可以分成三类:

    • 利用机械装置将cDNA序列或者其他PCR产物点在芯片上作为探针;
    • 利用机械装置将事先合成的寡核苷酸链序列点在芯片上作为探针;
    • 不事先合成寡核苷酸链,而直接在芯片上通过原位合成技术同时合成所有探针。

    DNA芯片主要检测的指标就是基因表达产生的mRNA含量,通过将提取的总mRNA反转录为cDNA并杂交到具有不同基因探针的DNA芯片上,就可以得到不同基因在不同条件、不同发育阶段下的表达情况。被排列成矩阵的DNA片段通常称为探针,而样本RNA则被成为靶标。

    即基因芯片分析就是为了通过生物信息学方法从这些芯片数据中发现可能对生物效应起作用的关键基因,从而寻找特定模式并对每个基因给予注释,从而挖掘出隐含的生物学过程并抽提出生物学功能层面上的意义。

    DNA芯片实验步骤:

    1. 准备杂交样品,一般分别从样品细胞和对照细胞中提取;
    2. 提取的mRNA通过反转录得到更稳定的cDNA,这个过程中分别对样品细胞和对照细胞加入不同荧光染料(双色芯片实验)或者生物素(单色芯片实验)进行标记;
    3. 两种样品同时杂交到制作好的芯片上,芯片上每个点都与分别标记有两种不同荧光的样品竞争结合;
    4. 通过激光扫描仪器可以获得每个点的荧光强度,荧光强度范围为0~65536(216)。这个步骤中应注意实际荧光强度测量值是可以调节的,应该有意识控制大多数样品荧光强度处在总体范围中间偏上位置,太高易产生太多过饱和值,强度超过上限(通常为65536),扫描仪器无法测量;太低则容易受随机误差干扰。例如,若随机误差强度为50,则信号强度为100,则信噪比过低;反之,若信号强度为10000,信噪比大大加强;
    5. 整合两种不同颜色强度可得到虚拟图谱,绿色点表示处理后的细胞中该基因表达量高,红色点反之,黄色点表示处理前后表达水平相当,而黑色点则说明两个颜色标记的样品均无表达。

    需要注意的是杂交强度不仅代表基因表达水平实际差异,还可能受非特异性杂交影响。为尽量排除这种因素,Affymetirx芯片中设计了不匹配核苷酸探针作矫正依据。此外,染料效率不同带来的系统误差需用均一化方法进行矫正。

    芯片技术的两种基本方法:

    • 单染色技术
      将一个样本经一种荧光标记后单独杂交到一张芯片上,是目前使用最多的方法。将一个样本单独与一张芯片杂交,可以方便简单地在多张芯片之间进行比较。
      产生的芯片数据为单通道信号数据,这种方法产生的数据变异大,需要通过重复实验来减少误差。
    • 双染色技术
      把两个样本用不同荧光标记后一起杂交到同一张芯片上。用于检测两种不同条件下基因表达的差异情况,如疾病组织和正常组织(往往多个正常组织DNA混合在一起,作为”pool”样本),处理组与对照组。两个样本(如处理与对照)被两种不同荧光标记。一个样本的cDNA用Cy5(一种显示为红色染料)标记,另一个样本用Cy3(一种显示为绿色的染料)标记。这两种荧光标记的样本混合后与芯片上的探针竞争杂交。
      这样产生的芯片数据为双通道信号数据。这种双通道信号数据便于两样本间的直接比较,有助于减少数据变异性,提高组间差异表达分析的准确性,同时减少了芯片的使用量,节约了成本。但由于使用这种技术已经确定好了实验设计,就无法与其他样本进行比较了。

    芯片公司:

    • Affymetric公司
    • Agilent公司
    • Illumina公司

    芯片分析软件:

    1. GeneSpring 优点:互动式的视窗操作界面,傻瓜式操作,功能强大,拥有超过4400篇的高水平参考文献的引用,表达谱数据分析的金标准。缺点:商业软件收费,操作繁琐,功能拓展性差。如同SPSS一样,适用于零基础。

    2. BRB-Array 优点:基于excel的分析工具,自动调用R包,功能强大,拓展性强,操作简单,免费使用。缺点:专业性强,格式要求高,稍有不符就报错。适用于有一定专业基础。

    3. R-Bioconductor 优点:R语言,生信必学的分析工具,强大的统计分析和作图工具,集合了几乎所有最新的分析算法和工具包,免费下载使用。缺点:需要有一定计算机编程能力。

    参考文章:
    基因芯片技术介绍
    芯片基础知识打卡

    3.2illumina的bead 系列表达芯片扫盲

    参考文章:
    illumina的bead 系列表达芯片扫盲
    Bioconductor官网