1RNA-seq质量控制

RNA-seq 质量控制

1 建库流程

1.1 Total RNA样品检测

1.1.1 琼脂糖凝胶电泳分析RNA 降解程度以及是否有污染

一句话总结：琼脂检测主要观察28s 和18s 。判断RNA 好坏的标准是２8s ，18s 是否清晰，尤其是28S 亮度比18s 亮度大

28s ，主要是剪切前的前体RNA ，主要包括不均一核RNA （未剪切成熟的mRNA 前体）和主要是28s ，18s,5s 的前体转录子。前体存在于细胞核（然后加工剪切成28s ，18s ，5s 和成熟的小片段的mRNA 。这些成熟的RNA 进入到胞浆。有功能的mRNA 是存在于胞浆中的成熟的mRNA ，前体mRNA 是没有翻译功能的（蛋白质翻译机器，核单倍体是位于胞浆中的）。真正成熟的mRNA ，主要集中在28s 和18s 之间的荧光背景（一般每条基因mRNA 量很少，所以，整体一般看不到明显带）. 如果28s 只是比18s 稍高，或者亮度差不多，即使条带清晰，也已经提示部分降解了。大片段开始降解，从28s 降解到18s 最后降解到5s 。这样降解过程中，28s 减少，18s 增多，28s ：18s 比例就会下降。如果最容易降解的28s 都没有降解，（从比例推断），那么更难降解的mRNA ，就推理出肯定是完好的了。

泳道：

1 2 3 4 5 6 7 8 9

这张图片就是一个离心柱子提取RNA 的不同降解情况的典型例子。

泳道1,5,6,7,8,9 部分降解了，所以28s 是首先降解，28s 条带变淡，而部分降解首先是降解成较小的18s 左右的片段，所以18s 条带明显变粗，造成28s ：18s 的比例竟然小于1了。然后在不该看到条带或者应该是很弱的5s 位置，出现了较明显的5s 大小的降解带。

3,4是完全降解了，28s ，18s 已经基本降解光了。两条带都看不见了。最后降解成的小片段正好和5s 大小一致，所以在5s 位置看到了大量的一条浓浓的降解小片段，和5s 一样大小。

2就是完全正常提取的RNA ，大家可以看到28s:18s比例大约是2:1,5s位置也基本见不到带。这就说明完全正常，无降解。

(2) Nanodrop检测RNA 的纯度（OD260/280比值）一句话总结：260/280 大约在 2.0 而260/230 ration 在

2.0-2.2.

OD260代表核酸的吸光度，OD280代表蛋白质的吸光度。280、320、230、260nm 下的吸光度分别代表了核酸、背景（溶液浑浊度）、盐浓度和蛋白等有机物的值。A230 测定其它碳源物质，如酚，糖类等；A260 是核酸的吸收峰测 RNA 和 DNA ，引物等的浓度用的；A280 是蛋白质的吸收峰。

一般的，我们只看 OD260/OD280（Ratio ，R ）——1.8~2.0时，我们认为 RNA 中蛋白或者时其他有机物的污染是可以容忍的，不过要注意，当用 Tris 作为缓冲液检测吸光度时，R 值可能会大于 2（一般应

该是2.2时，说明 RNA 已经水解成单核酸了。纯RNA 的A260/A280的比值为 2.0。 OD260/OD230的比值还表明 RNA 的纯度——其值 2.4，需用乙酸盐，乙醇沉淀 RNA 。

(3) Qubit对RNA 浓度进行精确定量

一句话总结：RNA-seq 测序需要至少300 ng 总RNA

(4) Agilent 2100精确检测RNA 的完整性

一句话总结：2100 RIN值高好，样品间RIN 值相差1-1.5最好。

Agilent 2100对文库的insert size进行检测，RIN 值反应的是样品的降解。RIN=RNA integrity number，即 RNA 分子完整数，从 0-10，直接反应了 RNA 质量的好坏，此数值越大表明 RNA 质量越好越完整。

1.2 建库流程

1.2.1 ssRNA-seq 建库（针对长非编码RNA 分析）

RNA 检测合格后，通过epicentre Ribo-ZeroTM 试剂盒去除rRNA （可以拿到非polyA 的转录本）随后加入fragmentation buffer将RNA 打断成150-200bp 短片段150-200bp ，以短片段RNA 为模板，用六碱基随机引物（random hexamers）合成一链cDNA ，然后加入缓冲液、dNTPs （dUTP 、dATP 、dGTP 和dCTP ）和DNA polymerase I合成二链cDNA ，随后利用AMPure XP beads纯化双链cDNA 。纯化的双链cDNA 再进行末端修复、加A 尾并连接测序接头，然后用AMPure XP beads进行片段大小选择。之后用USER 酶降解含有U 的cDNA 第二链，最后进行PCR 富集得到链特异性cDNA 文库。

图：lncRNA 建库

1.2.2 小RNA 建库

样品检测合格后，使用 Small RNA Sample Pre Kit 构建文库，利用 Small RNA 的 3’ 及 5’ 端特殊结构（ 5’ 端有完整的磷酸基团， 3’ 端有羟基），以 total RNA 为起始样品，直接将 Small RNA 两端加上接头，然后反转录合成 cDNA 。随后经过 PCR 扩增， PAGE 胶电泳分离目标 DNA 片段，切胶回收得到的即为 cDNA 文库。

1.2.3 普通转录组建库

样品检测合格后，用带有Oligo （dT ）的磁珠富集真核生物mRNA （若为原核生物，则通过试剂盒去除rRNA 来富集mRNA ）。随后加入fragmentation buffer将mRNA 打断成短片段，以mRNA 为模板，用六碱基随机引物（random hexamers）合成一链cDNA ，然后加入缓冲液、dNTPs 和

DNA polymerase

I 合成二链cDNA ，随后利用AMPure XP beads纯化双链cDNA 。纯化的双链cDNA 再进行末端修复、加A 尾并连接测序接头，然后用AMPure XP beads进行片段大小选择，最后进行PCR 富集得到最终的cDNA 文库。构建原理图如下：

图RNA-seq 建库

1.2.4 Chip-seq建库流程

染色体免疫共沉淀（ChIP ）是一种用于研究蛋白质与 DNA 的体内相互作用的经典实验技术。采用特异性抗体将目的蛋白进行免疫沉淀，由此可以把目的蛋白所结合的基因组 DNA 片段也富集下来。方法1 ：Cross-liking Chromatin Immunoprecipitation (X-ChIP)

甲醛处理细胞，使 DNA-protein 的相互结合作用被交联固定，裂解细胞，得到全细胞裂解液。超声处理，将基因组 DNA 打断至 100-500 bp。抗体免疫沉淀：在细胞裂解液中加入一抗和 beads ，并进行孵育。采用合适的实验条件进行洗脱，并解交联。通过 qPCR 对 ChIP 结果进行验证。准备好的 ChIP 后的 DNA 样品可以用于 ChIP Sequencing 建库。

方法2：Native Chromatin Immunoprecipitation

通过非变性的方式得到核裂解液。微球菌核酸酶（Micrococcal nuclease）消化染色质，得到单核小体或核小体寡聚体。抗体免疫沉淀：在细胞裂解液中前后加入一抗和 beads ，并进行孵育。DNA 分离。通过 qPCR 对 ChIP 结果进行验证。 6. 准备好的 ChIP 后的 DNA 样品可以用于 ChIP Sequencing 建库。最后DNA 片段末端修复,3’端加 A 碱基，连接测序接头公司 Paired-End DNA Sample Prep kit）。 PCR 扩增及 DNA 产物的片段大小选择一般为 100-300 bp，包括接头序列在内合格的文库用于上机测序。

2质量控制相关的变量

2.1 reads quality issue

2.1.1 测序错误率Base Quality

Base quality indicates the confidence in the base call

q = −10*log 10 (0.01) = 20

测序错误率特征(1)测序错误率会随着测序序列(Sequenced Reads)长度的增加而升高，这是由于测序过程中化学试剂的消耗而导致的。(2)前6个碱基的位置也会发生较高的测序错误率，而这个长度也正好等于在RNA-seq 建库过程中反转录所需要的随机引物的长度。所以推测前6个碱基测序错误率较高的原因为随机引物和RNA 模版的不完全结合

图前6碱基错误率高，125bp 测序错误率高

2.1.2 CG含量正常情况下四种碱基的出现频率应该是接近的，而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias 时，即四条线在某些位置纷乱交织，往往提示我们有overrepresented sequence 的污染。当所有位置的GC 含量一致的表现出bias 时，往往代表文库有bias (建库过程或本身特点) ，或者是测序中的系统误差。前几个不稳定due to the random hexamer priming during PCR

amplification ，属于正常的现象

红线是实际情况，蓝线是理论分布（正态分布，均值不一定在50%，而是由平均GC 含量推断的）。曲线形状的偏差往往是由于文库的污染或是部分reads 构成的子集有偏差（overrepresented reads）。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差

图：重复序列检测

2.1.3 重复序列

理论上出现重复序列的概率是很低的。如果出现重复的序列，很多是人工的

artificiallyPCR 扩增。下图是横坐标是duplication 的次数，纵坐标是duplicated reads的数目，以unique reads的总数作为100%。 fastqc 中用fq 数据的前200,000条reads 统计其在全部数据中的重复情况。重复数目大于等于10的reads 被合并统计

如果某k 个bp 的短序列在reads 中大量出现，其频率高于统计期望的话，fastqc 将其记为

over-represented k-mer。出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer 被认为是over-represented 。K-mer 可以用于检测是否有接头存在。

2.1.4 比对统计：检测对reference 的比对情况

检测mapping ratio, 看比对上的总数，还可以同污染源的基因组进行比对。

2.1.5rRNA/tRNA 的污染

组成RNA 的污染，如rRNA 和tRNA, 最高时可以占整个转录组的60-90%。建库时对这类RNA 进行降解。有2种方法，一种是使用磁珠进行吸附选择有

poly-a 的转录本。第二种是对核糖体RNA 进行消化。即使这样，仍然会有大量的核糖体rRNA 污染存在。

2.1.6 Saturation Test of Sequencing Depth

测序深度不同，对低丰度的基因使用FPKM 定量也并不稳定，此外做可变剪切，lncRNA 需要更高的深度才能检测。一般认为100*-150*可以饱和。

2.1.7生物学重复

RNA-seq 通常要求至少2个生物学重复，注意区别生物学重复和技术重复，生物学重复一般建议皮尔逊相关系数0.92以上。可以通过聚类，计算相关系数,PCA 样品研究样品之间的关系。

2.1.8覆盖整齐度 Coverage Uniformity

RNA-seq 测序的结果，理论上每个位点被测序到的机会是相等的，但是由于poly-A 选择，3’端往往会具有更高的coverage. 此外大多数reads 应该位于基因注释区。

2.1.9 链特异性Strand Specificity

转录本可以从正义链和反义链进行转录，大多数基因位于正义链，但仍有部分能从反义链上转录出来，比如天然反义转录本NAT ，普通的转录组数据可以通过剪切位点GT/AG 区分方向，但是无法定量反义转录本的表达量。

2.2 FastQ的数据格式

1. 原始序列数据

高通量测序(如 Illumina HiSeqTM2000/MiseqTM)得到的原始图像数据文件经 CASAVA 碱基识别(Base Calling) 分析转化为原始测序序列（Sequenced Reads），我们称之为 Raw Data或 Raw Reads，结果以 FASTQ (简称为 fq) 文件格式存储，其中包含测序序列（reads ）的序列信息以及其对应的测序质量信息。

FASTQ 格式文件中每个 read 由四行描述，如下：

@HWI-ST1276:71:C1162ACXX:1:1101:1208:2458 1:N:0:CGATGT

NAAGAACACGTTCGGTCACCTCAGCACACTTGTGAATGTCATGGGATCCAT

#55???BBBBB?BA@DEEFFCFFHHFFCFFHHHHHHHFAE0ECFFD/AEHH

其中第一行以“@”开头，随后为 Illumina 测序标识别符(Sequence Identifiers)和描述文

字(选择性部分) ；

第二行是碱基序列；

第三行以“+”开头，随后为 Illumina 测序标识别符(选择性部分) ；

第四行是对应碱基的测序质量，该行中每个字符对应的 ASCII 值减去 33，即为对应第二行碱基的测序质量值。

Perl 代码： ord$base -33

3软件使用

3.1 常用的软件的名称

FastQC: PRINSEQ 做质量检测并可视化

Trimmomatic, Cutadapt, and FastX,Fastx-toolkits

3.2 软件的命令和参数 3.2.1 对文件进行

fastqc reads.fastq.gz 3.2.2 Fliter and Trim

java -jar trimmomatic-0.32.jar PE -phred64 reads1.fastq.gz reads2.fastq.gz paired1.fq.gz unpaired1.fq.gz paired2.fq.gz unpaired2.fq.gz AVGQUAL:20

prinseq-lite.pl -fastq reads1.fastq -fastq2 reads2.fastq -phred64 -min_qual_mean 20 -out_good qual_filtered -out_bad null –no_qual_header –log –verbose

java -jar trimmomatic-0.32.jar PE -phred64 reads1.fastq.gz reads2.fastq.gz paired1.fq.gz unpaired1.fq.gz paired2.fq.gz unpaired2.fq.gz TRAILING:20 MINLEN:50

1.2去掉含有5‘ adapter 污染的序列的command ：

/WPS/RNA/pub/software/fastx_toolkit/bin/fastx_clipper -i test.fltqual.fastq -o

test.fltqual.f5.fastq -a "GTTCAGAGTTCTACAGTCCGACGATC" -C -Q 33 -v

1.3含有3’ adapter 的序列保留，且trim 掉3‘adapter 的command ：

/WPS/RNA/pub/software/fastx_toolkit/bin/fastx_clipper -i test.fltqual.f5.fastq -o

test.fltqual.f5.t3.fastq -a "AGATCGGAAGAGCACACGTCT" -c -Q 33 -v

整理zhaot

2015-5-9

参考：http://blog.sina.com.cn/s/blog_6a15f8d90100y5aw.html

https://www.huck.psu.edu/content/instrumentation-facilities/genomics-core-facility/samples/rna-seq-samples