
RPKM是Reads Per Kilobase per Million mapped reads的缩写,代表每百万reads中来自于某基因每千碱般加居末热日基长度的reads数。RPKM是将map到基因的来自read数除以map到基因组上的所有read数(以million为单位)与RNA的长度(以KB为单位)。
- 外文名称 Reads Per Kilobase per Million mapped reads
- 缩写 RPKM
RNA-seq是二代测序技术中用来表示基因表达量或丰度的方零抗州法。在衡量基因表达量时,若是单纯以map到的read数来计算基因的表达量,在统计上是不合理的。因为在随机抽样的情况下,序宁复成值客钱列较长的基因被抽到的机率本来就会比序列短的布基因较高,如此一来,序列长的基因永远会被认为表达量较高,而错估基因真正构鲁的表现量,所以Ali Mortazavi等人在2008干鲜财年提出以RPKM在估计基因的表现量。
其公式为:

以下就用一个简化的例子来说明RPKM的运用方德达式与概念:
假设一基因体只有两个基因,一个9 KB,一个1 KB,如今有一sample,其m九杂受弱茶者ap 到9 KB 的read 有18 million 个,ma离执独环尔物场分p 到1 KB 的有2 million 个,
对于9 KB 来自的基因而言,
To360百科tal exon reads=18 million
Mapped reads=18+2=20 million
Exon length=9 KB
RPKM =18million/(20*9)=0.己限通响想于排1*10^6=10^5
对划于1 KB 的基因而言,
Total exon reads=2 million
Mapped reads=18+2=20 mi范划llion
Exon leng衡苦足都th=1 KB
RPKM =2million/(20*1)=0.1*10^6=10^5
由此我们可以知道这两个基因表现量没有差别。
假设此时我们有另一个sa只益整群胞做胞段mple(该例子中map上的reads数较少,RPKM值作为表达量的衡量指数并不可信),演配送证七化脸护急兵其表现如下图1所示:

我们可以发现此sample中9 KB基因的read数明显比上一个sample少,如果我们计算RPKM可以得到RPKM = 9/((9+1)*10^(-6)*9)=0.1*10^6=10^5,却与上一个晚整械践鱼sample相同,这可能是因为cDNA浓度较低或是其他sample备制过程的问题,造成整体read变少,但是对9 KB基因而言,其read数占所有read数的比例并没有发生改变,所以其表现量会和上一个形穿死术斯意日步sample相同。