支持中心
Tech Support
mobivision quantify
默認(rèn)輸出結(jié)果文件如下,總計(jì)16個(gè)文件,其中SAMPLEID_outs文件為軟件自動(dòng)生成,無(wú)需用戶(hù)指定:
_flagdone 是任務(wù)運(yùn)行成功的flag文件,會(huì)在mobivision quantify
任務(wù)完成后自動(dòng)輸出;
_log 是任務(wù)運(yùn)行過(guò)程中生成的日志文件;
run_analysis_cmds.txt 記錄了mobivision quantify
的完整命令行信息;
SAMPLEID_Aligned.sort.bam 記錄了reads的比對(duì)情況,并根據(jù)坐標(biāo)信息排序后輸出為bam比對(duì)文件;
SAMPLEID_Aligned.sort.bam.bai 是SAMPLEID_Aligned.sort.bam比對(duì)文件的index文件;
raw_cell_gene_matrix 是未作過(guò)濾的原始的matrix的根目錄,其包含features.tsv.gz、barcodes.tsv.gz、matrix.mtx.gz 三個(gè)子文件,通過(guò)統(tǒng)計(jì)bam比對(duì)文件中的比對(duì)情況獲得;
filtered_cell_gene_matrix 是經(jīng)過(guò)細(xì)胞篩選后的matrix的根目錄,其包含features.tsv.gz、barcodes.tsv.gz、matrix.mtx.gz三個(gè)子文件;
SAMPLEID_filtered.h5ad 是轉(zhuǎn)換為h5ad形式的filtered_cell_gene_matrix,可通過(guò)第三方軟件讀取,從而對(duì)細(xì)胞基因表達(dá)矩陣作深入分析;
SAMPLEID_Report.json 是json形式的質(zhì)控報(bào)告,可通過(guò)第三方軟件讀取并提取有效信息;
SAMPLEID_Report.html 是html形式的質(zhì)控報(bào)告,將數(shù)據(jù)進(jìn)行可視化處理,便于用戶(hù)直觀(guān)判斷文庫(kù)質(zhì)量;
SAMPLEID_summary.csv 含有文庫(kù)信息內(nèi)容;result_mito_percentage.csv 是線(xiàn)粒體百分比信息文件,將細(xì)胞線(xiàn)粒體分布情況進(jìn)行統(tǒng)計(jì)。
mobivision quantify
會(huì)在分析完成后,輸出bam比對(duì)文件。該bam文件記錄了文庫(kù)的詳細(xì)比對(duì)信息,用戶(hù)可以根據(jù)需求對(duì)分析結(jié)果進(jìn)行溯源糾錯(cuò),或進(jìn)行下游分析,例如velocity等。
GX 表示唯一比對(duì)的read所比對(duì)到的基因ID;
GN 表示唯一比對(duì)的Read所比對(duì)到的基因名;
CB 表示糾錯(cuò)后的細(xì)胞標(biāo)簽;
UB 表示糾錯(cuò)后的UMI分子;
NH 表示同一read比對(duì)到基因組不同位置的數(shù)目,=1表示該read可以比對(duì)到基因組唯一區(qū)域,>1表示該read比對(duì)到基因組不同點(diǎn)的數(shù)目。 NH是SAM文件的標(biāo)準(zhǔn)tag。
比對(duì)質(zhì)量MAPQ是bam文件中的第五列信息,對(duì)于可以比對(duì)到基因組唯一區(qū)域的read而言,MAPQ=255,即MAPQ=255代表read可以比對(duì)至基因組唯一區(qū)域。當(dāng)Read比對(duì)到基因組的區(qū)域>1時(shí),MAPQ = -10*log10(1-1/Nmap)。
mobivision quantify
最后輸出的matrix文件有兩組,分別為raw_cell_gene_matrix和filtered_cell_gene_matrix 。兩組文件均包含features.tsv.gz、barcodes.tsv.gz、matrix.mtx.gz三個(gè)子文件,具體文件內(nèi)容如下:
barcodes.tsv.gz
$ cat barcodes.tsv.gz AACAACACGAAAGTGGCTTA AACAACACGAAGATTGTAAC AACAACACGAATTACCAGAA AACAACACGACGCTGAATGA AACAACACGACGGACCAACA AACAACACGACTACGTGAGG AACAACACGAGGCCACACGC AACAACACGAGGTTAGTACT AACAAGTGATCAGCGATGTC AACAAGTGATCGGTGTGAGT
barcodes.tsv.gz文件中的每一行均代表一個(gè)細(xì)胞標(biāo)簽序列。
features.tsv.gz
$ cat features.tsv.gz ENSMUSG00000102693.24933401J01Rik Gene Expression ENSMUSG00000064842.3Gm26206 Gene Expression ENSMUSG00000051951.6Xkr4Gene Expression ENSMUSG00000102851.2Gm18956 Gene Expression ENSMUSG00000103377.2Gm37180 Gene Expression ENSMUSG00000104017.2Gm37363 Gene Expression ENSMUSG00000103025.2Gm37686 Gene Expression ENSMUSG00000089699.2Gm1992Gene Expression ENSMUSG00000103201.2Gm37329 Gene Expression ENSMUSG00000103147.2Gm7341Gene Expression
features.tsv.gz文件從左至右的第一列表示基因ID,第二列為基因名,第三列是固定字符串“Gene Expression”。
matrix.mtx.gz
$ cat matrix.mtx.gz %%MatrixMarket matrix coordinate integer general % 55416 6167 20865276 54 1 4 68 1 2 114 1 2 122 1 3 123 1 2 125 1 1 137 1 8
matrix.mtx.gz文件為稀疏矩陣文件。該文件從第四行開(kāi)始,從左至右,依次為基因ID序號(hào)、細(xì)胞標(biāo)簽序號(hào)、對(duì)應(yīng)細(xì)胞對(duì)應(yīng)基因所捕獲到的轉(zhuǎn)錄本數(shù)目。第三行從左至右依次為該文庫(kù)的基因數(shù)目、細(xì)胞總數(shù)、該文庫(kù)所捕獲到的轉(zhuǎn)錄本總數(shù)。該文庫(kù)的基因數(shù)目應(yīng)與features.tsv.gz文件中的基因數(shù)目一致,該文庫(kù)的細(xì)胞數(shù)目應(yīng)與barcodes.tsv.gz文件中的細(xì)胞數(shù)目一致。
mobivision quantify
分析完成后,會(huì)生成一html質(zhì)控報(bào)告,分為單雙物種兩種形式,兩種形式可分為overview、 Sample、 Cells、 Sequencing & Mapping、 Data Distribution、 UMAP Projection六部分,具體報(bào)告內(nèi)容如下:
Sample欄包含信息如下:
在單物種報(bào)告中,Cells欄左圖為Barcode Rank Plot,右側(cè)為細(xì)胞相關(guān)指標(biāo),內(nèi)容與overview欄目一致。該報(bào)告通過(guò)統(tǒng)計(jì)每個(gè)細(xì)胞標(biāo)簽對(duì)應(yīng)的UMI數(shù)目,并將細(xì)胞標(biāo)簽按照UMI數(shù)目由高到低排序,獲得細(xì)胞標(biāo)簽序號(hào)。例如UMI數(shù)目最多的細(xì)胞標(biāo)簽,序號(hào)為1,以此類(lèi)推。以細(xì)胞標(biāo)簽序號(hào)作為x軸橫坐標(biāo),用對(duì)應(yīng)細(xì)胞標(biāo)簽的UMI數(shù)作為y軸縱坐標(biāo),作圖,得到Barcode Rank Plot。用戶(hù)也可通過(guò)點(diǎn)擊對(duì)應(yīng)欄目的右上角問(wèn)號(hào),獲得更為詳細(xì)的help信息(其他欄目也相同),如下:
Sequencing & Saturation欄左側(cè)為Sequencing Saturation Plot,右側(cè)為文庫(kù)測(cè)序信息及比對(duì)信息。用戶(hù)可通過(guò)Sequencing Saturation Plot判斷該文庫(kù)是否還有加測(cè)的必要。若當(dāng)測(cè)序飽和曲線(xiàn)達(dá)到平臺(tái)期或接近灰色短虛線(xiàn),則暗示難以通過(guò)文庫(kù)加測(cè)來(lái)捕獲更多的基因或UMI分子。
Data Distribution以小提琴圖的形式展示了三塊數(shù)據(jù)的分布情況,分別為細(xì)胞線(xiàn)粒體含量、細(xì)胞UMI數(shù)、細(xì)胞基因數(shù)。以細(xì)胞線(xiàn)粒體含量分布情況為例,我們觀(guān)察到小提琴圖中短虛線(xiàn)的位置位于3%左右,即表示該文庫(kù)細(xì)胞線(xiàn)粒體的含量中值在3%。同樣的,根據(jù)小提琴圖的分布,我們也可以判斷該文庫(kù)中,絕大多數(shù)的細(xì)胞線(xiàn)粒體含量不超過(guò)5%。
UMAP Projection含有兩張可視化圖片,每個(gè)點(diǎn)代表一個(gè)細(xì)胞。左圖為通過(guò)UMAP降維后,利用細(xì)胞對(duì)應(yīng)的UMI數(shù)進(jìn)行染色,由此可判斷每個(gè)細(xì)胞RNA含量的分布;右圖為通過(guò)UMAP降維后,用Leiden算法進(jìn)行聚類(lèi)分析,并用聚類(lèi)的結(jié)果進(jìn)行染色。
雙物種報(bào)告與單物種報(bào)告在內(nèi)容上存在略微差異。雙物種報(bào)告首行的4個(gè)指標(biāo)如上圖,同樣可根據(jù)這4個(gè)指標(biāo)判斷文庫(kù)的復(fù)雜程度和測(cè)序程度,從而判斷文庫(kù)質(zhì)量是否符合用戶(hù)預(yù)期。
同單物種報(bào)告。
雙物種報(bào)告中,Cells欄在原來(lái)單物種的基礎(chǔ)上,分別計(jì)算了來(lái)自不同物種的細(xì)胞數(shù)、基因中位數(shù)和UMI中位數(shù)。其中,Estimated Number of Cells = Estimated Number of Cells (GRCh38) + Estimated Number of Cells (GRCm39) + Number of Barcodes with >1 Cell。 Median Genes per Cell (GRCh38)統(tǒng)計(jì)了所有GRCh38來(lái)源的細(xì)胞, Median Genes per Cell (GRCm39)統(tǒng)計(jì)了算有來(lái)源于GRCm39的細(xì)胞。Median UMI Counts統(tǒng)計(jì)方式同Median Genes統(tǒng)計(jì)方式。
Sequencing & Mapping欄在原來(lái)單物種的基礎(chǔ)上,統(tǒng)計(jì)了比對(duì)至不同基因組的情況。如上,我們可以發(fā)現(xiàn)有95.88%的reads比對(duì)到了基因組上,其中,53.38%的reads比對(duì)到GRCh38基因組,42.5%比對(duì)到了GRCm39基因組(95.88% = 53.38% + 42.5%)。其他比對(duì)結(jié)果同理,在原來(lái)統(tǒng)計(jì)結(jié)果的基礎(chǔ)上,分別統(tǒng)計(jì)了來(lái)自不同基因組的比例。
Data Distribution欄分別統(tǒng)計(jì)了來(lái)自不同物種(不包含multiplet)的細(xì)胞線(xiàn)粒體含量、細(xì)胞UMI含量及細(xì)胞基因含量。 Cell UMI Counts圖反映了不同細(xì)胞中不同物種來(lái)源的UMI的分布。只有細(xì)胞標(biāo)簽中有超過(guò)90%的UMI來(lái)源于同一物種時(shí),該報(bào)告才會(huì)認(rèn)為該barcode是來(lái)源于該物種的細(xì)胞。若細(xì)胞標(biāo)簽中有20%的UMI比對(duì)到了物種A,80%的UMI比對(duì)到了物種B,則判定該細(xì)胞既不屬于物種A,也不屬于物種B,需歸為Multiplet,即上圖中的灰點(diǎn)。一般而言,我們認(rèn)為Multiplet占比越低,該文庫(kù)存在雙胞或多胞的情況越少。
同單物種報(bào)告。