支持中心
Tech Support
1. fastq數(shù)據(jù)不可直接合并,墨卓數(shù)據(jù)與10x數(shù)據(jù)的reads結(jié)構(gòu)并不一致,barcode白名單也不相同;
2. 細(xì)胞-基因表達(dá)矩陣(filtered-cell-gene-matrix)可進(jìn)行合并,推薦使用Seurat、liger、Harmony、Scanorama等軟件進(jìn)行去批次處理。可以被分為兩種情況:
1. 使用--intron excluede參數(shù)時(shí),一條read只有比對到一個(gè)基因的外顯子區(qū)域(read有超過50%的長度比對到了外顯子區(qū)域),才會進(jìn)入計(jì)數(shù),如果比對到內(nèi)含子區(qū)域或基因間區(qū),則不進(jìn)入計(jì)數(shù);
2. 使用--intron included參數(shù)(此為默認(rèn)參數(shù))時(shí),一條read只有比對到一個(gè)基因的外顯子或內(nèi)含子區(qū)域(read有超過50%的長度比對到內(nèi)含子和/或外顯子區(qū)域),才會進(jìn)入計(jì)數(shù),如果比對到基因間區(qū),則不進(jìn)入計(jì)數(shù)。針對不同的服務(wù)器配置及參數(shù)設(shè)置,100G數(shù)據(jù)運(yùn)行時(shí)長并不完全相同。以Hygon C86 7285H 32-core Processor (2.5GHz)處理器為例:
1. 針對10G測序量的樣本,增加線程數(shù)并不能顯著降低分析時(shí)間,但會大大增加內(nèi)存的使用量,因此10GB左右的文庫推薦2-8線程;
2. 針對100G測序量的樣本,當(dāng)線程在24以下時(shí),并不會顯著增加內(nèi)存的使用量,但可以顯著減少分析時(shí)間;當(dāng)線程設(shè)置在24以上時(shí),內(nèi)存使用量開始明顯增加,因此100GB左右的文庫推薦16-24線程;
3. 運(yùn)行的時(shí)間和內(nèi)存消耗與文庫本身大小及設(shè)置的線程數(shù)有關(guān),當(dāng)文庫大小達(dá)300GB時(shí),我們建議分析時(shí)的內(nèi)存不少于64GB。
1. 過去試劑版本的墨卓單細(xì)胞3'轉(zhuǎn)錄組試劑盒制備的文庫,都可以使用MobiVision-v3.2進(jìn)行分析。
2. MobiVision-v3.2與過去版本的MobiVision的分析結(jié)果并不完全一致。MobiVision v3.2版本在v3.0版本的基礎(chǔ)上,優(yōu)化了接頭過濾策略,從而提升比對率,分析結(jié)果會更好。1. 新增命令integrate,擴(kuò)展了命令集。
2. 加入了新的cutadapt序列剪切步驟,并改進(jìn)了過濾方法以確保更干凈的polyA切除。
3. 結(jié)果文件中的bam文件內(nèi)容調(diào)整,增加unmapped reads信息和新的tag,改進(jìn)了mapping info及seq saturation計(jì)算。
4. 更新了h5ad文件,改為包含完整矩陣信息。
5. 增加了cell_metrics文件及total genes detected信息,并寫出于summary.csv文件中。
6. 改進(jìn)了HTML報(bào)告的物種信息讀取及mapping information參數(shù)調(diào)整,使其更接近c(diǎn)ellranger的設(shè)置。
7. 比對率更高,分析結(jié)果更好。測序飽和度反映了全部測序片段整體的復(fù)雜性和測序深度,可通過計(jì)算含有有效條形碼和UMI、且能對比至基因組唯一區(qū)域的測序片段的冗余度來獲得。Sequencing Saturation = 1 - non-duplicated_unique_mapped_reads / total_unique_mapped_reads。對于通過mobivision quantify獲得的bam文件而言, MAPQ=255代表能比對至基因組唯一比區(qū)域的測序片段。所以,total_unique_mapped_reads可通過計(jì)算MAPQ=255的測序片段中,UMI和Barcode通過糾正的測序片段數(shù)獲得; non-duplicated_unique_mapped_reads可通過計(jì)算MAPQ=255的測序片段中,UMI和Barcode不重復(fù)的測序片段數(shù)獲得; 代碼如下:
samtools view -q 255 Aligned.bam | gawk '{if (NF==16) {total_reads+=1; !umi[$19,$20]++}} END {printf("%%s,%%s\\n", total_reads, length(umi))}'mobivision mkindex命令可用于構(gòu)建reference參考基因組,且指定不同的-m參數(shù),使用不同來源的參考基因組,均會導(dǎo)致構(gòu)建的reference參考基因組大小并不一致,-m指定值越大,構(gòu)建的參考基因組也越大,且分析速度也會更快。-m默認(rèn)值為16,若使用默認(rèn)參數(shù)構(gòu)建人的reference,其參考基因組文件夾大小約為19G,構(gòu)建reference代碼如下:
mobivision mkindex -n GRCh38\mobivision quantify目前提供兩種細(xì)胞過濾的算法,分別是CR2.2和EmptyDrops (Lun等人于2019年發(fā)表在Genome biology中的算法)。如果用戶需要指定細(xì)胞數(shù)目,也可通過--cellnumber INT 來選擇含有UMI數(shù)目排列前INT個(gè)的細(xì)胞標(biāo)簽作為有效細(xì)胞。
CR2.2算法(見上圖左Panel):首先將barcode按UMI數(shù)從大到小排序,設(shè)N為期望細(xì)胞數(shù),該值默認(rèn)為3000, m 為期望細(xì)胞數(shù)的99分位barcode所對應(yīng)的 UMI 數(shù)。所有 UMI 值超過 m/10 的barcode都被稱識別為細(xì)胞。(例如,當(dāng)N=3000時(shí),99分位的barcode為第30個(gè)barcode,其UMI值記為m,當(dāng)m=20000時(shí),m/10=2000,那么所有UMI值超過2000的barcode會被識別為細(xì)胞,圖示細(xì)胞數(shù)為9000)。
EmptyDrops算法(見上圖右Panel): 參考Lun等人于2019年發(fā)表在Genome biology中的算法(EmptyDrops: distinguishing cells from empty droplets in droplet-based single-cell RNA sequencing data)。該算法是在 CR 2.2 的基礎(chǔ)上進(jìn)一步識別低RNA含量的細(xì)胞,步驟如下:
1. 初步細(xì)胞鑒定:與 CR 2.2 一致,使用基于每個(gè)barcode的總UMI數(shù)量的閾值來確定高RNA含量的細(xì)胞。
- 根據(jù)墨卓單細(xì)胞3'/5RNA的細(xì)胞捕獲率,預(yù)估細(xì)胞數(shù)量N
- 根據(jù)每個(gè)barcode的UMI數(shù)量降序排列,計(jì)算前N個(gè)barcode的UI數(shù)量的99分位數(shù),記為m。
- 如果barcode的UMI總數(shù)超過m的10%,則該barcode被視為含有細(xì)胞。
2. 細(xì)胞鑒定的細(xì)化:
- 選擇具有低UMI計(jì)數(shù)的barcode,即第一步未被鑒定為細(xì)胞的barcodes。
- 針對這些barcodes的RNA圖譜,基于采用基于基因的多項(xiàng)式分布,創(chuàng)建背景模型,并通過Simple Good-Turing平滑技術(shù)為未觀察到的基因提供非零的模型估計(jì)。
- 將每個(gè)未在第一步鑒定中被識別為細(xì)胞的barcode的RNA圖譜與背景模型進(jìn)行比較,那些與背景模型明顯不符的barcode被識別為細(xì)胞。
V(D)J分析的主要目的是從原始測序數(shù)據(jù)中提取B細(xì)胞或T細(xì)胞的V(D)J基因序列與克隆型。這個(gè)過程通常可以適應(yīng)不同的測序平臺和數(shù)據(jù)格式。因此,V(D)J分析流程支持多個(gè)測序平臺的FASTQ文件。
例如,在數(shù)據(jù)分析層面,V(D)J分析軟件IgBlast可以處理來自多個(gè)測序平臺的FASTQ文件,包括Illumina、華大和Ion Torrent。當(dāng)然,MobiVision分析軟件也可以處理來自不同測序平臺的FASTQ文件。然而,由于每種測序平臺的讀長和質(zhì)量特征都不同,因此在進(jìn)行V(D)J分析時(shí)可能需要考慮這些因素的影響。V(D)J分析流程通??梢灾С謫味说膔eads,包括只有一端reads包含有V(D)J基因信息的情況。不過,這取決于所使用的V(D)J分析軟件和具體的實(shí)驗(yàn)設(shè)計(jì)。
對于單端的reads,V(D)J分析軟件通常會對reads進(jìn)行一些額外的預(yù)處理和過濾,以提高V(D)J重排和克隆型識別的準(zhǔn)確性。MobiVision可以處理單端或雙端的FASTQ文件,指定V(D)J基因在reads的哪個(gè)位置上,并且可以識別測序的reads來自哪些Barcodes,并確定V(D)J基因的重鏈與輕鏈,從而進(jìn)行有效的V(D)J分析。
需要注意的是,對于只包含V(D)J基因信息的單端reads,由于缺少一些其他的序列信息如UMI,可能會影響單細(xì)胞V(D)J分析的準(zhǔn)確性和可靠性。因此,在進(jìn)行實(shí)驗(yàn)設(shè)計(jì)時(shí),應(yīng)該盡量選擇適當(dāng)?shù)臏y序方案,以保證能夠獲取充分的序列信息來支持VDJ分析。對于特別不常見的物種,構(gòu)建一個(gè)參考基因組序列文件可能是一個(gè)具有挑戰(zhàn)性的任務(wù),因?yàn)槿狈捎玫膮⒖蓟蚪M或基因組注釋數(shù)據(jù)。以下是一些可能有用的方法:
在進(jìn)行原始FASTQ文件的分析之前,通常需要對文件進(jìn)行命名。雖然不同的實(shí)驗(yàn)室和分析流程可能有不同的命名規(guī)則,但通常應(yīng)該滿足以下一些基本要求:
單細(xì)胞VDJ測序數(shù)據(jù)量的合適大小取決于多種因素,包括樣本復(fù)雜度、測序深度、實(shí)驗(yàn)設(shè)計(jì)等。
一般來說,單細(xì)胞V(D)J測序的目的是獲得盡可能完整的克隆型信息,因此需要足夠的測序深度來支持高質(zhì)量的重排和克隆型識別。根據(jù)經(jīng)驗(yàn),每個(gè)單細(xì)胞至少需要測序到4000條reads,以保證高質(zhì)量的VDJ分析結(jié)果。
需要注意的是,對于不同的實(shí)驗(yàn)設(shè)計(jì)和研究問題,需要根據(jù)實(shí)際情況來選擇合適的測序數(shù)據(jù)量。對于一些研究問題,可能需要更深的測序深度,而對于一些其他問題,可能只需要較少的測序數(shù)據(jù)量。因此,在進(jìn)行實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)分析時(shí),應(yīng)該綜合考慮多種因素,并根據(jù)實(shí)際需要來選擇合適的測序數(shù)據(jù)量。Fraction Reads in Cells是單細(xì)胞測序數(shù)據(jù)分析中的一個(gè)關(guān)鍵指標(biāo),用于評估測序數(shù)據(jù)的質(zhì)量和單細(xì)胞捕獲的效率。它表示在所有測序數(shù)據(jù)中,能夠被分配到單個(gè)細(xì)胞的reads所占的比例。通常來說,F(xiàn)raction Reads in Cells越高,代表單細(xì)胞測序的效果越好,樣本中的單個(gè)細(xì)胞被捕獲的概率越高。
當(dāng)Fraction Reads in Cells比例比較低時(shí),可能意味著以下一些情況:
值得注意的是,F(xiàn)raction Reads in Cells的理想值是依賴于實(shí)驗(yàn)設(shè)計(jì)和測序技術(shù)等因素,并不存在一個(gè)固定的閾值。在進(jìn)行單細(xì)胞測序數(shù)據(jù)分析時(shí),需要結(jié)合其他指標(biāo)和分析結(jié)果來綜合評估數(shù)據(jù)質(zhì)量和單細(xì)胞捕獲效率。
Paired Clonotype Diversity是單細(xì)胞VDJ測序數(shù)據(jù)中用來評估克隆型多樣性的一個(gè)指標(biāo)。它基于同一細(xì)胞中的配對的重鏈和輕鏈VDJ重排信息,計(jì)算出同一細(xì)胞中的克隆型數(shù)量,并對不同細(xì)胞的克隆型進(jìn)行聚類,得到每個(gè)聚類中包含的不同克隆型數(shù)量。Paired Clonotype Diversity指標(biāo)即為不同聚類中克隆型數(shù)量的平均值,通常用來描述單個(gè)細(xì)胞內(nèi)的克隆型多樣性。
Paired Clonotype Diversity計(jì)算的具體過程如下:
MobiVisoion vdj的命名無需固定一種方式命名。從上述的命名規(guī)則中,我們可以看到其ReadType有四種命名形式,Suffix也有4種命名形式,目前MobiVision可以支持16種命名形式。用戶在二代測序結(jié)束下機(jī)后獲取的的fastq文件,只要命名合理,一定程度可以直接進(jìn)行MobiVision vdj分析,無需對樣本名改名。