最近最好看的中文字幕久久,亚洲国产一区二区在线,一区中文字幕在线观看_亚洲ãv毛片一区二区久久麻豆|国产美女视频在线精品|亚洲国产成人片在线观看|无码福利免费专区|久久久国产精品麻豆_人人爱人人操人人爽_亚洲热av,国产精品人人爽

MobiVision V(D)J算法介紹

算法概覽

Barcode和UMI矯正

MobiNova平臺產(chǎn)生的VDJ文庫示意圖如下:

 

 

從上面的VDJ結構可知,其Read1的5’端均為細胞標簽序列(20bp)和UMI序列(10bp)。為了確定Read1所攜帶的細胞標簽序列是否正確,MobiVision會將測序片段中的細胞標簽序列和已知白名單中的細胞標簽序列進行比對。目前MobiCube 高通量單細胞 V(D)J v1.0試劑盒提供近3,000,000種細胞標簽序列。符合以下條件的測序片段將被保留:

  • Read1的細胞標簽存在于白名單中;
  • Read1的細胞標簽不存在于白名單中,但與白名單中的細胞標簽最小漢明距離<=2,并根據(jù)白名單中的細胞標簽,對Read1中的細胞標簽進行糾正。

通過的測序片段,Read1僅保留糾正后的細胞標簽序列和UMI序列,Read2在該步驟暫不做處理。

 

測序數(shù)據(jù)質控和去除接頭

對于糾正細胞標簽序列后的fastq數(shù)據(jù)中

  • Read1片段5‘端可能存在13bp的TSO序列,3’端可能存在polyA序列。
  • Read2片段5'端可能存在polyT序列,3’端可能存在13bp的TSO反向互補序列。
  • TSO、polyA、polyT等序列的存在,會有效降低文庫的比對率,因此在比對前,需要將插入片段兩端可能存在的TSO序列和poly A序列去除。
  • 去除接頭序列及poly A和poly T可能導致保留下來的插入DNA片段過短,而過短的DNA片段會增加錯配的概率,因此,在完成接頭序列去除后,還需要過濾除去插入DNA片段小于30bp的Read。

檢查VDJ基因鏈類型

將inner primers比對到fastq插入片段中,然后計算來自于TCR的inner primers比對reads數(shù)占所有inner primers比對reads數(shù)的比例,如果該比例大于80%,則認為該文庫是TCR類型的文庫;該比例小于20%,則認為該文庫是BCR類型的文庫,否則是ALL類型(BCR+TCR類型)的文庫。

VDJ基因序列過濾

為了保證拼接的有效性和速度,我們將所有reads比對到VDJ 的reference序列中,剔除未必對上的reads。僅對比對上的reads用于后續(xù)的拼接分析。

組裝contig

收集來自同一個Barcode的reads,組成一套fastq文件,利用De Brujin算法對短片段進行轉錄本拼接,最終獲得全長信息(contig)。contig的每個堿基都被賦予堿基質量值,UMI和reads個數(shù)也被記錄。針對所有的barcodes,執(zhí)行同樣的操作,就可以獲取每個barcode中的contig信息。

注釋V(D)J

VDJ注釋的目的是找到一個具有生物學功能,有效的蛋白受體/產(chǎn)物,需要滿足以下條件:1.結構完整,即是全長序列; 2.起始于密碼子,VJ區(qū)域沒有終止密碼子; 3. J基因的最后一個密碼子-V基因的起始密碼子/3是整數(shù); 4.序列中包含CDR3區(qū)域,并且V-J跨越的區(qū)域長度合理,避免結構異常; 5.VJ(reference的片段總長)-len(最后一個密碼子-V的第一個密碼子)在-25-25個氨基酸之間,IGH在-55-25氨基酸之間。

CDR3的確定方法:尋找CDR3左右側保守的motif序列,起始于C氨基酸,5-27個氨基酸長度,不含終止密碼子。若找到不止一個CDR3序列,得分最高的被當作是CDR3區(qū)域,如果得分一樣,則選擇較長的CDR3序列。

Barcode的判斷

Barcode的過濾要基于該Barcode中是否存在有效的contig,存在有效的contig才會認為該細胞為真的細胞而不是空胞或者雙胞。一般需滿足以下條件篩選表達V(D)J基因的細胞。只有T或B細胞才會有vdj重排,產(chǎn)生全長轉錄本,過濾的Barcode要有足夠的UMI count支持,避免背景mRNA干擾。此外,UMIs要有足夠的reads支持,避免文庫污染和Sample index跳躍。

確定克隆型

細胞Barcode分組形成不同的克隆型,即找到有相同或相似的配對受體序列,將細胞barcode分組成不同的克隆型。

克隆型的結果包含以下內容,可用于后續(xù)下游分析。

1.clonotype_id

2.clonetype id frequency 對應的細胞Barcode的數(shù)量

3.proportion 對應的細胞Barcode占比

4.CDR3_aa CDR3的氨基酸序列

5.CDR3_nt CDR3的核苷酸序列

質控報告

mobivision vdj在運行時,會對整個文庫的原始數(shù)據(jù)及分析結果進行統(tǒng)計,最終生成質控報告。該報告是對整個文庫的如實反饋,旨在幫助用戶從宏觀角度了解文庫原始數(shù)據(jù)質量及分析結果質量,并未作任何數(shù)據(jù)上的篩選或過濾。如有需要,用戶可根據(jù)質控報告結果,對文庫結果進行調整后,再開始下游分析。

香港| 四平市| 德兴市| 新乐市| 博爱县| 彭泽县| 砚山县| 县级市| 金坛市| 邳州市| 民和| 武陟县| 堆龙德庆县| 新和县| 龙口市| 泉州市| 扎赉特旗| 延川县| 任丘市| 景德镇市| 舟山市| 丘北县| 大丰市| 台江县| 亳州市| 河间市| 酒泉市| 菏泽市| 泽普县| 句容市| 芦溪县| 台前县| 玉屏| 阳曲县| 和平县| 兴隆县| 武安市| 山西省| 榆林市| 若羌县| 蓝田县|