有效
一种用于鉴定核酸样本中CNV的方法和装置
夏滢颖、邹央云、任军
上海亿康医学检验所有限公司
夏
夏滢颖机构 暂无
技术领域 暂无
邹
邹央云机构 暂无
技术领域 暂无
任
任军机构 暂无
技术领域 暂无
摘要
本发明涉及基因数据分析技术领域,特别是涉及基于SNP数据,用于鉴定核酸样本中拷贝数变异(CNV)的方法和装置。
1.一种BAF异常区域分析方法,其包括:(i)将提取自核酸样本基因组上待分析区域的SNP位点BAF值,基于其对应SNP位点在基因组上的位置进行顺序排列,形成以位置为基础的BAF特征序列数据;(ii)对BAF特征序列数据,进行窗口区域分割,生成用于初始聚类分析的多数个bin;(iii)应用动态阈值密度聚类分析,确定BAF异常区域,其中,所述动态阈值密度聚类包括:按照待聚类分析的窗口区域中的SNP位点分布特征,动态设置用于密度聚类分析的ε-邻域值eps和ε-邻域内样本个数最小值MinPts;将聚类分析确定为具有相似变异模式的相邻窗口区域合并,对合并产生的窗口区域迭代进行动态阈值密度聚类,其中,步骤(ii)和(iii)包括bin-seed-block-flanking延伸,其中所述延伸包括:(a)对BAF特征序列数据进行窗口区域分割,以生成多数个bin,对每个bin进行初始动态阈值密度聚类;(b)将连续的分类为相同类型的bin合并成seed,对生成的seed进行第二轮动态阈值聚类;(c)将分类为相同类型的seed合并成block,对生成的block进行第三轮动态阈值聚类;以及(d)对分类为异常的block的flanking区域,进行第四轮动态阈值聚类,将与block分类为相同类型的flanking区域合并到异常区域中,以确定BAF异常区域边界。
2.根据权利要求1的方法,其中,基于待聚类分析的窗口区域中包含的SNP位点数,采用如下的聚类阈值设定:其中,n为区域所包含的SNP位点数。
3.根据权利要求1的方法,其中,步骤(ii)中,所述分割产生包含50-100个SNP位点的bin。
4.根据权利要求3的方法,其中,步骤(ii)中,所述分割产生包含50、60、70、80、90、或100个SNP位点的bin。
5.根据权利要求1的方法,其中,步骤(iii)中,在对合并窗口区域进行的后续迭代动态阈值密度聚类中,在聚类分析后,所述相邻窗口区域的合并,在容错条件下进行。
6.根据权利要求5的方法,其中,基于相邻窗口区域之间的物理距离、相邻窗口区域之间包含的bin数、以及相邻窗口区域的类型和其间间插存在的bin类型,设定所述容错条件。
7.根据权利要求1的方法,其中,基于在核酸样本的常染色体上提取的样本BAF校正值,进行所分析窗口区域的BAF值校正,由此获得的校正后BAF值用于步骤(iii)。
8.根据权利要求7的方法,其中,所述BAF校正包括:-提取常染色体上聚类产生的cluster数为3且BAF分布在0、0.5、1附近的所有bin,-计算所有这些bin中BAF分布在0.5附近的cluster的BAF特征值中位数,即BAF normalHet ,以此算出样本BAF的校正值,即,D Het =BAF normalHet -0.5,和-计算所分析窗口区域的杂合cluster的校正后BAF值,即,校正后BAF值=校正前BAF值-D Het 。
9.根据权利要求8的方法,其中,所述常染色体是核酸样本的所有常染色体、部分常染色体、或分析区域所在的常染色体。
10.根据权利要求1的方法,其中,所述待聚类分析的窗口区域基于聚类形成的cluster分布模式,进行分类。
11.根据权利要求10的方法,其中,所述待聚类分析的窗口区域基于聚类形成的cluster分布模式,进行分类,且其中, 若在所分析窗口区域内BAF特征值共聚类形成BAF分布在0、0.5、1附近的3个cluster,则根据0.5附近的cluster的分布宽度,计算所分析窗口区域的嵌合比例,并基于该比例判断所分析窗口区域是正常区域或是候选嵌合异常区域MOS; 若在所分析窗口区域内BAF特征值共聚类形成2个cluster,且在0、1附近分布,则将该分析窗口区域判为LOH; 若在所分析窗口区域内BAF特征值聚类形成的cluster数大于3,且在0.5两侧对称分布,则该分析窗口区域判为DUP。
12.根据权利要求11的方法,其中,基于Z值的嵌合比例公式,计算所述嵌合比例。
13.根据权利要求12的方法,其中,基于Z值的嵌合比例公式,计算所述嵌合比例,且当计算的嵌合比例≤10%时,将该所分析窗口区域判为正常,否则将该分析窗口区域判为候选嵌合异常区域MOS。
14.根据权利要求1方法,其中,对迭代动态密度阈值聚类产生的合并异常区域,进行侧翼区域检测,进行异常区域的边界延伸。
15.根据权利要求14的方法,其中,所述合并异常区域是block区域,其中,对所述block区域进行侧翼区域检测,进行异常区域的边界延伸。
16.根据权利要求14的方法,其中,设定步长,通过动态密度聚类,检验每个异常区域的侧翼区域,其中:步长p=0.0371s+216790其中,s为所述异常区域的物理大小,且其中,若所述步长的侧翼区域与所述异常区域被分类为相同类型,则将所述侧翼并入所述异常区域,以延伸所述异常区域的边界。
17.一种用于核酸样本的CNV检测的方法,包括如下步骤:(i)提取核酸样本基因组上待分析区域的SNP位点的BAF和LRR值,形成BAF特征序列数据和LRR特征序列数据;(ii)根据权利要求1-16任一项的BAF异常区域分析方法,对BAF特征序列数据进行分析,确定BAF异常区域;(iii)对LRR特征序列数据进行分析,确定LRR异常区域;(iv)通过整合步骤(ii)的BAF异常区域检出结果和步骤(iii)的LRR异常区域检出结果,确定CNV的边界和类型,以及任选地嵌合CNV的嵌合比例;(v)任选地,将CNV位置、类型及嵌合比例检测结果输出。
18.根据权利要求17的方法,其中,在步骤(ii)前,根据权利要求1-16任一项的BAF异常区域分析方法,对至少一条常染色体,进行染色体水平检测,判断样本污染。
19.根据权利要求18的方法,其中,所述样本污染的判断包括如下步骤:-若所测染色体在整条染色体上显示:聚类形成的cluster数>3、在0.5两侧对称分布、且有一个cluster分布在0.5±0.1,则判断该样本存在污染;以及-任选地,参比在不同污染比例下BAF特征值cluster的分布理论值,确定样本污染比例。
20.根据权利要求18的方法,其中,在核酸样本为来自人类细胞、组织或个体时,所述染色体水平检测包括检测8、9、10、12和17号染色体。
21.根据权利要求17的方法,其中,对LRR特征序列数据,采用CBS算法,检出LRR异常区域。
22.根据权利要求21的方法,其中LRR异常区域检出包括:1)采用CBS算法,对提取的LRR特征序列数据进行分段,得到segments;2)基于预设的LRR分类参考阈值,将segments分类为缺失DEL或重复DUP,以及3)根据分类为相同类型的相邻segments之间间隔的物理距离和SNP位点数,进行segments合并。
23.根据权利要求22的方法,其中,应用正常样本构建的参考系,确立所述LRR分类参考阈值。
24.根据权利要求22的方法,其中,用正常样本构建参考系,确定LRR分布的平均数mean和标准差SD,其中,参考系LRR分布的mean-2SD作为染色体缺失的检测阈值,参考系LRR分布的mean+2SD作为染色体重复的检测阈值,参考系LRR分布的mean-1SD作为染色体嵌合缺失的检测阈值,参考系LRR分布的mean+1SD作为染色体嵌合重复的检测阈值。
25.根据权利要求17的方法,其中,在步骤(iv)中,整合BAF和LRR异常区域,确定核酸样本在所分析区域的CNV边界,其中,当BAF异常区域与LRR异常区域不重叠,则将其作为不同的CNV分别报出;当BAF异常区域和LRR异常区域重叠时,提取全基因组上在-2~2之间的LRR值计算LRR_SD,若LRR_SD<0.19,则以LRR异常区域作为最终结果的边界值;若LRR_SD≥0.19,则以BAF异常区域作为最终结果的边界值。
26.根据权利要求17的方法,其中,按照如下规则确定CNV的类型: 当BAF属于LOH且LRR低于染色体缺失的阈值时,则判为DEL; 当BAF属于LOH且LRR超过染色体嵌合缺失的阈值时,则判为UPD; 当BAF属于DUP且LRR超过染色体重复的阈值时,则判为DUP; 当BAF属于DUP且LRR超过染色体嵌合重复的阈值时,则判为MOS_DUP; 当BAF属于DUP且LRR低于染色体嵌合缺失的阈值时,则判为MOS_DEL; 当BAF属于DUP且LRR在染色体嵌合缺失的阈值至染色体嵌合重复的阈值之间时,则判为MOS_UNCERTAIN。
27.根据权利要求17的方法,其中,对于步骤(iv)确定的嵌合异常区域MOS,根据该区域中BAF特征值聚类得到的BAF cluster分布模式,计算该异常区域的嵌合比例,并根据计算的嵌合比例,校正该嵌合异常区域的拷贝数报出。
28.一种用于确定核酸样本中目标区域的嵌合比例的方法,其包括:-根据权利要求1-16任一项的方法,应用动态阈值密度聚类,确定所述目标区域的BAFcluster分布模式,-参比在不同嵌合比例下BAF特征值cluster的分布理论值,确定所述目标区域的嵌合比例,且任选地,-对于小于30%的低比例嵌合,采用所述目标区域在0.5附近的cluster的分布宽度的Z值,根据Z值-嵌合比例标准曲线,计算嵌合比例,其中其中,目标区域:待分析的目标染色体区域;正常bin:聚类形成分别分布在0,0.5和1附近的3个BAF cluster的bin,杂合cluster:在0.5附近的cluster。
29.根据权利要求28的方法,其中,所述目标区域为根据权利要求1的方法确定的BAF异常区域。
30.权利要求28的方法,其中,构建参考系,拟合Z值-嵌合比例标准曲线,确定嵌合比例计算公式,嵌合比例 其中,b为标准曲线的横截距,k为标准曲线的斜率。
31.一种用于确定核酸样本污染的方法,其中,-根据权利要求1-16任一项的方法,应用动态阈值密度聚类,确定至少一条常染色体在染色体水平的BAF cluster分布模式,-若所测染色体在整条染色体上显示:聚类形成的cluster数>3、在0.5两侧对称分布、且有一个cluster分布在0.5附近,则判断该样本存在污染。
32.根据权利要求31的方法,其中,所述污染为同源DNA或亲源DNA污染。
33.根据权利要求31的方法,其中,核酸样本为来自胚胎或胎儿组织的样本,所述污染为母源污染。
34.根据权利要求31的方法,其中,参比在不同污染比例下BAF特征值cluster的分布理论值,确定样本污染比例。
35.根据权利要求1-16任一项的方法,其中,密度聚类采用DBSCAN算法进行。
36.根据权利要求1-16任一项的方法,其中,使用SNP芯片,提取核酸样本在待分析区域的SNP位点BAF值和/或LRR值。
37.根据权利要求36的方法,其中,所述SNP芯片是Infinium Asian Screening Array芯片。
38.根据权利要求1、17、28或31的方法,其中,核酸样本选自:流产物,绒毛膜、脐带血、外周血和肿瘤组织样本。
39.根据权利要求38的方法,其中,核酸样本选自流产物和外周血样本。
40.一种装置,其特征在于,其包括:-任选地,能够执行受试核酸样本的SNP位点BAF值和LRR值检测的模块和/或部件;-能够基于自样本提取的SNP位点BAF值和LRR值信息,执行根据权利要求1-39任一项的方法,以鉴定受试核酸样本的BAF异常区域、CNV和/或其嵌合比例、和/或样本污染和/或污染比例的模块和/部件。
41.权利要求40的装置的用途,-用于鉴定受试样本的BAF异常区域、CNV和/或其嵌合比例、和/或样本污染和/或污染比例的用途、或-在制备用于鉴定受试样本的BAF异常区域、CNV和/或其嵌合比例、和/或样本污染和/或污染比例的产品中的用途。
42.一种用于辅助排查胚胎流产原因或用于提供妊娠指导的产品,其包含根据权利要求40的装置,和任选地用于获取流产物的核酸样本的装置。
43.一种用于核酸样本CNV检测的装置,其包含:(1)SNP信息获取模块:用于获取受试核酸样本在待分析区域的SNP位点BAF值和/或LRR值;(2)BAF异常区域分析模块:用于在模块(1)获取的BAF值上执行根据权利要求1-16任一项的方法,以确定BAF异常区域;(3)任选地,污染检测模块:用于在模块(1)获取的BAF值上执行样本污染分析;(3)LRR异常区域检出模块:用于在模块(1)获取的LRR值上执行LRR异常区域分析,以检出LRR异常区域;(4)CNV确定模块:用于整合由模块(2)检出的BAF异常区域和由模块(3)检出的LRR异常区域,确定CNV的边界和类型,和任选地基于CNV的嵌合比例,校正CNV拷贝数;(5)任选地,CNV嵌合比例确定模块:用于在模块(4)检出的嵌合CNV异常区域上执行CNV嵌合比例确定;(6)任选地,报告输出模块:对模块(1)-(5)得到的数据进行加工处理整合,生成报告。
44.根据权利要求43的装置,其中所述污染检测模块执行根据权利要求31的样本污染确定方法。
45.根据权利要求43的装置,其中,所述CNV嵌合比例确定模块用于执行根据权利要求28的CNV嵌合比例确定方法。



