logo NFI logo SMART Research BV
选择你的语言: English Español Français Português 中文(简体) 日本語 Русский
logo
shadow
这篇文章基于这本书
Wiegerinck W.A.J.J., Kappen H.J., Burgers W.G.
Bayesian 网络构架的专家系统,理论和实际应用。
相互合作信息系统。
计算机人工智能 2010 卷281/2010 547-578 页
DOI: 10.1007/978-3-642-11688-9_20


Bayesian Networks

Bayesian 网络系统非常适合于亲属间族系关系的基因组计算。 它能计算任何失踪人口和亲属关系。 而且Bayesian 网络系统的另外一个优势是非常透明和有弹性,允许你加入其他变量,如计算错误可能性,丢失数据,更先进的基因标记等等。

Bonaparte 软件的核心是使用了Bayesian 网络构架和交互手段,能够在DNA基础上,加上额外的族系关系,正确的做亲缘分析。这个软件对于处理大数据量的失踪人口和受害者的性能非常优越。

这个章节中,我们将讨论Bayesian 模块在软件开发中的应用。 我们使用两个计算任务,这两个计算任务都是计算两个假设之间的可能性概率的。 主要的组成部分是DNA数据的可能性模块 (P)。在我们讨论这个模块之前,我们会简单的介绍DNA数据资料,在最后我们会解释如何P值可以与Bayesian网络构架整合,如何计算可能性比率。

两个假设的可能性比值

假设一个失踪人口(MP)在一个族谱中。 在这个谱系中,一些家庭成员已经提供了他们的DNA从此我们有了一个数据库。 另外,其中也有一个不明身份的人(UI)的DNA也被加进了这个数据库。 研究问题就是,是否这个 UI与失踪人口(MP)是一样的。为了计算这个可能性,我们需要用假说了比较,是否这个DNA属于这个族系的家庭成员。 通常,我们选择建立两个假设,第一个假设H1是确实UI 等于 MP。 另一种假说H0是,UI和MP是两个不同的人。这两个假设我们有两个族系:第一个族系MP和其家庭成员。不相关的人自己为一个成员。为了比较这两个假设,我们计算了DNA数据对于这两个假说支持的可能性。

在P模式下,可能性概率在这两个假设的情况是

LR =P(E|Hp)/P(E|Hd)

如果前提的P(Hp)=P(Hd) 情况下,P(Hp|E)=P(Hd|E)直接来自于前提与可能性的乘积。

P(Hp|E)/P(Hd|E)=( P(E|Hp)P(Hp) )/( P(E|Hd)P(Hd) )
DNA Profiles

在这个章节,我们提供了一个简短的介绍DNA数据分析亲属关系。在以往文献中,一种较为复杂的比较已经被报道了。在人类,DNA是在细胞核的染色体中。一般人类体细胞含有46个染色体,组成23对。子辈继承了一半染色体从父辈,一半从母亲,染色体是均一的,他们蕴含同样长度的基因(有意义的DNA功能单元)。他们是所谓的自化染色体,剩下的是性染色体。男性有一个X和一个Y。女性有两个X。

一般来说99%的基因是一样的,因此这些基因是不能用做身份鉴定的。但是在染色体的一定部位上有特异的DNA可以用来鉴定各人身份,这个就是所谓的基因标签。在基因组学上,特异的基因叫做位点,一个单位点就是位点。

在法医学上,短重复序列经常被使用(STR)。因为这些重复序列可以从微量的残骸中分离得到。另外一个优点是,他们有很低的突变率这些对于亲属研究非常重要。STR是一种2-多个重复出现的碱基。例如

(CATG)3=CATGCATGCATG

重复次数X(在上例中是3)在人群中有所不同。 有时,有一个重复片段 如CATGCATGCATGCA,这个将会是重复次数X=32.因为这个重复出现3次加两个碱基。 可能的数值,以及经常出现的频率在法医学上通常被记录下来。 范围和频率通常不同。从一定程度上,不容人群是不一样的。因此STR一般来说是标准的。这样的一组标记产生了DNA数据。因为染色体是一对对存在的,这样的数据将存在成对的标记。例如(这样的概念不是标准化的)。

x̄ =(1x1;1x2);(2x1;2x2);⋯;(nx1;nx2)

每个X是一个在位点上重复不同次的次数。 但是因为染色体是成对的,会在同一个部位有两个位点,其中一份染色体遗传与父辈,另外一份染色体遗传与母辈。 不幸的是,现代DNA分析技术无法分析哪对DNA是来自母辈哪对来自父辈。 这意味着 (X1和X2) 不能区别于(X2 和X1)。 为了让这个概念更加清楚,我们观察到的位点为(X1和X2)。 染色体是从父母那里遗传下来的,每个父母只遗传一对染色体到他们孩子身上。对于自身染色体,并没有偏好那一份遗传到父辈。变位也没有一定的相关。因为染色体是从父母身上遗传的,位点也是从父母辈遗传下来。只有很小的可能性,位点突变或者变化了。这样的突变通常只有0.1%的可能性。最后,在DNA分析中也有无法读出一定位点的可能性。如此,这样的观察是(X1和F),意味无法读数。


一个Bayesian 网络构架的亲缘分析

在这个章节,我们将描述在一个族系中建立Bayesian网络构架模块来计算DNA资料的可能性。首先,我们观察遗传和观察不同染色体位点上是独立的。因此,对于每个位点,我们能够计算独立模式P。在以下模式描述中,我们能够考虑单独位点为一个模块,我们因为理论便利,能够阻止突变位点。

位点可能性

我们将考虑族系间的个人。 只有当一个人是族系起源的时候,这才是例外。如此将没有父母在族系中。

DNA数据和家庭成员关系能够被族系谱构建,同时考虑遗传位点的转移。 在每个簇中,每个个人分别有一个父母染色体 (X或者f)。 成对的位点被翻译为 X。 xi =(xfi,xmi). 每个位点我们标记为 (X或m)。有时候我们有标注(S),它的值可能是(f,m)因此每个簇在族谱系中能够被列为(i,m)。可以假设簇为N值。

一个起源等位基因,我们就称之为起源等位基因 ?因为一个起源等位基因在族系中有两个起源位点。最简单的模式是假设起源等位基因是独立的,遵循人口分布频率P (a)。总体上来说,这个频率将依赖于簇。不仅如此更加复杂的模式也被提出来,在这些复杂模式中,起源等位基因被相关了。例如,一个可以假设起源在家族谱中来自于单一但是不明的亚群。这个模式的假设所产生的相关是其他模块中无法产生相关的。这个模式的一个缺陷是,需要增加计算时间和计算量。在这个章节中,我们会只介绍这个有共同起源的等位基因的模块。 如果一个个人,拥有其父母的等位基因,可以表示如下:

P(xi|xf(i),xm(i)) = P(xfi|xf(i))P(xmi|xm(i))

地点

P(xfi|xf(i)) = ½ Σs=f,m P(xfi|xsf(i))
P(xmi|xm(i)) = ½ Σs=f,m P(xmi|xsm(i))

名词解释:个体 从他的父亲获得他们父母等位基因 但是这个等位基因有50%机会来自于父亲,也有50%机会来自于母亲。

可能性数值P是一个双向模式P(a/b),这个数值意味着子代拥有父代等位基因在染色体的可能 b 。 具体的交互机制如下表Bayesian network对于不同的STR标记,这个是未知量。 据研究表明,突变更可能从父亲传给子代,相比于母辈。这样的可能性高达10倍。每个个体的性别是知道的,但是为了方便,我们有时候忽略这样的性别因素。总的来说,突变趋向于减少重复次数。突变也是位点依赖性的。

许多突变被科学文献所报道。如下文所述,每增加一个突变,我们的计算量都要成倍增加。因为突变发生的很少,因此我们可以在囊括突变前先进行筛选,看它是不是实际中常见。 最为简单的方法就是假设没有突变存在P(a|b)=δa,b 这样的模式增加了效率。但是一旦出现任何突变,不管是否其他基因是否是玩去一样,系统将不会识别。因此,突变模式非常重要,可以使得你的系统更加的兼容。简单的没有重复的突变模式是一种比较简易的统一模式在这个模式中假设突变率为m(以区别于位点系数μ)。

P(a|a)=1-μ
P(a|b)= μ/(N-1)

这个模式的好处只是很少的增加了计算时间和计算容量。 值得注意的是,人口频率总的来说并不变化。突变使得平率变得更为平整。但是有人人为这样可以增加个体差异,因此是更加实际的做法。但是,实际操作中,在一个族系中,一定的人口平率被重复使用。 这个意味这如果更多的无法观察到的参照被囊括到这个族系模式中,这个可能性比率将会(稍稍)改变。换而言之,之前的同等族系将给予(一定)不同的可能性。

观测

观察数标记为x̄i, or x̄;如果我们不提及任何个人。 来自父母的的一对等位基因无法被发现,所谓的等位基因xf=a, xm=b产生了同样的观察结果xf=b, xm=a. 符合方便的原则,我们先选择最小的等位基因:x̄(a,b) ⇔,a ≤ b。如果等位基因缺失我们写作x̄ =(x,F) F是一个很广的变量。一个等位基因的缺失可以被观测到(如通过高峰值)。这个事件被L所构建。L=1的时候等位基因缺失,这时候是否有一个广泛变量呢?如果一个观察的值是L=0.两个等位基因的情况都被估计到,因此我们就没有观察到任何变化。 这个观察结果被直截了当的写下来。没有等位基因缺失(L=0),等位基因的结果Y。这是一个决定意义的表格。

P(x̄|y,L = 0 ) = 1 ⇔ x̄ = y, 0 otherwise.

注意,每个Y只有一个X,在X下,L表示缺失的等位基因。

P(x̄ = (a,F)|(a,b), L = 1) = ½ ⇔ a ≠ b
P(x̄ = (b,F)|(a,b, )L = 1) = ½ ⇔ a ≠ b

P(x̄=(a,F)|(a,a),L = 1) = 1

例子:如果一个等位基因缺失,等位基因(a,b)导致a或者b缺失。这样的可能性各占50%。如果两个等位基因是一样的(a,a)那么这样的缺失是100%。

Inference

在所有等位基因相乘,换位可能性以及观察模式,一个Bayesian网络构架的个人等位基因X和DNA数据x̄在这个一个族谱中位置将会被观测到。 假设一个族谱内包含很多个个体J=1,…,K 是一个亚组呢的起源,而且假设等位基因缺失L也给予这样一个可能性。

P( {x̄,x}J) = ∏j P(x̄j|xj,Lj) ∏i ∈ J\F P(xi|xf(i),xm(i)) ∏i ∈ F P(xi)

在这个模式下,已知DNA数据的可能性可以被计算。如果我们从许多单一个体内,有一系列观测数据这个可能性是正态分布的,是双臂可能性。

P({x̄}O) = Σx1 … ΣxKj ∈ O P(x̄j|xj,Lj) ∏ i ∈ J\FP(xi|xf(i),xm(i)) ∏i ∈F P(xi)

这个计算包括了所有等位基因和成对的个体。一个联合树形的演算方式直接应用于可能性计算。以这样的方式,可能性和可能率在所有位点被计算汇报给用户。

八月 29 2014, 09:24:21 / 86b0d299abb5028bb2f79d36338db6fcaa956152
EnglishEnglish EspañolEspañol FrançaisFrançais PortuguêsPortuguês 中文(简体)中文(简体) 日本語日本語 РусскийРусский
SMART Research BV • Heyendaalseweg 135 • 6525 AJ Nijmegen • The Netherlands EU flag Cookies