Insgesamt wurden in der Vergangenheit nur wenige und mit einer geringen Zahl von Betroffenen einhergehende Multiplex-Familien mit ARM- oder BEEK beschrieben, so dass konventionelle Kopplungsanalysen bisher nicht zur Identifikation krankheitsrelevanter Gene geführt haben.
Diese Arbeit greift zur systematischen Identifizierung von kausalen Genen und Regionen auf modernste (state of the art) Techniken zurück, die sich in der Genetik zunehmend etabliert haben. Die Erhebung genomweiter Einzelnukleotid-Polymorphismus (SNP)- Daten wurde schwerpunktmọòig zur Identifikation von Kopienzahlverọnderungen (CNVs; copy number variants; s. Kapitel 1.2.1) durchgeführt und kann bei ausreichender Patientenzahl auch zukünftig für eine GWAS genutzt werden. Zudem bieten neue
Sequenzierungstechnologien (NGS; Next Generation Sequencing; s. Kapitel 1.2.2) ebenfalls einen vielversprechenden Ansatz zur Identifikation kausaler Varianten.
Mửgliche Kandidatengene wurden ỹber positionelle Untersuchungen mittels CNV- oder NGS-Analysen, oder aufgrund ihrer zugeschriebenen embryonalen Funktion mittels Literaturrecherchen und/oder Expressionsanalysen in Mọuseembryonen, identifiziert.
1.2.1 Untersuchungen zu ursọchlichen Kopienzahlverọnderungen (CNV- Analysen)
Bereits die ersten bahnbrechenden Analysen des menschlichen Genoms haben eine unerwartet hohe Variabilitọt von Duplikationen und Deletionen genomischer Regionen offenbart (Iafrate et al., 2004; Sebat et al., 2004). Seitdem haben eine Reihe von Studien gezeigt, dass CNVs eine groòe Rolle in der genetischen Vielfalt spielen (McCarroll et al., 2006; Redon et al., 2006; Henrichsen et al., 2009).
Abhọngig vom Umfang der Studien und den verwendeten Methoden gibt es unterschiedliche Angaben zur Họufigkeit von CNVs im Genom (Conrad et al., 2010; Mills et al., 2011). Es wird geschọtzt, das CNVs bis zu 12 % des humanen Genoms abdecken (Redon et al., 2006; Zogopoulos et al., 2007; McCarroll et al., 2008b; Perry et al., 2008;
Henrichsen et al., 2009) und mehr als 40 % aller identifizierten CNVs bekannte kodierende Regionen umspannen (Henrichsen et al., 2009; Van den Veyver et al., 2009).
Dadurch kommt den CNVs eine bedeutende Rolle in der Regulation der Genexpression (Henrichsen et al., 2009; Choy et al., 2010) und somit letztendlich auch in der Evolution des menschlichen Genoms (Feuk et al., 2006a, 2006b) und der Entstehung von Erkrankungsprozessen (Shelling & Ferguson, 2007) zu. Im Vergleich zu SNPs haben CNVs wahrscheinlich eine grửòere phọnotypische Auswirkung (Cooper et al., 2007).
Die vorliegende Arbeit definiert CNVs als DNA-Segmente unabhọngig von Grửòe und Frequenz mit abweichender Kopienzahl im Vergleich zu einem Referenzgenom. In der englischsprachigen Fachliteratur werden im Zusammenhang mit dieser Definition von CNVs họufig weitere Begrifflichkeiten genannt:
• low copy repeat (LCR) (Lupski, 1998),
• segmental duplication (Eichler, 2001),
• large-scale copy-number variation (LCV) (Iafrate et al., 2004),
• large-scale copy number polymorphism (CNP) (Sebat et al., 2004),
• duplication und indel variation (Tuzun et al., 2005),
• structural variant (SV) (Feuk et al., 2006a),
• copy number polymorphism (CNP) (Redon et al., 2006).
CNVs kửnnen ursọchlich fỹr das sporadische Auftreten von Geburtsfehlern (Lu et al., 2008), Erkrankungen, die einem Mendelschen Erbgang folgen, sowie Erkrankungen mit genetisch komplexem Hintergrund sein (Zhang et al., 2009a). Die mửgliche Rolle von (họufig auch de novo) CNVs in komplexen Erkrankungen wird durch eine wachsende Anzahl von Studien unterstützt (Buchanan & Scherer, 2008; Wain et al., 2009; Soemedi et al., 2012; Southard et al., 2012). In diesem Zusammenhang haben Wain et al. (2009) exemplarisch die Assoziationen zwischen CNV Befunden und Suszeptibilitọt fỹr Autismus (Sebat et al., 2007; Szatmari et al., 2007; Kumar et al., 2008; Marshall et al., 2008; Weiss et al., 2008), Schizophrenie (International Schizophrenia Consortium, 2008;
Stefansson et al., 2008; Walsh et al., 2008; Xu et al., 2008), Morbus Crohn (McCarroll et al., 2008a), Psoriasis (Hollox et al., 2008), systemischen Lupus erythematodes (Aitman et al., 2006; Fanciulli et al., 2007; Yang et al., 2007), amyotrophe Lateralsklerose (Blauw et al., 2008) und AIDS (Gonzalez et al., 2005) aufgeführt.
Die Bedeutung von CNVs zeigen auch die hochgerechneten Mutationsraten, die im Laufe der letzten Jahre stetig nach oben korrigiert wurden. Zunọchst wurden de novo lokusspezifische Mutationsraten für CNVs zwischen 1,7 × 10-6 und 1,0 × 10-4 pro Lokus und Generation geschọtzt (van Ommen, 2005; Lupski, 2007). In den Folgejahren wurden weitere Schọtzungen erhoben, die eine genomweite Mutationsrate von 0,01 bis 0,02 pro Transmission und Generation fỹr CNVs mit einer Mindestgrửòe von 10 Kb angeben (Sebat et al., 2007; Marshall et al., 2008; Itsara et al., 2010; Levy et al., 2011; Sanders et al., 2011). Aktuell liegt die geschọtzte Mutationsrate von strukturellen Mutationen bei 0,07 bis 0,12 pro Generation (Malhotra & Sebat, 2012).
CNVs kửnnen aber auch analog zu SNPs neutrale polymorphe Varianten darstellen (Zhang et al., 2009a). Die wachsende Bedeutung dieser neutralen CNVs spiegelt die steigende Zahl von gelisteten Eintrọgen in der Datenbank fỹr genomische Varianten (Database of Genomic Variants, DGV) wider (Iafrate et al., 2004). Ziel der DGV ist es, einen umfassenden ĩberblick ỹber strukturelle Variationen im menschlichen Genom
bereitzustellen. Diese werden hier als genomische Verọnderungen definiert, die DNA- Segmente mit einer Mindestgrửòe von 1 Kb (Stand 2004 bis 2010) bzw. 50 Bp betreffen (Stand 2012). Der Inhalt der Datenbank reprọsentiert nur strukturelle Variationen, die
bei gesunden Kontrollpersonen identifiziert wurden (http://dgvbeta.tcag.ca/dgv/app/about?ref= NCBI36/hg18). So waren 2004 zunọchst
255 CNVs (Iafrate et al., 2004) gelistet, 2009 waren es bereits 38.406 (Zhang et al., 2009a) und Ende 2012 sind 292.693 CNVs in der DGV dokumentiert (http://dgvbeta.tcag.ca/dgv/app/home?ref=NCBI36/hg18).
1.2.2 Next Generation Sequencing (NGS)
Die Methodik der automatischen Sanger-Sequenzierung dominiert seit ihrer Erstbeschreibung 1977 (Maxam & Gilbert, 1977; Sanger et al., 1977) und anschlieòender Etablierung die molekulargenetischen Analysen und ist auch heute noch der Goldstandard. Die groòen Einschrọnkungen der Sanger-Sequenzierungsprotokolle fỹr noch umfangreichere Sequenz-Analysen sind die Notwendigkeit von Gelen und Polymeren als Trennmedien für die fluoreszenzmarkierten DNA-Fragmente, die relativ geringe Anzahl von parallel analysierbaren Amplikons und die Schwierigkeit der vollstọndigen Automatisierung der Probenvorbereitungsmethoden (Ansorge, 2009).
Daher wird zunehmend für verschiedene Fragestellungen eine neue Generation der Sequenzierung in der Forschung und Diagnostik etabliert, die diese Limitierungen der Sanger-Sequenzierung ausgleichen und das parallele Prozessieren von Millionen von Amplikons erlaubt. Die automatisierte Sanger-Methode wird als "erste Generation"- Technologie angesehen und die neueren Methoden werden als NGS bezeichnet. Weitere Vorteile der NGS-Technologien sind eine deutliche Reduktion sowohl der Kosten als auch der Zeit. So hat die erste vollstọndige Sanger-Sequenzierung des kompletten menschlichen Genoms 13 Jahre gedauert und ca. drei Milliarden US Dollar gekostet (International Human Genome Sequencing Human Genome Sequencing Consortium, 2004). Die Analyse unterschiedlicher Genome mit verschiedenen NGS-Technologien hat in den letzten Jahren nur noch ca. 100.000 US Dollar gekostet und wenige Wochen gedauert (Metzker, 2010); seit kurzem wird sogar das 1.000 US Dollar Genom vorhergesagt (Mardis, 2006).
Diese neueren NGS-Technologien reprọsentieren unterschiedliche Strategien, die auf einer Kombination von Amplikonherstellung, Sequenzierung und Bildgebung sowie Alignment- und Sequenzanordnungsmethoden beruhen (Metzker, 2010). Drei kommerzielle Technologien von Roche (454), Illumina (Solexa) und Life Technologies/Applied Biosystems (SOLiD) konnten sich zunọchst am Markt durchsetzen und werden im Methodenteil weiter vorgestellt (Kapitel 3.2.10). Die groòe Herausforderung der NGS-Technologien an die Bioinformatik sind dabei die Verarbeitung der groòen Datenmengen, die Interpretation der Sequenzdaten und das damit verbundene Filtern der vielen polymorphen Varianten. Erste geeignete bioinformatische Programmlửsungen fỹr den Endanwender wurden bereits entwickelt und stehen zur Verfügung (Zhang et al., 2011).
So konnte das NGS in den vergangenen Jahren erfolgreich bei der Erforschung seltener Erkrankungen, z. B. beim Miller-Syndrom, Schinzel-Giedion-Syndrom und Morbus Charcot-Marie-Tooth, eingesetzt werden. Zum einen wurden für bekannte Kopplungsregionen die Sanger-Resequenzierungen ersetzt und zum anderen konnten unmittelbar kausale Mutationen identifiziertwerden (Ng et al., 2010b). Ng et al. (2010b) fassen einige publizierte NGS-Studien zusammen, die autosomal dominante (Brkanac et al., 2009; Ng et al., 2009, 2010a; Hoischen et al., 2010; Nikopoulos et al., 2010; Sobreira et al., 2010), rezessive (Edvardson et al., 2010; Lalonde et al., 2010; Rehman et al., 2010;
Roach et al., 2010; Volpi et al., 2010; Walsh et al., 2010) und X-chromosomal rezessive (Johnston et al., 2010) Erkrankungen aufklọren konnten.
NGS kann ein probates Instrument für die Erforschung von ARM und BEEK darstellen, um einerseits mit anderen Methoden identifizierte Kandidatengenregionen zu analysieren und andererseits direkt de novo Mutationen zu identifizieren.