III. Tài liệu tham khảo
2. Lịch sử DNA microarray
5.2. Tiến hành la
Sau khi đánh dấu, tiến hành lai trên mảng. Do sử dụng chất mang rắn nên phương pháp microarray dễ tiến hành hơn các phương pháp blot. Trong quá trình lai, cho dung dịch đích đã đánh dấu đi qua mảng. Ở đó mẫu dò bắt cặp bổ sung (nếu có) với đích. Nếu dùng chất mang thuỷ tinh, có thể đặt úp một phiến kính thuỷ tinh lên trên sau đó cho dung dịch đích đi qua khe trống giữa chúng bởi lực mao dẫn. Một cách đơn giản khác là đặt trực tiếp mảng trong bể nhỏ chứa dung dịch lai. Các điều kiện lai (như nồng độ mẫu, lực ion, nhiệt độ) phụ thuộc lớn vào kích thước mẫu dò trên mảng và phải được xác định cho từng thí nghiệm. Hiệu quả lai có thể tăng lên nếu dung dịch lai luôn ở trong trạng thái động so với bề mặt mảng.
5.3. Xác định và phân tích dữ liệu thu nhận được
Sau khi lai, tiến hành rửa để loại bỏ đích không bắt cặp hoặc bắt cặp không đặc hiệu với mẫu dò. Tiếp đó dùng thiết bị hiện ảnh xác định tín hiệu lai do chất đánh dấu trên đích phát ra. Cường độ tín hiệu cho phép đánh giá tương đối hiệu quả bắt cặp giữa đích và mẫu dò. Điều đáng nói ở đây là lượng dữ liệu cần phân tích trong thí nghiệm microarray rất lớn
do trên một mảng có thể đặt hàng chục ngàn mẫu dò, tương ứng với nó là hàng chục ngàn tín hiệu, trong đó lại có những tín hiệu nhiễu vì nhiều nguyên nhân. Do đó cần có các phần mềm máy tính để chuẩn hoá dữ liệu, đơn giản hoá quá trình phân tích nhằm đưa ra các kết luận nhanh và chính xác. Các bước chung khi tiến hành kỹ thuật microarray là như vậy, nhưng vì có hai loại mảng ứng với mẫu dò là cDNA và oligonucleotide nên có đôi chút khác nhau khi sử dụng chúng.
Thông thường có hai phương thức được dùng để thu nhận các dữ liệu trong kỹ thuật microarray. Trong trường hợp two-color array, hai mẫu RNA được tiến hành đánh dấu bằng các thuộc nhuộm khác nhau và tiến hành lai đồng thời trên cùng một bản array. Mẫu được quan tâm hay mẫu đang nghi vấn (ví dụ như là một mẫu bệnh phẩm ung thư vú) được tiến hành nhuộm bằng một thuốc nhuộm và mẫu đối chứng được tiến hành nhuộm bằng một thuốc nhuộm khác. Hai mẫu được trộn với tỉ lệ ứng với 1:1 với nhau trên cơ cở đồng nhất các thuốc nhuộm. Sau đó tiến hành so sánh các mẫu với nhau, sự biểu hiện của các mẫu tuân theo hàm logarit giữa tỷ lệ các RNA trong mẫu nghi vấn đối với mẫu đối chứng. Trong trường hợp là single-color array, như Genechip (Affymetrix), mỗi mẫu sẽ được tiến hành nhuộm riêng biệt và tiến hành trên thực hiện trên một phiến array. Sau đó tiến hành lai và rửa mẫu, sự biểu hiện của từng gen được thể hiện thông qua sự biểu hiện cường độ phát huỳnh quang, từ đó có thể đánh giá mức độ biểu hiện của gen.
Hình 4.18. Hình ảnh cho thấy tỷ lệ lai khác nhau sẽ cho tín hiệu màu khác nhau.
Hình 4.20. Xử lý tính hiệu bằng phần mềm xử lý hình ảnh
Trong phép phân tích “two-color” (hình A), mẫu RNA được thu nhận từ bệnh nhân và mẫu đối chứng được tiến hành nhuộm riêng biệt khác nhau và tiến hành lai với duy nhất 1 DNA chứa mẫu dò chuyên biệt với gen. Quan hệ về mức độ biểu hiện của gen trong hai mẫu được đánh giá dựa trên việc so sánh mức độ phát huỳnh quang của mỗi mẫu; một vector biểu hiện mẫu được dùng để kết luận mức độ biểu hiện của từng gen trong mẫu thu nhận từ bệnh nhân (tiến hành so sánh với mẫu đối chứng). Phép phân tích “single-color” (Hình B), được thực hiện với Genechip (Affymetrix), tiến hành lai các RNA được đánh dấu từ mỗi mẫu sinh phẩm trên từng array tiến hành lai với các mẫu dò chuyên biệt. Mức độ biểu hiện gen được đánh giá bằng cách so sánh cường độ lai của một loạt các mẫu dò đã bắt cặp hoàn hảo, backgrou sẽ được tiến hành đánh giá thông qua các mẫu dò không bắt cặp. Mức độ biểu hiện của gen của mỗi mẫu thu nhận từ bệnh nhân được báo cáo với như một vector biểu hiện mẫu mà kết luận dựa trên sự khác biệt giữa tín hiệu và background của từng gen.
Sau khi tiến hành thu nhận mẫu, các dữ liệu thường phải được tiêu chuẩn hóa để dễ dàng so sánh, tìm hiểu những điểm khác nhau giữa các thí nghiệm lai. Hiện nay, có rất nhiều phương pháp được sử dụng cho việc tiêu chuẩn hóa các dữ kiện, tuy nhiên sử dụng phương pháp nào phù hợp cho việc phân tích hoàn toàn phụ thuộc vào mục đích thí nghiệm, kết luận về các dự kiện. Thông thường các dữ kiện cũng phải được tiến hành chọn lọc dựa trên các tiêu chuẩn nhất định (ví dụ như là các gen có sự khác biệt nhau nhỏ sẽ bị loại) hay là tiến hành phân tích thông kê để lựa chọn các gen có sự biểu hiện với một mức độ cao mà chúng có liên quan đến các nhóm của mẫu xét nghiệm. Việc tiêu chuẩn hóa và chọn lọc phải được ứng dụng một cách thật cẩn trọng, tại vì nó có thể mang đến một số hiệu quả không mong muốn trong kết quả. Sự khác biệt trong các phương pháp phân tích thống kê sẽ cung cấp các kết quả khác nhau trong các gen chuyên biệt (thường là kết quả các gen sẽ gối đầu nhau).
Những lưu ý này sẽ được thực hiện, chú trọng trong suốt quá trình tiến hành phân tích so sánh dữ liệu, các thông tin với nhau ở các phòng thí nghiệm khác nhau. Có thể dẫn
pháp so sánh, phân tích và thống kê các dữ liệu. Những so sánh này chuyển toàn bộ dữ liệu phân tích vào trong một kho dữ liệu, từ những thông tin đó, có thể tìm kiếm sự giống nhau giữa các dạng của microarray. Để tiến hành so sánh các dữ liệu một cách dễ dàng người ta phát triển một tiêu chuẩn chung cho phép phân tích các dữ liệu là “minimal information about a microarray experiment” (MIAME). Các database của DNA được phát triển và lưu giữ trong ngân hàng DNA để sử dụng cho việc nghiên cứu sự biểu hiện gen. Đây được xem là nguồn dữ liệu quan trọng và có giá trị trong ứng dụng trong việc nghiên cứu biểu hiện gen: các nghiên cứu về cùng một bệnh được tiến hành độc lập với nhau sẽ cung cấp các dữ liệu khách quan và được tiến hành so sánh, đánh giá các kết quả thu nhận được. Khi nghiên cứu một lượng lớn cỡ mẫu có thể cung cấp các dữ liệu quan trọng cho việc nghiên cứu các mẫu bệnh chung, và nghiên cứu việc biểu hiện gen có liên quan đến bệnh hay hậu quả của bệnh.
Sau khi thu thập được các dữ liệu, các dữ liệu đã được tiến hành chọn lọc và tiêu chuẩn hóa, chúng được biểu hiện một cách điển hình trong một ma trận mà mỗi dòng biểu hiện cho một gen chuyên biệt và mỗi cột biểu hiện cho một mẫu sinh học đặc trưng. Mỗi dòng biểu thị cho một vector biệu hiện gen – các ô thể hiện các mức độ biểu hiện gen chuyên biệt trong tất cả các mẫu bệnh phẩm nghiên cứu. Mỗi cột biểu thị cho một vector biểu hiện mẫu, ghi nhận sự biểu hiện tất cả các gen trong mẫu. Để hiểu một cách dễ dàng các kết quả thu nhận được từ phương pháp lai kết hợp, các yếu tố của dữ liệu trong ma trận thường được biểu hiện với màu đỏ ứng với mức độ biểu hiện gen trong từng mẫu và các vùng quan sát được trên ma trận biểu hiện cho các mẫu đang phân tích. Trong hầu hết các phương pháp, màu sử dụng cho các gen được dựa trên tỷ lệ logarit đối với từng mẫu khi được tiến hành so sánh với mẫu đối chứng; giá trị tỷ lệ log gần như bằng không sẽ được biểu hiện bằng màu đen, giá trị lớn hơn không được biểu hiện bằng màu đỏ (ứng với các điều hòa thượng nguồn), và các giá trị âm tính được biểu hiện bằng màu xanh (ứng với các gen điều hòa hạ nguồn), ngoài ra có thể có nhiều màu khác nhau được phép sử dụng cho trường hợp đối với những người bị mù màu đỏ - xanh. Cường độ biểu hiện của các nhân tố được tiến hành so sánh sự biểu hiện các gen có quan hệ với nhau, các nhân tố có màu sáng biểu hiện cho sự biểu hiện với một mức độ cao. Chương trình được thực hiện theo các nhóm hàng ngang, hàng dọc hoặc là cả hai, từ đó, có thể xác định được mức độ biểu hiện của các gen khác nhau trong các mẫu bệnh phẩm khác nhau.
5.4. Xác định sự biểu hiện của mẫu
Trong phân tích microarray, người ta tiến hành tìm kiếm các gen chuyên biệt và nghiên cứu sự biểu hiện của các mẫu liên quan tới trạng thái các bệnh lý hay có sự tương đồng với các mẫu có cùng sự biểu hiện. Hoặc là các mẫu được tìm kiếm với các gen có sự biểu hiện tương tự nhau. Chẳng hạn như một phép phân tích mà phụ thuộc vào một tiêu chuẩn để so sánh sự giống nhau trong sự biểu hiện, và mỗi thông số đều liên quan đến các đặc điểm khác nhau trong các dữ liệu thu thập được. Lúc này hai tiêu chuẩn thường được dùng để so sánh “euclidean distances” và “Pearson’s correlation coefficient distances”. “Euclidean distance” được ưu tiên sử dụng trong trường hợp khi nghiên cứu một cỡ mẫu rất lớn và sự biểu hiện gen rất quan trọng, trong khi Pearson’s correlation coefficient distances được sử dụng trong mô hình mẫu nghiên cứu với sự biểu hiện của gen hay mẫu là tương đối quan trọng. Nói chung, khi ứng dụng microarray trong việc phân loại các khối u
Sau khi dữ liệu đã được ghi nhận, tiêu chuẩn hóa, chọn lọc và một phương tiện cho việc so sánh sự giống nhau được chọn, một loạt các phương pháp khác được tiến hành ứng dụng cho việc phân tích sau này. Các phương pháp cho việc phân tích sau này được nhóm thành hai nhóm chung: phương pháp “supervised” và “unsupervised”. Phương pháp “supervised” phụ thuộc vào các kiến thức trước đây về các mẫu bệnh nhằm tìm kiếm các gen có liên quan đến trạng thái bệnh lý, và chúng rất hữu dụng cho các nghiên cứu phân loại. Phương pháp “unsupervised” không phụ thuộc vào các kiến thức đã có trước đây, và chúng được ứng dụng cho việc xác định các phân nhóm (subgroup) của mẫu đặc trưng cho các bệnh chưa được nghiên cứu.
5.5. Phương pháp clustering (tìm kiếm sắp xếp nhóm)
Bất kỳ một mục tiêu nào trong nghiên cứu microarray, kỹ thuật đầu tiên được áp dụng là phương pháp “unsupervised” để xem xét các mẫu sinh học đang nghiên cứu có nằm trong dữ liệu hay không? Phương pháp “unsupervised” không được ứng dụng vào việc phân loại, ví dụ như là những mẫu bệnh phẩm được tiến hành thu nhận từ các bệnh nhân u nguyên bào bạch cầu hay bệnh bạch cầu nguyên thủy bào. Những phương pháp này nhóm các mẫu bệnh phẩm (hay gen hay cả hai) trên cơ sở dựa trên việc so sánh sự tương quan trong các dữ liệu biểu hiện của chúng.
Hai phương pháp ứng dụng rộng rãi cho việc xem xét sự biểu hiện gen là “hierarchical clustering” và “k-means clustering”. Các phương pháp này chia dữ liệu theo từng nhóm, và xác định các nhóm này có ý nghĩa trong việc phân tích có liên quan đến các dữ liệu thu nhận từ lâm sàng hay không, và đồng thời đòi hỏi phải phát triển nhiều phương pháp mới.
Hình 4.20. Hình ảnh sắp xếp các dữ liệu bằng phương pháp clustering.
Một bảng dữ liệu chưa được sắp xếp (hình A) và dữ liệu được sắp xếp bằng Hierarchical clustering, hay phân tích k-means được ứng dụng trong việc xác định các phân nhóm trong bảng dữ liệu.
6. Ví dụ việc ứng dụng microarray trong việc phân loại khối u
Mục đích là xác định marker phân tử cho phép phân loại carcinoma dạ dày với mong muốn là trở thành một công cụ trong việc dự đoán lâm sàng. Carcinoma dạ dày là đối tượng dùng để phân tích bằng microarray khi tiến hành lai với cDNA với hơn 2504 mẫu dò. Sử dụng hệ thống “Rosstta rough-set based learning”, các nhà nghiên cứu đưa ra những
và sự di căn đến hạch bạch huyết dựa trên sự biểu hiện của gen. Đối với chúng tôi, đây là nghiên cứu đầu tiên trên mô hình carcinoma mà sự phân chia dựa trên các marker phân tử bằng phương pháp microarray.
Những hiểu biết về đặc điểm phân tử của carcinoma dã dày ngày càng được hiểu rõ. Những thay đổi về mặt di truyền bao gồm việc khuếch đại gen c-erbB2, đột biến của gen
ras, APC và gen p53 và E-cadherin bị phân cắt. Sự mất đi tính dị hợp tử trong các carcinoma dạ dày liên quan đến vị trí trên các nhiễm sắc thể số 1, 5, 7, 12, 13 và 17. Các khối u cũng thường biểu hiện vượt mức oncogen Rasvà cyclins. Các cytokine cũng được biểu hiện một cách vượt mức và carcinoma dạ dày cũng có thể biểu hiện các peptide điều hòa như là các yếu tố tăng trưởng biểu mô (EGF), yếu tố truyền tín hiệu tăng trưởng alpha (TGF-α), hay các yếu tố tăng trưởng có nguồn gốc từ tiểu cầu (PDGF) và yếu tố tăng trưởng giống insulin II (ILGF-II), yếu tố tăng trưởng tế bào gai (HGF) và các receptor của nóc-metcũng được biểu hiện một cách vượt mức. Việc phân chia theo Lauren cũng tương ứng với một số bất thường trong di truyền. Mục đích của nghiên cứu này là tiến hành khảo sát sự biểu hiện gen trong các khối u sơ cấp trong bệnh nhân bị carcinoma dạ dày bằng phương pháp microarray nhằm tìm kiếm và phân tích mối quan hệ giữa sự biểu hiện gen với các thông số liên quan đến khối u.
6.1. Chuẩn bị sinh phẩm khối u
Khối u được thu nhận càng sớm càng tốt từ phòng giải phẩu bệnh học và giữ trong formalin hay đông lạnh giữ trong nitrogen lỏng. Phần được xử lý bằng fomaline sẽ tiến hành nhuộm mô với hematoxylin-eosin. Phần mô đông lạnh sẽ được đồng nhất trong dung dịch buffer guanidinum-isothiocyanate , và tổng số RNA được chiết ra bằng phương pháp siêu ly tâm trong nồng độ cesium chloride, thu nhận kết tủa, tinh chế với TRIzol (phenol- guanidinium-thiocyanate) , và tiến hành phân tách bằng điện di trên gel agarose và ước lượng các băng 18S và 28S rRNA. Còn đối với việc phân tích bằng microarray sẽ không tiến hành làm phân tách rRNA.
6.2. Quy trình microarray
Các arrays được chuẩn bị và sử dụng mẫu dò cDNA để tái biểu hiện lại 2504 chuỗi trình tự khác nhau của người (Research Genetivà cs, Huntsville, AL) (Đoạn cDNA bổ sung có thể tìm kiếm trên địa chỉ http://www.lcb.uu.se/~herman/gastric/gastric.html, bao gồm 1500 gen đã được xác định trong NCI oncochip (http://resresources.nci.nih.gov/). Các mẫu dò sẽ được in vào tấm kính đã được phủ bằng amino-saline (Corning CMT-GAPS, Corning, Corning, NY) bằng cách sử dụng một printing robot được thiết lập với sự cộng tác của NEMKO (Trodheim, Norway) sau khi mẫu ban đầu được phát triển tại NHGRI (National Human Genome Research Institute).
Các RNA (Universal Human Reference RNA) thu nhận từ Stratagene (LaJolla, CA) chứa đựng toàn bộ RNA từ 10 dòng khác nhau đã được chọn lôc nhằm làm tối ưu hóa trong phân tích microarray, và tổng RNA trong khối u (1 g), đã được dịch nghịch đảo nhuộm với Cy3- và Cỵ-attached dendrimer. Sử ụng protocol của bộ kit 3DNA dendrimer kit (Genisphere, NJ). Các array được quét với laser có bước sóng 532 và 633 nm được phát triển bởi NHGRI.
Microarray được phân tích bằng chương trình Scanalytivà cs’ MicroArray Suite với mặc định định dạng ban đầu. Các kỹ thuật tiêu chuẩn hóa gồm global và prittip được sử dụng với từng array. Khi sử dụng phương pháp tiêu chuẩn hóa global chúng tôi nhận thấy rằng thường cho thấy có một mối liên hệ cao giữa các điểm trên phiến array. Do đó, mỗi array được tiến hành Global tiêu chuẩn hóa và tiến hành phân tích với tỷ số log2. Những điểm không được tin cậy sẽ được loại bỏ sau khi phân tích tán xạ các điểm trên phiến array.
Microarray được phân tích với các thông số sau: phân chia theo mô học (Lauren, khuếch tán hay ruột), khía cạnh khối u sơ cấp (cardia, corpus hay là antrum), có sự di căn đến hạch bạch huyết hay không… Với mỗi thông số, dữ liệu khối u chứa hai hay 3 lớp, một “lớp” có giá trị của một thông số liên quan đến mẫu bệnh phẩm nghiên cứu (ví dụ: có hay không sự di căn). Các gen có sự biểu hiện khác nhau giữa các lớp của mỗi thông số