Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
621,88 KB
Nội dung
1
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Trần Xuân Thanh
DỰ ĐOÁNCHỨCNĂNGGENESỬDỤNGKỸ
THUẬT PHÂNLOẠIPHÂNCẤP
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
Người hướng dẫn khoa học: PGS.TS Từ Minh Phương
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2012
2
MỞ ĐẦU
Hiện nay, kỹthuậtphânloạidữ liệu được sửdụng rông
rãi trong hầu hết các lĩnh vực khác nhau của trí tuệ nhân tạo
như phânloại văn bản, phânloại chữ viết tay, phânloại
hình ảnh, phânloạichứcnăng của gene,…
Trong thực tế có rất nhiều phương pháp phânloạidữ
liệu, mỗi phương pháp lại có những đặc điểm riêng phù hợp
với từng đối tượng dữ liệu cần phân loại. Luận văn này sẽ
trình bày về phương pháp phânloạiphâncấp đa nhãn
(hierarchical multi-label classification - HMC) để giải quyết
bài toán dựđoánchứcnăng của gene. Việc xác định chức
năng của một gene mới có ý nghĩa rất quan trọng trong các
nghiên cứu sinh học và y học.
Bài toán dựđoánchứcnăng của gene thực chất là bài
toán phân loại. Chứcnăng của gene được thể hiện dưới dạng
cây phân cấp. Mỗi gene đảm nhận một chứcnăng nào đó và
có mối liên hệ với các gene khác. Xác định được chứcnăng
của gene chính là xác định vị trí tương đối của chúng với
các gene khác. Do đó, việc giải quyết vấn đề xác định chức
chức năng của gene cũng chính là phânloạigene dựa vào
chức năng của chúng. Bài toán xác định chứcnăng của gene
lúc này quy về bài toán phânloạigene dưới dạng cây phân
cấp.
3
Do tổ chứcphâncấp của các GO term, khi xác định
chức năng của genethuật toán phânloại cần tính tới phân
cấp này. Đã có một số nghiên cứu tập trung vào việc phát
triển kỹthuậtphânloại có tính tới đặc thù phâncấp của
Gene Ontology (GO). Mục tiêu và nội dung luận văn sẽ tập
trung vào việc nghiên cứu áp dụngphânloạiphâncấp cho
bài toán xác định chứcnănggene và đánh giá kết quả bằng
thực nghiệm.
Đối tương nghiên cứu của đề tài là bộ dữ liệu mô tả
chức năng của gene người đã có sẵn để xây dựng tập huấn
luyện. Phạm vi nghiên cứu của luận văn tập trung vào dự
đoán, xác định chứcnăng của một gene mới sửdụng
phương pháp phânloạiphâncấp dựa trên bộ dữ liệu đã cho.
Bố cục của luận văn gồm:
Chương 1: Trình bày về các khái niệm cơ bản về gene,
chức năng của gene. Tiếp đến là khái niệm về gene ontology
(GO).
Chương 2: Trình bày phần chính của luận văn. Trước
tiên là giới thiệu sơ bộ và phânloại các phương pháp phân
loại dữ liệu sửdụng trong bài toán dựđoánchứcnăng của
gene. Tiếp theo trình bày về khái niệm cây quyết định và các
phương pháp phânloại dựa vào cây quyết định. Quan trọng
4
nhất trong phần này, đi sâu trình bày phương pháp phâncấp
phân loạidữ liệu.
Chương 3: Mô tả quá trình kiểm thử và chạy hệ thống
CLUS. Đầu tiên giới thiệu sơ bộ về hệ thống CLUS, sau đó
tìm hiều về các định dạng dữ liệu đầu vào và đầu ra của hệ
thống CLUS. Cuối cùng là đánh giá kết quả khi tiến hành
chạy hệ thống với bộ dữ liệu gene nấm men.
5
Chương 1: TỔNG QUAN VỀ GENE VÀ DỰĐOÁN
CHỨC NĂNGGENE
1.1.1. Chứcnăng của gene và phânloạichứcnănggene
1.1.2. Một số khái niệm cơ bản về gene
Nhiễm sắc thể chứa DNA (deoxyribonucleic acid) mang
gene. Gen được truyền từ bố mẹ sang con cái và được xem là
đơn vị cơ bản của sự di truyền, ảnh hưởng lên mọi cấu trúc và
chức năng của cơ thể. Ở người có khoảng từ 30.000-40.000
gene cấu trúc (gene mã hóa cho RNA hoặc các protein).
1.1.3. Chứcnăng của gene
Thông thường, mỗi gene mã hóa một protein tương ứng.
Các protein này đảm nhiệm những vai trò hay chứcnăng khác
nhau trong cơ thể các sinh vật. Các chứcnăng của
gene/protein rất đa dạng, từ đóng vai trò trong các phản ứng
sinh hóa của tế bào, tới tương tác và điều hòa sự hoạt động
của các gen khác. Việc xác định chứcnăng của gene cũng như
sản phẩm của gene là nhiệm vụ quan trọng của sinh học phân
tử và tin sinh học.
1.1.4. Gene ontology (GO)
Các nghiên cứu về gene cho thấy cấu trúc gene rất phức
tạp đặc biệt là gene người. Để sửdụngdữ liệu về chứcnăng
6
của gene cho hệ thống phânloạiphâncấp thì dữ liệu về gene
phải được trừu tượng hóa, định dạng lại theo chuẩn đầu vào
của hệ thống phân loại.
Phương pháp phânloại được sửdụng trong đề tài này là
phân loạiphâncấp đa nhãn dựa trên cây quyết định được cài
đặt cho hệ thống CLUS sửdụng bộ dữ liệu theo chuẩn chung.
Bộ dữ liệu về gene của các sinh vật đã được hoàn thiện dần
qua các nghiên cứu gần đây, tạo nên một chuẩn biểu diễn. Các
phương pháp học máy để dựđoánchứcnăng của gene nói
chung đều dựa trên cơ sở của bộ dữ liệu chứcnănggene co
sẵn, chẳng hạn các chứcnăng trong gene ontology (GO) hay
trong FunCat.
Mỗi gene được thể hiện như là một Gene ontology
(GO), các gene có các chứcnăng gần nhau được gom thành
các nhóm (GO term). Các GO term được tổ chức dưới dạng
cây phân cấp.
Chức năng của gene được thể hiện dưới dạng cây phân
cấp, mỗi gene đơn lẻ có thể có nhiều chức năng, và các chức
năng được tổ chức trong hệ thống cấp bậc một: một gen có
liên quan đến chứcnăng một số chứcnăng của “gene tổ tiên”
của mình (gọi là hạn chế phân cấp).
7
Khi ta xác định chứcnăng của một gene mới (X) tức là ta
đi ta đi xác định xem X có những GO term nào bằng cách đưa
nó vào bộ phânloại với tập huấn luyện đã xác định ta sẽ được
GO term của gene đó. Do tổ chứcphâncấp của các GO term,
khi xác định chứcnăng của gen thuật toán phânloại cần tính
tới phâncấp này.
1.2. Bài toán xác định chứcnănggene
Từ góc độ khoa học máy tính, bài toán xác định chức
năng gene có thể phát biểu như bài toán phânloại trong học
máy. Theo đó, mỗi gene là một đối tượng, có thể nhận một
hoặc một số nhãn phân loại. Mỗi nhãn phânloại ở đây tương
ứng với một GO term. Mỗi gene được biểu diễn bởi một số
đặc trưng nhất định, được trích rút từ những dữ liệu sinh học
và di truyền khác nhau. Tập dữ liệu huấn luyện cho thuật toán
phân loại được tạo thành từ những gene đã biết nhãn phân
loại, tức là đã được xác định chứcnăng từ trước bằng các
phương pháp sinh học.
Để phânloại các GO term theo phâncấp ta đi xây dựng
các tập huấn luyện từ tập các gene (Xi | i = 1,2,3, …n) đã biết
chức năng, mỗi Gene đó được biểu diễn như một vector.
Khi ta xác định chứcnăng của một gene mới (X) tức là ta
đi ta đi xác định xem X có những GO term nào bằng cách đưa
8
nó vào bộ phânloại với tập huấn luyện đã xác định ta sẽ được
GO term của gene đó.
Do tổ chứcphâncấp của các GO term, khi xác định chức
năng của gen thuật toán phânloại cần tính tới phâncấp này.
Đã có một số nghiên cứu tập trung vào việc phát triển kỹthuật
phân loại có tính tới đặc thù phâncấp của GO.
1.3. Kết luận chương
Bộ dữ liệu gene đặc biệt là chứcnăng của gene rất
phương tạp, chứcnăng của gene có ý nghĩa quan trong trong
các nghiên cứu sinh học cũng như y học. Các nghiên cứu và
thực nghiện đã chứng minh phương pháp phânloạiphâncấp
đã nhãn phù hợp với bài toán phânloại và dựđoánchứcnăng
của gene.
Chương 2: PHÂNLOẠIPHÂNCẤPSỬDỤNG CÂY
QUYẾT ĐỊNH
2.1. Giới thiệu chương
Chương 2 tập trung trình bày về phânloạidữ liệu sử
dụng cây quyết định. Phương pháp sửdụng cây quyết định để
phân loạidữ liệu tỏ ra hiệu quả và sửdụng rông rãi trong thực
tế. Dựa trên nền tảng cây quyết định kết hợp với đặc tính phân
9
cấp chứcnăng của gene để hình thành lên cây phânloạiphân
cấp.
2.2. Một số phương pháp phânloạidữ liệu
a. Phânloạidữ liệu (classification)
Phân loạidữ liệu là một bài toán hết sức cơ bản và quan
trọng trong lĩnh vực công nghệ thông tin nói chung và trí tuệ
nhân tạo nói riêng. Phânloạidữ liệu (classification), là việc
phân tích dữ liệu nhằm trích rút các mô hình mô tả các lớp dữ
liệu hoặc dựđoán xu hướng dữ liệu.
b. Phânloại các phương pháp phânloạidữ liệu
Có rất nhiều phương pháp phânloạidữ liệu khác nhau.
Sự khác nhau của các phương pháp phânloại xuất phát từ cơ
sở lý toán học khác nhau cũng như đặc điểm riêng của từng bộ
dữ liệu. Chẳng hạn, dựa vào lý thuyết thống kê có phương
pháp phânloại Bayes; với các dữ liệu dạng số và cơ sở toán
học về khoảng các Eclide có phương pháp phânloại K-mean;
với cấu trúc cây có phương pháp phânloại dựa vào cây quyết
định… Dựa vào tính đơn nhãn hay đa nhãn của dữ liệu có các
phương pháp phânloại đơn nhãn và đa nhãn; dựa vào sựphân
cấp dữ diệu có phương phấp phâncấpphân loại. Từ các
10
phương pháp phânloại trên một loát các thuật toán ra đời như
C4.5, J48, CART, R8, CLUS…
2.3. Cây quyết định
2.3.1. Khái niệm cây quyết định
Cây quyết định là một kiểu mô hình dự báo (predictive
model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện
tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện
tượng. Mỗi một nút trong (internal node) tương ứng với một
biến; đường nối giữa nó với nút con của nó thể hiện một giá
trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dựđoán
của biến mục tiêu, cho trước các giá trị của các biến được biểu
diễn bởi đường đi từ nút gốc tới nút lá đó.
2.3.2. Một số thuật toán học cây quyết định tiêu biểu
Có rất nhiều thuật toán phân lớp như ID3, J48, C4.5,
CART (Classification and Regression Tree),… Việc chọn
thuật toán nào để có hiệu quả phân lớp cao tuy thuộc vào rất
nhiều yếu tố, trong đó cấu trúc dữ liệu ảnh hưởng rất lớn đến
kết quả của các thuật toán. Chẳn hạn như thuật toán ID3 và
CART cho hiệu quả phân lớp rất cao đối với các trường dữ
liệu số (quantitative value) trong khi đó các thuật toán như
[...]... Sự khác nhau giữa phânloại thông thường và phânloạiphâncấp Các phương phânloại thông thường thường dựa trên một số thuộc tính tương đồng để phân loại, sựphânloại theo phương pháp này không tính đến tính phâncấp của chứcnănggene Phương pháp phânloạiphâncấp dựa trên đặc tính phâncấpchứcnăng của gene Phương pháp phânloạiphâncấp là một trường hợp của phương pháp phânloại gom cụm Phương... xác định chứcnăng của gene thực chất là bài toán phânloạiChứcnăng của gene được thể hiện dưới dạng cây phâncấp Mỗi Gene đảm nhận một chứcnăng nào đó và có mối liên hệ với các gene khác Xác định được chứcnăng của gene chính là xác định vị trí tương đối của chúng với các gene khác Do đó, việc giải quyết vấn đề xác định chức chứcnăng của gene cũng chính là phânloạigene dựa vào chức 13 năng của... ra rằng hệ thống CLUS sử dụng phương pháp phânloạiphâncấp để dựđoánchứcnăng của gene nấm men tốt hơn so với các phương pháp khác trước đó Thuật toán phânloạiphâncấp đa nhãn cài đặt trên hệ thống CLUS (CLUS-HMC) có một số ưu điểm nổi bật, thuật toán này cũng đã giải quyết được những vấn để gặp phải ở các phương pháp phânloại khác được sửdụng để dựđoánchứcnăng của gene 22 Kết quả nhận được... năng của chúng Bài toán xác định chứcnăng của gene lúc này quy về bài toán phânloạigene dưới dạng cây phâncấp Kết quả của quá trình dựđoán có độ tin cạy cao sẽ được kiểm tra lại trong phòng thí nghiệm 2.5.2 Thuật toán phânloạiphâncấp đã nhãn (HMC) a Giới thiệu cây quyết định phânloạiphâncấp đa nhãn Phương pháp phânloạiphâncấp đa nhãn (HMC) được xây dựng dựa trên cấu trúc cây quyết định... kết thúc 2.5 Kỹ thuậtsửdụng cây quyết định cho bài toán phânloạiphâncấp 2.5.1 Khảo sát một số phương pháp phânloạiphâncấp a Giới thiệu chung Phânloạiphâncấp là gì ? Xác định một lớp phânloại như một cấu trúc cây Cấu trúc cây được hiểu như là một hệ thống phâncấp xác định trên một tập có thứ tự (C, ≺) Trong đó C là tập hữu hạn liệt kê tất cả các thuộc tính trong lĩnh vực ứng dụng, ≺ đại... nguồn Ở đây các thuộc tính được nhị phân hóa, sửdụng sau khi đã tiền xử lý các quan hệ dữ liệu tương đồng Tập hợp các PCT Phương pháp tập hợp (ensemble) là phương pháp học bằng cách xây dựng một tập phânloại cho 1 nhiệm vụ dựđoán đã đưa ra và phânloại mẫu mới bằng cách kết hợp những dựđoán của mỗi phânloạiKỹthuật học được sửdụng dựa trên cây quyết định Các thuật toán đóng gói các PCT có đầu... Phương pháp phânloạiphâncấp đa nhãn (HMC) thức chất là phânloạidữ liệu dựa vào cây quyết định với cấu trúc cây dạng phâncấp DAG Phương pháp phânloại này chỉ tạo ra một cây duy nhất cho việc dựđoánchứcnăng của gene 16 Chương 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1 Giới thiệu chương Chương 3 tác giả tiến hành cài đặt và chạy thử nghiệm với hệ thông CLUS với bộ dữ liệu đầu vào là bộ gene đã biết chứcnăng Kết... cây dựđoán (PCT) Chúng ta có thể coi hệ thống cây quyết định HCM như một hệ thống cụm phân cấp: nút trên cùng tương ứng với một phân cụm có chứa tất cả các mẫu huấn luyện, sửdụng phương pháp đệ quy để chia thành các phân cụm nhỏ hơn từ trên xuống dưới của cây Các PCT có thể được sửdụng cho cả việc phân cụm và dựđoán các chứcnăng của gene Hệ thống PCT được thực hiện trong chương trình CLUS b Sử dụng. .. trình CLUS b Sử dụng tập hợp cây dựđoán cho HMC Trước khi giải thích những phương pháp cụ thể, chúng ta đi xét ví dụ một phân cụm cây dựđoán để dựđoán các chứcnănggene của chủng S.cerevisiae dựa trên các dữ liệu tương đồng nhau Các chứcnăng tương đồng được xác định tương tự 14 như quá trình tìm kiếm gene mấm men đối với tất cả các gene trong SwissProte Các chứcnăng lấy từ chương trình FunCat... các đối tượng trong các cụm khác Có thể chia các thuật toán gom cụm thành các thuật toán cơ bản sau: phương pháp phân cấp, phương pháp dựa trên mật độ, phương pháp dựa trên lưới và các phương pháp dựa trên mô hình Phânloạiphâncấp là tạo phâncấp cụm, chứ không phải là phân hoạch đơn thuần các đối tượng, không quan tâm đến số cụm khi gom cụm Việc phâncấp cụm thường tạo ra cây các cụm, các lá của cây . đến tính phân cấp của chức năng
gene. Phương pháp phân loại phân cấp dựa trên đặc tính phân
cấp chức năng của gene.
Phương pháp phân loại phân cấp là. với bộ dữ liệu gene nấm men.
5
Chương 1: TỔNG QUAN VỀ GENE VÀ DỰ ĐOÁN
CHỨC NĂNG GENE
1.1.1. Chức năng của gene và phân loại chức năng gene
1.1.2.