1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu các phương pháp trích chọn các thuộc tính đặc trưng để phát triển thuật toán hiệu quả nhằm phân lớp số liệu lớn đặc biệt trong tin sinh học đề tài NCKH QG 08 01

89 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 89
Dung lượng 41,93 MB

Nội dung

Đ Ạ I H Ọ C Q U Ố C G IA H À N Ộ I N G H IÊ N CỬU C Á C PH Ư Ơ NG PH Á P T R ÍC H C H Ọ N C Á C T H U Ộ C TÍN H Đ ẶC T R Ư N G Đ Ẻ PH Á T TR IẺN T H U Ậ T T O Á N H IỆ U Q UẢ N H Ằ M PH ÂN LỚ P SÓ L IỆU LỚN Đ Ặ C B IỆ T T R O N G T IN SIN H H Ọ C M ã số: Q G C h ủ n h iệ m đề tài: N g u y ễ n H N a m Hà N ộ i-2 Mục lục a ■ Mục lụ c i Danh mục hinh v ẽ ii Danh mục bảng b iể u iii Danh sách cán tham gia thực đề tài V Summ ary vi Tóm tắt kết đề tài .viii Tên đề t i .viii Chủ trì đề t i viii Những kết (^uả viii a Ket khoa h ọ c viii b Ket phục vụ thực tế viii c Ket đào tạ o ix d Kết nâng cao tiềm lực khoa học ix e Tình hình sử dụng kinh phí ix Nội dung đề t i 1 Đặt vấn đ ề Giới thiệu trích chọn nội dung Phương pháp đề xuất 4 Ket thực nghiệm 11 4.1 Dữ liệu M adelon 11 4.1.3 Nhận x é t 15 4.2 Bộ liệu Colon T urm o 16 4.2.1 Mô tả liệu Colon Tiirm o .16 4.2.2 Kết thực nghiệm với liệu Colon Turmo 16 4.2.3 Nhận x é t T 20 KẾT LUẬN 21 Tài liệu tham k h ả o 23 Danh mục hình vẽ ■ Hình 1: íiướng tiếp cận filter (các thuộc tính chọn độc lập với thuật toán khai phá liệu) [1 ] Hình 2; Hướng tiếp cận vvrapper (các thuộc tính chọn phụ thuộc theo nghĩa vóã thuật tốn khai phá liệu) [1 ] Hình 3; Ba cách tiếp cận trích chọn nội dung Phần tô màu xám cho biết thành phần mà hướng tiếp cận sử dụng để đưa kết cuối c ù n g Hình 4: Mơ hình học máy đề xuất dựa thuật toán Random P o rest H ình 5: So sánh kết thực nghiệm RF RP_CT liệu học (trái) liệu kiểm chứng ( phải) qua 501ần chạy thừ với số RF=100 12 Hình 6: So sánh kết thực nghiệm RF RP_CT liệu học (trái) liệu kiểm chứng ( phải) qua 501ần chạy thử với số ư-ong RF=150 13 Hình 7: So sánh kết thực nghiệm RF RF_CT liệu học (ưái) liệu kiểm chứng ( phải) qua 501ần chạy thừ với số RF=200 14 Hình 8: So sánh kết thực nghiệm RF RF CT liệu học (trái) liệu kiểm chứng ( phải) qua 50 lần chạy thừ với số R f= 15 H ình 9: So sánh kết tíiực nghiệm RF RF_CT liệu Colon Tunno qua 20 lần chạy ứiử với số Rp=800 17 Hình 10: So sánh kết thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy ứiử với số RF=1100 18 Hình 11: So sánh kết thực nghiệm giừa RF RF_CT liệu Colon Turmo qua 20 flần chạy thử với số RF=1400 19 Hình 12: So sánh kết thực nghiệm RF RP_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=1700 20 Danh mục bảng biểu B ảng 1: Kết thực nghiệm RF RF_CT liệu học liệu kiêm chứng qua 50 lần chạy thử với số RF= 100 11 Bảng 2: Mức tiêu tốn thòã gian nhiều để thực thuật toán cùa RF_CT so với Rp liệu Madelon qua 50 lần chạy thừ với số RF=100 12 Bảng 3: Kết thực nghiệm RF RF_CT ỉiệu học liệu kiêm chứng qua 50 lần chạy thừ với số RF=150 12 Bảng 4: Mức tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với Rp ừên liệu Madelon qua 50 lần chạy thừ với số RF=150 13 B ảng 5: Kết thực nghiệm RF RF_CT liệu học liệu kiểm chứng qua 50 lần chạy thử với số Rp=200 13 Bảng 6: Mức tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Madelon qua 50 lần chạy thừ với số R p=200 14 Bảng 7: Kết thực nghiệm RF RF_CT liệu học liệu kiêm chứng qua 501ần chạy thừ với số Rp=250 14 Bảng 8: Mức tiêu tốn ứiàd gian nhiều để thực thuật toán RF_CT so với RF liệu Madelon qua 50 lần chạy thử với số R p=250 15 Bảng 9; So sánh số kết dự đoán sử dụng số liệu Colon Turmo 16 Bảng 10: Kết ứiực nghiệm Rp RP_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=800 17 Bảng 11: Độ tiêu tốn thời gian nhiều hom để thực thuật toán RP_CT so với RF liệu Colon Turmo qua 20 lần chạy thừ với số RF=800 17 Bảng 12: Kết tíiực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF= 1100 18 Bảng 13: Độ tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Colon Turmo qua 20 lần chạy thừ với số RF=1100 18 Bảng 14: Ket thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=1400 19 Bảng 15: Độ tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Colon Turmo qua 20 lần chạy thử với số R F=1400 19 Bảng 16: Kct thực nghiệm RF ííi^ CT liệu Colon Turmo qua 20 lần chạy thừ với số RF=1700 20 111 Bảng 17: Độ tiêu tốn thời gian nhiều đế thực thuật toán RF_CT so với R f liệu Colon 'í urmo qua 20 lần chạy thừ với siố RF=1700 20 Bảng 18: So sánh số kết dự đoán sử dụng số liệu Colion T urm o 21 IV Danh sách cán tham gia ỉhực đề tài STl Họ tên Nguyên Hà Nam Học hàm học vị TS Cơ quan cônig tác Khoa Công nghệ thông tin, ĐH Công nghệ DHQGHN Nguyên Tuệ TS Khoa Công nghệ thông tin, ĐH Công nghệ ĐHQGHN Nguyên Trí Thành TS Khoa Cơng nghệ thơng tin, ĐH Cơng nghệ ĐHQGHN Đặng Tât Đạt ThS Khoa Toán-Cơ Tin học, trường ĐH Tự Nhiên, ĐHQGHN Nguyên Thị Thủy s v K50 Khoa Công nghệ thông tin, ĐH Công nghệ ĐHQGHN Trân Phương Nhung s v K50 Khoa Công nghệ thông tin, ĐH Cơng nghệ ĐHQGHN Tóm tắt kết đề tài Tên đề tài T iếng V iệt: Nghiên cứu phưom g p h p lựa chọn thuộc tính đặc trưng để phá triên thuật toán hiệu nhằm phân lớp số liệu lớn đặc biệt tin sinh học Tiếng Anh: Studying Peature selection methods fo r developing the effective algorithm to classịỷỳ the high dim ension data especially in Bioinformatic M ã số: Q G 1 Chủ trì đề tài N gười chủ trì: T S N guyễn H N am C quan c ô n g tác: T rư ng Đ ại học C ông nghệ, Đại học Q uốc gia H N ội Đ ịa chỉ: 144 Đ n g X uân T hủy, c ầ u Giấy, H Nội Điện thoại: (0 )7 Những kết quà a K ết khoa học • 01 báo khoa học hội thảo vấn đề đại C N TT lại Đ ồng N ai, 07/2009 • 01 báo khoa học tạp chí ĐH Quốc G ia H Nội, số • 02 báo k h o a học đăng hội nghị quốc tế KSE tổ chức Hà N ội, Iháng 9/2009 b Kết phục vụ thực tế C húng tơi hồn thành chương trình mơ thuật tốn phân lớp dựa tìm đặc trư ng tối ưu liệu đầu vào thông qua lối ưu hàin nhân C ác kết nghiên cứu đề tài cho thấy, phương pháp chúnẹ đề nghị cài đặt có khả phân lớp tốt so với thuật tốn ban đầu Phư ơng pháp có khả m rộng khả học cách thêm VIII Nội dung đề tài Đặt vấn đề Trong lĩnh vực nghiên cứu khai phá liệu nói chung nghiên cứu th u ật tốn phân lóp nói riêng, vấn đề xử lý liệu lớn ngày trở thành vấn đề cấp thiết đóng vai trị chủ đạo việc giải toán thự c tế P hần lớn thuật toán phân lớp phát triển giải với m ột lượng số liệu giới hạn với m ột độ phức tạp liệu biết trước T rong lượng liệu m thu thập ngày trở nên phong ph ú đa dạng nhờ phát triển mạnh mẽ khoa học kỹ thuật Mặc dù nhiều thuật toán ph ân lớp dựa nhiều tảng lý thuyết khác p h át triển v ứ ng dụng từ lâu, thực tể cho thấy kết phụ thuộc n h iều vào đặc tính liệu khả xử lý liệu thơ nhóm nghiên cứu M ột điều hiển nhiên với phương pháp đáp ứng xử lý tố t m ột vài liệu v ứng dụng cụ thể N gày với trợ giúp hệ thống tự động hóa v hệ thống trợ giúp ngày tinh vi hơn, khối lư ợ n g liệu cần phải xử lý tăng với tốc độ chóng mặt N gười la ước đốn rằ n g lư ợ ng th ô n g tin tồn cầu tăng gấp đơi sau khoảng hai năm theo số lư ợ n g cũ n g k ích c ỡ sở liệu (C SD L) tăng lên cách n h an h chóng Trong k h p h liệu phư n g pháp trích chọn đóng m ột vai trị quan trọng để trích ch ọ n v chuẩn bị liệu H ướng tiếp cận làm tăng hiệu thu nhận tri th ứ c ngành nh tin sinh, xử lý liệu w eb, xử lý tiếng nói, hình ảnh với đặc tín h có nhiều thuộc tích (vài trăm vài trăm ngàn thuộc tính) n h n g th n g có m ộ t số lượng tirorng đối nhỏ m ẫu dùng để huấn luyện (th n g vài trăm ) Phưomg pháp trích chọn giúp giảm kích cỡ không gian liệu, loại bỏ n hữ ng thuộc tính khơng liên quan thuộc tính nhiễu P hư ơng pháp có ảnh hư n g đến ứng dụng tăng tốc độ th u ật toán khai phá liệu, cải thiện chất lượng liệu tăng hiệu suất khai p h liệu, kiểm soát kết cùa thuật toán Phương pháp giới thiệu từ n hữ ng năm 1970 tài liệu xác suất thống kê, học máy khai phá dừ liệu [1-7] T rong thời gian gần đây, cànạ ngày có nhiều nhà nghiên cứu tìm cách áp dụng liirớng tiếp cận trích chọn đặc trưng nhằm làm tăng hiệu kỹ thuật phân tích số liệu trích lọc thơng tin Đặc biệt ứng dụng m lượng liệu lớn ảnh hưởng tcri tốc độ chất lượng kết phân tích số liệu Trong nghiên cứu náy, chúng tơi hướng tới việc tìm hiểu m ột số kỹ thuật nhằm giảm chiểu liệu nhằm tăng hiệu phân tích, dự báo dự đốn Giới thiệu trích chọn nội dung V iệc bóc tách thuộc tính đặc trưng thơng thường bao gồm hai phần xây dựng thuộc tính lự a chọn thuộc tính đặc trưng có ich cho m ột nhiệm vụ cụ thể X ây dự ng thuộc tính cơng việc quan trọng việc xử lý số liệu K hi xây dựng liệu cần phải đảm bảo không để m ất nhiều thông tin q u cũ n g n h không tốn mặt chi phí Phần thứ hai, chủ đề đề tài này, có mục tiêu tìm thuộc tính đại diện cho đối tượng, loại bỏ n h ữ n g thuộc tính thừa gây nhiễu nhằm tăng hiệu suất thuật toán khai p h liệu C ó nhiều phương pháp n h hướng tiếp cận khác b ao gồm ph n g pháp kinh điển [1-3] với liệu tưofng đối nhỏ hư ng tiếp cận đại [5-7] Tuy chúng có m ột số yêu cầu chung sau: G iảm liệu cần lưu trữ tăng tốc độ thuật tốn (tính tốn liệu đó) G iảm thuộc tín h nhằm tiết kiệm khơng gian lưu trữ T ăng cư n g hiệu q uả thuật toán: nhằm thu tỷ lệ dự đoán cao Có kiến th ứ c v ề d ữ liệu: thu tri thức liệu thơng qua phư ng ph áp bóc tách liệu để tạo hay biểu diễn liệu dễ dàng v ề ch ú n g ta phân loại phương pháp trích chọn theo cách tiếp cận khác filter/w rapper, trình bày kỹ tài liệu [1, 2] Lược đồ thực hai cách tiếp cận giản lược hóa hình vẽ Trich lọc tập cúa danh sách thuộc tinh Dữ liệu Hình 1: Thuật toén phản lớp Hướng tiếp cận filter (các thuộc tính chọn độc lâp với thuật tốn khai phá liệu) [1 ] Tìm kiếm Tập Uìuộc tính lựa ctìọn Đánh giá kết Dử liệu huán luyẻn Tập thuộc tinh Thuặt toán phân lớp (Kiém chứng) Đ n h giá thuộc tính Tặp thuộc tinh lựa chọn _ Tinh toán giả thiét T h u ậ t toán phân lớp Dữ liệu kiểm tra Thuật toán phân lớp (Dự đoán) Đánh glá két Hình 2; Hướng tiếp cận wrapper (các thuộc tính chọn phụ thuộc theo nghĩa với thuật tốn kliai phá liệu) [1] Để hồn th àn h đượ c thuật tốn trích chọn nội dung cần phải thực m ột số cô n g việc sau: P h n g pháp để sinh tập th u ộ c tính đặc trưng (có thể hiểu tương ứng với ch iến lược tìm kiếm ) Đ ịn h n g h ĩa cách / hàm đánh giá (đưa tiêu chí để xác định m ộ t thuộc tính hay nhóm thuộc tính tốt hay khơng tổt) c lư ợ ng hàm đánh giá (kiểm chứng lại xem hàm đánh giá có thục ph ù hợ p v hiệu với d ữ liệu khơng) ĐẠI HỌC QUỔC GIA Í IA N ộ ] ĐỀ CƯƠNG ĐỀ TÀI NGHIÊN CỨU KHOA HỌC ĐẶC BIỆT CẤP ĐẠI HỌC Q ó c GIA HÀ NỘI Tên đề tài NGHIÊN CỨU CÁC PHƯƠNG PHÁP TRÍCH CHỌN CÁC THUỘC TÍNH ĐẶC TRƯNG ĐÈ PHÁT TRIỂN THUẬT TOÁN HIỆU QUẢ NHẲM PHÂN LỚP s ố LIỆU LỞN ĐẶC BIỆT TRONG TIN SINH HỌC M ã số: QG.08.01 Đ n vị chủ trì: T rư ờng Đ ại học Công N ghệ N gư i chủ trì: TS N guyễn Hà Nam H À N Ộ I - 2008 ĐẠI HỌC QUỐC GIA HÀ NỘI ĐÈ CƯƠNG ĐÈ TÀI NGHIÊN c ứ u KHOA HỌC ĐẶC BIỆT CÁP ĐẠI HỌC QUÓC GIA HÀ NỘI NÃM 2008 Tên đề tài ỉng Việt: '

Ngày đăng: 02/10/2020, 11:11

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w