1. Trang chủ
  2. » Tất cả

Luận văn thạc sĩ công nghệ thông tin sử dụng cây quyết định để phân loại dữ liệu nhiễu

20 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM LẠI ĐỨC HÙNG SỬ DỤNG CÂY QUYẾT ĐỊNH ĐỂ PHÂN LOẠI DỮ LIỆU NHIỄU LUẬN VĂN THẠC SĨ Chuyên ngành Công Nghệ Thông Tin Mã ngành 60480201 TP HỒ CHÍ MINH[.]

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM LẠI ĐỨC HÙNG SỬ DỤNG CÂY QUYẾT ĐỊNH ĐỂ PHÂN LOẠI DỮ LIỆU NHIỄU LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60480201 TP HỒ CHÍ MINH, tháng 07 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM LẠI ĐỨC HÙNG SỬ DỤNG CÂY QUYẾT ĐỊNH ĐỂ PHÂN LOẠI DỮ LIỆU NHIỄU CÁN BỘ HƢỚNG DẪN KHOA HỌC PGS TS LÊ HỒI BẮC LUẬN VĂN THẠC SĨ Chun ngành: Cơng Nghệ Thơng Tin Mã ngành: 60480201 TP HỒ CHÍ MINH, tháng 07 năm 2015 CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hƣớng dẫn khoa học: PGS TS LÊ HOÀI BẮC Luận văn Thạc sĩ đƣợc bảo vệ Trƣờng Đại học Công nghệ TP HCM (HUTECH) ngày tháng năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: Họ Tên TT Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thƣ ký Xác nhận Chủ tịch Hội đồng đánh giá Luận văn sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƢỜNG ĐH CƠNG NGHỆ TP HCM CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng… năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Lại Đức Hùng Giới tính : Nam Ngày, tháng, năm sinh : 26 – 05 – 1983 Nơi sinh : Hải Phòng Chuyên ngành : Công Nghệ Thông Tin MSHV : 1341860006 I- Tên đề tài: SỬ DỤNG CÂY QUYẾT ĐỊNH ĐỂ PHÂN LOẠI DỮ LIỆU NHIỄU II- Nhiệm vụ nội dung: - Nghiên cứu định việc khai thác liệu - Nghiên cứu liệu nhiễu - Áp dụng định để phân loại liệu nhiễu cách hiệu - Nghiên cứu, cải tiến thuật toán phân loại liệu nhiễu định III- Ngày giao nhiệm vụ: 18-08-2014 IV- Ngày hoàn thành nhiệm vụ: 15-06-2015 V- Cán hƣớng dẫn: Phó Giáo Sƣ Tiến Sĩ Lê Hoài Bắc CÁN BỘ HƢỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) (Họ tên chữ ký) i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chƣa đƣợc cơng bố cơng trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn nhƣ trích dẫn hay tài liệu học thuật tham khảo đƣợc cảm ơn đến tác giả thơng tin trích dẫn Luận văn đƣợc rõ nguồn gốc Học viên thực Luận văn ii LỜI CÁM ƠN Trƣớc hết, cho đƣợc gửi lời cảm ơn đến hƣớng dẫn giúp đỡ tận tình PGS.TS Lê Hồi Bắc Xin cảm ơn bạn Trần Cơng Mua, Phạm Hữu Nhơn sát cánh cung cấp cho tơi kiến thức q báu suốt thời gian học tập nghiên cứu thực luận văn Tơi xin gởi lời cảm ơn đến gia đình, bạn bè ngƣời thân quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hoàn thành luận văn Luận văn khơng thể tránh khỏi sai sót, mong nhận đƣợc ý kiến đóng góp ngƣời cho luận văn đƣợc hồn thiện Tơi xin chân thành cảm ơn TP Hồ Chí Minh, tháng 07 năm 2015 LẠI ĐỨC HÙNG iii TÓM TẮT Phân loại liệu nhiễu lĩnh vực quan trọng khai thác liệu Thực tế hầu hết sở liệu có độ nhiễu định Do cần phƣơng pháp để phân loại liệu nhiễu cách hiệu C4.5 đƣợc biết đến nhƣ phƣơng pháp phổ biến, hiệu để xây dựng định Tuy nhiên khơng phù hợp với sở liệu nhiễu Để phân loại liệu nhiễu hiệu hơn, luận văn xây dựng thuật toán cải tiến từ thuật toán C4.5 gọi NC4.5 NC4.5 sử dụng xác suất khơng xác (imprecise probabilities) độ đo lƣờng khơng chắn (uncertainty measures) để phân loại liệu nhiễu tốt NC4.5 sử dụng tiêu chuẩn phân loại áp dụng cho thông tin nhiễu (Impercise Information Gain Ratio) Kết thực nghiệm với liệu nhiễu cho thấy thuật tốn cho kết định có kích thƣớc nhỏ hiệu thực thi tốt C4.5 số thuật toán khác iv ABSTRACT Noise data classification is very important in data mining Most database of real applications contain noisy data We need a good method to classify noisy data C4.5 is a known algorithm widely used to design decision trees But it is not good to classify noisy data To have a better algorithm for noisy data, called NC4.5, this paper proposes to improve C4.5 algorithm by using imprecise probabilities and uncertainty measures NC4.5 uses a new split criterion, called Imprecise Information Gain Ratio, applying uncertainty measures on convex sets of probability NC4.5 assume that the training set is not fully reliable The experimental result show that NC4.5 produce smaller trees and better performance than C4.5 and some other algorithms v MỤC LỤC TÓM TẮT iii ABSTRACT iv DANH MỤC CÁC BẢNG viii DANH MỤC CÁC HÌNH ix CHƢƠNG MỞ ĐẦU 1.1 LÝ DO CHỌN ĐỀ TÀI 1.2 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN 1.3 MỤC ĐÍCH CỦA ĐỀ TÀI 1.4 ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU 1.5 PHƢƠNG PHÁP NGHIÊN CỨU CHƢƠNG TỔNG QUAN VỀ KHAI THÁC VÀ PHÂN LOẠI DỮ LIỆU 2.1 GIỚI THIỆU 2.1.1 Các vấn đề liên quan đến phân lớp liệu 2.1.2 Các phƣơng pháp đánh giá độ xác mơ hình phân lớp 2.2 CÂY QUYẾT ĐỊNH 10 2.2.1 Cây định 10 2.2.2 Các vấn đề khai phá liệu sử dụng định 11 2.2.3 Đánh giá định lĩnh vực khai phá liệu 13 2.2.4 Xây dựng định 15 2.3 CÁC THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH 16 2.3.1 Tƣ tƣởng chung 16 2.3.2 Thuật toán ID3 18 2.3.3 Thuật toán C4.5 21 vi CHƢƠNG SỬ DỤNG CÂY QUYẾT ĐỊNH ĐỂ PHÂN LOẠI DỮ LIỆU NHIỄU 24 3.1 GIỚI THIỆU 24 3.2 CÂY QUYẾT ĐỊNH CREDAL 27 3.3 THUẬT TOÁN N.C4.5 29 CHƢƠNG THỰC NGHIỆM – ĐÁNH GIÁ KẾT QUẢ 32 4.1 BỘ DỮ LIỆU 33 4.2 ĐÁNH GIÁ THỰC NGHIỆM 34 CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 53 5.1 KẾT LUẬN 53 5.2 HƢỚNG PHÁT TRIỂN 53 vii DANH MỤC CÁC TỪ VIẾT TẮT Ký hiệu, viết tắt Ý nghĩa tiếng Việt Ý nghĩa tiếng anh CSDL Cơ sở liệu Database IDM Mơ hình khơng xác Dirichlet Imprecise Dirichlet Model IG Độ đo thông tin Information Gain IIGR Tiêu chuẩn đo lƣờng khơng xác Imprecise Information Gain Ratio IGR Tỉ số độ đo thông tin Information Gain Ratio GPU Bộ xử lý đồ họa Graphics Processing Unit Item Mục Item viii DANH MỤC CÁC BẢNG ng 4.1 Liệt kê đặc tính liệu thực nghiệm 33 ng 4.2 t qu v độ ác 4.5 4.5 kh ng t a áp dụng với tập liệu có độ nhiễu ngẫu nhiên 0% 34 ng 4.3 t qu v độ ác 4.5 4.5 kh ng t a áp dụng với tập liệu có độ nhiễu ngẫu nhiên 10% 37 ng 4.4 t qu v độ ác 4.5 4.5 kh ng t a áp dụng với tập liệu có độ nhiễu ngẫu nhiên 30% 39 ng 4.5 t qu v độ ác 4.5 4.5 kh ng t a áp dụng với tập liệu có độ nhiễu ngẫu nhiên 0%; 10% 30% 41 ng 4.6 t qu v kích th ớc trung b nh c cho 4.5 4.5 kh ng t a áp dụng tập liệu có độ nhiễu ngẫu nhiên 0%; 10% 30% 42 ng 4.7 Độ xác C4.5, NC4.5 ID3 (có tỉa) đƣợc áp dụng tập liệu với độ nhiễu ngẫu nhiên 0% .43 ng 4.8 ộ ác 4.5 4.5 có t a đ c áp dụng tập liệu với độ nhiễu ngẫu nhiên 10% 46 ng 4.9 ộ ác 4.5 4.5 có t a đ c áp dụng tập liệu với độ nhiễu ngẫu nhiên 30% .48 ng 4.10 đ ộ ác trung b nh 4.5 4.5 and có t a c áp dụng tập liệu với độ nhiễu ngẫu nhiên 0%; 10% 30% 50 ng 4.11 t a đ t qu trung b nh v kích th ớc c 4.5 4.5 có c áp dụng tập liệu có độ nhiễu ngẫu nhiên 0%; 10% 30% 51 ix DANH MỤC CÁC HÌNH nh 2.1 ớc dựng m h nh ph n lớp .4 nh 2.2 Ước l ng độ ác m h nh .5 nh 2.3 h n lớp liệu nh 2.4 - Ước l ng độ ác m h nh ph n lớp với ph ơng pháp holdout nh 2.5 Ví dụ v c nh 2.6 qu t định 11 gi thuật toán ph n lớp liệu dựa c nh 3.1 ự ph n nhánh n t liệu nhiễu đ qu t định 17 c thực b i 4.5 .25 nh 3.2 ự ph n nhánh n t liệu đ c thực b i 4.5 26 nh 3.3 ự ph n nhánh n t liệu nhiễu đ c thực b i c qu t định credal .27 nh 4.1 Giao diện ch ơng tr nh 32 nh 4.2 iểu đồ so sánh độ v độ ác 4.5 4.5 kh ng t a áp dụng với tập liệu có độ nhiễu ngẫu nhiên 0% 36 nh 4.3 iểu đồ so sánh độ v độ ác 4.5 4.5 kh ng t a áp dụng với tập liệu có độ nhiễu ngẫu nhiên 10% 38 nh 4.4 iểu đồ so sánh độ v độ ác 4.5 4.5 kh ng t a áp dụng với tập liệu có độ nhiễu ngẫu nhiên 30% 40 nh 4.5 iểu đồ so sánh độ v độ ác 4.5 NC4.5, ID3 (không t a áp dụng với tập liệu có độ nhiễu ngẫu nhiên 0%; 10% 30% .41 nh 4.6 4.5 iểu đồ so sánh v kích th ớc trung b nh c tạo b i 4.5 kh ng t a áp dụng với tập liệu có độ nhiễu ngẫu nhiên 0%; 10% 30% 42 x nh 4.7 iểu đồ so sánh độ v độ ác 4.5 4.5 có t a áp dụng với tập liệu có độ nhiễu ngẫu nhiên 0% 45 nh 4.8 iểu đồ so sánh độ v độ ác 4.5 4.5 có t a áp dụng với tập liệu có độ nhiễu ngẫu nhiên 10% .47 nh 4.9 iểu đồ so sánh độ v độ ác 4.5 4.5 có t a áp dụng với tập liệu có độ nhiễu ngẫu nhiên 30% .49 nh 4.10 iểu đồ so sánh độ v độ ác 4.5 4.5 có t a áp dụng với tập liệu có độ nhiễu ngẫu nhiên 0%; 10% 30% 50 nh 4.11 iểu đồ so sánh v kích th ớc trung b nh c 4.5 tạo b i C4.5, có t a áp dụng với tập liệu có độ nhiễu ngẫu nhiên 0%; 10% 30% 51 CHƢƠNG MỞ ĐẦU 1.1 LÝ DO CHỌN ĐỀ TÀI Sự phát triển công nghệ thông tin ứng dụng tạo sở liệu lớn Việc khai thác thơng tin hữu ích từ sở liệu quan trọng Khai phá liệu áp dụng nhiều lĩnh vực nhƣ: phân tích liệu tài chính, cơng nghệ bán hàng, cơng nghệ viễn thơng, phân tích liệu sinh học, phân tích liệu sinh học, … Tuy nhiên thực tế đầu vào, trình vận hành, xử lý mà kho liệu có độ nhiễu định Dữ liệu nhiễu liệu bị mất, thiếu thuộc tính, hay khơng đồng …Ứng dụng lớn, thời gian vận hành ứng dụng lâu liệu dễ bị nhiễu Dữ liệu bị nhiễu nhiều nguyên nhân nhƣ: lỗi vận hành phần cứng, lỗi thiết bị nhập liệu, thiết bị quét liệu, lỗi lập trình, lỗi ngƣời nhập liệu, vận hành Các thuật toán, phƣơng pháp khai phá liệu nhƣ C4.5, ID3,.… giả định liệu hoàn toàn sạch, không bị nhiễu Do áp dụng phƣơng pháp, thuật toán vào khai thác liệu thực tế gặp khó khăn kết khơng thực tốt, đáng tin cậy Do cần phƣơng pháp, thuật tốn khai thác, phân loại liệu nhiễu cách hiệu 1.2 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN Ý Nghĩa khoa học luận văn: nghiên cứu đƣợc phƣơng pháp phân loại nhiễu cách hiệu Từ góp phần làm phong phú, hiệu việc khai thác liệu, liệu nhiễu 2 Ý Nghĩa thực tiễn luận văn: Phần lớn sở liệu ứng dụng thực tế có đỗ nhiễu định Do khai thác đƣợc liệu nhiễu cách hiệu có ích lợi lớn nhiều lĩnh vực đời sống, khoa học Khi phân loại liệu nhiễu tốt ta áp dụng để phân tích liệu tài chính, cơng nghệ bán hàng, cơng nghệ viễn thơng, phân tích liệu sinh học, phân tích liệu sinh học, … 1.3 MỤC ĐÍCH CỦA ĐỀ TÀI Áp dụng định để phân loại liệu nhiễu Đƣa thuật toán dựa định để khai thác liệu bị nhiễu từ đƣa đƣợc thơng tin hữu ích 1.4 ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU Đối tƣợng nghiên cứu đề tài liệu nhiễu thuật toán định Phạm vi đề tài thuật toán khai thác liệu nhiễu dựa định 1.5 PHƢƠNG PHÁP NGHIÊN CỨU - Tiến hành thu thập đọc tài liệu có liên quan đến đề tài - Nghiên cứu tổng quan liệu nhiễu khái niệm có liên quan - Nghiên cứu định thuật toán khai thác liệu dựa định - Nghiên cứu áp dụng thuật toán dựa định để phân loại liệu nhiễu hiệu - Xây dựng chƣơng trình demo đánh giá kết đạt đƣợc 3 CHƢƠNG TỔNG QUAN VỀ KHAI THÁC VÀ PHÂN LOẠI DỮ LIỆU 2.1 GIỚI THIỆU Ngày phân lớp liệu (classification) hƣớng nghiên cứu khai phá liệu Thực tế đặt nhu cầu từ sở liệu với nhiều thông tin ẩn ngƣời trích rút định nghiệp vụ thơng minh Phân lớp dự đốn hai dạng phân tích liệu nhằm trích rút mơ hình mơ tả lớp liệu quan trọng hay dự đoán xu hƣớng liệu tƣơng lai Phân lớp dự đoán giá trị nhãn xác định (categorical label) hay giá trị rời rạc (discrete value), có nghĩa phân lớp thao tác với đối tƣợng liệu mà có giá trị biết trƣớc Trong đó, dự đốn lại xây dựng mơ hình với hàm nhận giá trị liên tục Ví dụ mơ hình phân lớp dự báo thời tiết cho biết thời tiết ngày mai mƣa, hay nắng dựa vào thông số độ ẩm, sức gió, nhiệt độ,… ngày hơm ngày trƣớc Hay nhờ luật xu hƣớng mua hàng khách hàng siêu thị, nhân viên kinh doanh có thểra sách đắn lƣợng mặt hàng nhƣ chủng loại bày bán… Một mơ hình dự đốn dự đốn đƣợc lƣợng tiền tiêu dùng khách hàng tiềm dựa thông tin thu nhập nghề nghiệp khách hàng Trong năm qua, phân lớp liệu thu hút sựquan tâm nhà nghiên cứu nhiều lĩnh vực khác nhƣhọc máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics) Công nghệ ứng dụng nhiều lĩnh vực khác nhƣ: thƣơng mại, nhà băng, maketing, nghiên cứu thị trƣờng, bảo hiểm, y tế, giáo dục Phần lớn thuật toán đời trƣớc sử dụng chế liệu cƣ trú nhớ (memory resident), thƣờng thao tác với lƣợng liệu nhỏ Một số thuật toán đời sau sử dụng kỹ thuật cƣ trú đĩa cải thiện đáng kể khả mở rộng thuật toán với tập liệu lớn lên tới hàng tỉ ghi [14] Quá trình phân lớp liệu gồm hai bƣớc: Bƣớc thứ (learning) Quá trình học nhằm xây dựng mơ hình mơ tả tập lớp liệu hay khái niệm định trƣớc Đầu vào q trình tập liệu có cấu trúc đƣợc mơ tả thuộc tính đƣợc tạo từ tập giá trị thuộc tính Mỗi giá trị đƣợc gọi chung phần tử liệu (data tuple), mẫu (sample), ví dụ (example), đối tƣợng (object), ghi (record) hay trƣờng hợp (case) Ta sử dụng thuật ngữ với nghĩa tƣơng đƣơng Trong tập liệu này, phần tử liệu đƣợc giả sử thuộc lớp định trƣớc, lớp giá trị thuộc tính đƣợc chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class label attribute) Đầu bƣớc thƣờng quy tắc phân lớp dƣới dạng luật dạng if-then, định, công thức logic, hay mạng nơron Q trình đƣợc mơ tả nhƣ hình sau nh 2.1 ớc dựng m h nh ph n lớp [1] Bƣớc thứ hai (classification) Bƣớc thứ hai dùng mô hình xây dựng bƣớc trƣớc để phân lớp liệu Trƣớc tiên độ xác mang tính chất dự đốn mơ hình phân lớp vừa tạo đƣợc ƣớc lƣợng Holdout kỹ thuật đơn giản để ƣớc lƣợng độ xác Kỹ thuật sử dụng tập liệu kiểm tra với mẫu đƣợc gán nhãn lớp Các mẫu đƣợc chọn ngẫu nhiên độc lập với mẫu tập liệu huấn luyện Độ xác mơ hình tập liệu kiểm tra đƣa tỉ lệ phần trăm các mẫu tập liệu kiểm tra đƣợc mơ hình phân lớp (so với thực tế) Nếu độ xác mơ hình đƣợc ƣớc lƣợng dựa tập liệu huấn luyện kết thu đƣợc khả quan mơ hình ln có xu hƣớng “q khớp” liệu Quá khớp liệu tƣợng kết phân lớp trùng khít với liệu thực tế q trình xây dựng mơ hình phân lớp từ tập liệu huấn luyện kết hợp đặc điểm riêng biệt tập liệu Do cần sử dụng tập liệu kiểm tra độc lập với tập liệu huấn luyện Nếu độ xác mơ hình chấp nhận đƣợc, mơ hình đƣợc sử dụng để phân lớp liệu tƣơng lai, liệu mà giá trị thuộc tính phân lớp chƣa biết nh 2.2 Ước l ng độ ác m h nh [1] nh 2.3 Ph n lớp liệu [1] Trong mơ hình phân lớp, thuật tốn phân lớp giữ vai trò trung tâm, định tới thành cơng mơ hình phân lớp Do chìa khóa vấn đề phân lớp liệu tìm đƣợc thuật toán phân lớp nhanh, hiệu quả, có độ xác cao có khả mở rộng đƣợc Trong khả mở rộng đƣợc thuật toán đƣợc đặc biệt trú trọng phát triển [14] Các kỹ thuật phân lớp thƣờng đƣợc sử dụng:  Phân lớp định (Decision tree classification)  Bộ phân lớp Bayesian (Bayesian classifier)  Mơ hình phân lớp K-hàng xóm gần (K-nearest neighbor classifier)  Mạng nơron  Phân tích thống kê  Các thuật tốn di truyền  Phƣơng pháp tập thô (Rough set Approach) ... HỌC CÔNG NGHỆ TP HCM LẠI ĐỨC HÙNG SỬ DỤNG CÂY QUYẾT ĐỊNH ĐỂ PHÂN LOẠI DỮ LIỆU NHIỄU CÁN BỘ HƢỚNG DẪN KHOA HỌC PGS TS LÊ HOÀI BẮC LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin. .. ngành : Công Nghệ Thông Tin MSHV : 1341860006 I- Tên đề tài: SỬ DỤNG CÂY QUYẾT ĐỊNH ĐỂ PHÂN LOẠI DỮ LIỆU NHIỄU II- Nhiệm vụ nội dung: - Nghiên cứu định việc khai thác liệu - Nghiên cứu liệu nhiễu. .. độ nhiễu định Do cần phƣơng pháp để phân loại liệu nhiễu cách hiệu C4.5 đƣợc biết đến nhƣ phƣơng pháp phổ biến, hiệu để xây dựng định Tuy nhiên khơng phù hợp với sở liệu nhiễu Để phân loại liệu

Ngày đăng: 27/02/2023, 07:55

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN