Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 35 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
35
Dung lượng
1,02 MB
Nội dung
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN - - BÁO CÁO BÀI TẬP LỚN MÔN HỌC: KHAI PHÁ DỮ LIỆU ĐỀ TÀI: TÌM HIỂU THUẬT GIẢI PHÂN CẤP SỬ DỤNG LIÊN KẾT ĐẦY ĐỦ ĐỂ GOM CỤM Hà Nội, tháng năm 2017 TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN - - BÁO CÁO BÀI TẬP LỚN MÔN HỌC: KHAI PHÁ DỮ LIỆU ĐỀ TÀI: TÌM HIỂU THUẬT GIẢI PHÂN CẤP SỬ DỤNG LIÊN KẾT ĐẦY ĐỦ ĐỂ GOM CỤM GVHD: Lớp: SVTH: ThS Trần Hùng Cường HTTT1 – K8 Nguyễn Ngọc Hiếu Nguyễn Văn Quyền Đoàn Thị Trang Đồng Văn Thắng Nguyễn Thị Thắm Hà Nội, tháng năm 2017 MỤC LỤC NHẬN XÉT, ĐÁNH GIÁ CỦA GIẢNG VIÊN HƯỚNG DẪN Ngày… tháng….năm……… Ths.Trần Hùng Cường LỜI MỞ ĐẦU Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin lĩnh vực đời sống, kinh tế, xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích lũy nhiều lên Hơn nữa, công nghệ lưu trữ phục hồi liệu phát triển cách nhanh chóng sở liệu quan, doanh nghiệp, đơn vị ngày nhiều thông tin tiềm ẩn phong phú đa dạng Mặt khác, môi trường cạnh tranh, người ta ngày cần có nhiều thơng tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật khai phá tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Khai phá tri thức sở liệu coi q trình tìm tri thức có ích, cần thiết, tiềm ẩn chưa biết trước sở liệu lớn (discovery of interesting, implicit, and previously unknown knowledge from large databases) Kỹ thuật khai phá tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng năm gần Những vấn đề quan tâm gom lớp nhận dạng mẫu, luật kết hợp, gom cụm liệu, phần tử dị biệt… Gom cụm sở liệu phương pháp quan trọng trình tìm kiếm tri thức Gom cụm phương pháp học từ quan sát (learning from obversation) hay cịn gọi học khơng thầy (unupervised learning or automatic classfication) trí tuệ nhân tạo Gom cụm đặc biệt hiệu ta thông tin cụm, ta quan tâm tới thuộc tính cụm mà chưa biết biết thơng tin Gom cụm coi công cụ độc lập để xem xét gom bố liệu, làm bước tiền xử lý cho thuật tốn khác Việc gom cụm liệu có nhiều ứng dụng tiếp thị, sử dụng đất, bảo hiểm, hoạch định thành phố … Hiện nay, gom cụm liệu hướng nghiên cứu nhiều Tin học Chính lý mà em chọn đề tài “Tìm hiểu thuật giải gom cấp sử dụng liên kết đầy đủ để gom cụm” hướng nghiên cứu cho luận văn DANH MỤC KÝ HIỆU, CÁC TỪ VIẾT TẮT Từ cụm từ Từ viết tắt Từ tiếng Anh Cơ sở liệu CSDL DataBase Khai phá tri thức sở liệu KDD Knowledge Discovery in Databases Khai phá liệu KPDL Data Mining Gom cụm liệu PCDL Data Clustering Khai phá tri thức KPTT Knowledge Discovery CHƯƠNG I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU Khái niệm - Khai phá liệu dùng để mơ tả q trình phát tri thức CSDL Quá trình kết xuất tri thức tiềm ẩn từ liệu giúp cho việc dự báo kinh doanh, hoạt động sản xuất Khai phá liệu làm giảm chi phí thời gian so với phương pháp truyền thống trước (ví dụ - phương pháp thống kê) Sau số định nghĩa mang tính mơ tả nhiều tác giả khai phá liệu o Định nghĩa Ferruzza: “Khai phá liệu tập hợp phương pháp dùng tiến trình khám phá tri thức để khác biệt o mối quan hệ mẫu chưa biết bên liệu” Định nghĩa Parsaye: “Khai phá liệu q trình trợ giúp định, tìm kiếm mẫu thơng tin chưa biết bất ngờ o CSDL lớn” Định nghĩa Fayyad: “Khai phá tri thức q trình khơng tầm thường nhận mẫu liệu có giá trị, mới, hữu ích, tiềm hiểu được” Khai phá tri thức từ sở liệu - Khai phá tri thức từ sở liệu gồm có bước: o Bước 1: Lựa chọn sở liệu o Bước 2: Tiền xử lý liệu mục tiêu o Bước 3: Chuyển đổi iệu tiền xử lý o Bước 4: Khai phá liệu chuyển đổi o Bước 5: Diễn giải đánh giá mẫu liệu - Khai phá liệu bước trình khai phá tri thức từ sở liệu Tri thức Diễn giải/ Đánh giá Khai phá Chuyển đổi Tiền xử lý Lựa chọn Dữ liệu mục tiêu Các mẫu liệu Dữ liệu Đãchuyển Dữ liệu đổi tiền xử lý Cơ sở liệu Hình 1.1 Quy trình phát tri thức Các ứng dụng khai phá liệu - Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật tốn, tính tốn song song tốc độ cao, thu thập tri thức cho hệ chuyên gia, quan sát liệu Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phương pháp thống kê để mơ hình liệu phát mẫu, luật Ngân hàng liệu (Data Warehousing) công cụ gom tích trực tuyến (OLAP-On Line Analytical Processing) liên quan chặt chẽ với phát tri thức khai phá liệu - Khai phá liệu có nhiều ứng dụng thực tế, ví dụ như: + Bảo hiểm, tài thị trường chứng khốn: gom tích tình hình tài dự báo giá loại cổ phiếu thị trường chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận + Thống kê, gom tích liệu hỗ trợ định Ví dụ bảng sau: Năm Dân số giới (triệu người) Năm Dân số giới (triệu người) Năm Dân số giới (triệu người) 1950 2555 1970 3780 1990 5275 1951 2593 1971 3785 1991 1952 2635 1972 3862 1992 1953 2680 1973 3938 1993 1954 2728 1974 4014 1994 1955 2779 1975 4087 1995 1956 2832 1976 4159 1996 1957 2888 1977 4231 1997 1958 2945 1978 4303 1998 1959 2997 1979 4378 1999 1960 3039 1980 4454 2000 1961 3080 1981 4530 2001 1962 3136 1982 4610 2002 1963 3206 1983 4690 1964 3277 1984 4769 1965 3346 1985 4850 1966 3416 1986 4932 1967 3486 1987 5017 1968 3558 1988 5102 1969 3632 1989 5188 Nguồn: U.S Bureau of the Census, International Data Base Cập nhật ngày 10/10/2002 Bảng 1.1 Dân số giới tính thời điểm năm + Điều trị y học chăm sóc y tế: số thơng tin chuẩn đoán bệnh lưu hệ thống quản lý bệnh viện Gom tích mối liên hệ triệu chứng bệnh, chuẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc, ) + Sản xuất chế biến: Quy trình, phương pháp chế biến xử lý cố + Text mining Web mining: Gom lớp văn trang Web, tóm tắt văn + Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìm kiếm, so sánh hệ gene thông tin di truyền, mối liên hệ gene 5359 5443 5524 5604 5685 5764 5844 5923 6001 6078 6153 6228 số bệnh di truyền + Mạng viễn thông: Gom tích gọi điện thoại hệ thống giám sát lỗi, cố, chất lượng dịch vụ 4.Nhiệm vụ khai thác liệu - Q trình khai phá liệu trình phát mẫu thơng tin Trong đó, giải thuật khai phá tìm kiếm mẫu đáng quan tâm theo dạng xác định luật, gom lớp, hồi quy, định, 4.1 - Gom lớp (gom loại - classification) Là việc xác định hàm ánh xạ từ mẫu liệu vào số lớp biết trước Mục tiêu thuật tốn gom lớp tìm mối quan hệ thuộc tính dự báo thuộc tính gom lớp Như q trình gom lớp sử dụng mối quan hệ để dự báo cho mục Các kiến thức phát biểu diễn dạng luật theo cách sau: “Nếu thuộc tính dự báo mục thoả mãn điều kiện tiền đề mục nằm lớp kết luận” - Ví dụ: Một mục biểu diễn thơng tin nhân viên có thuộc tính dự báo là: họ tên, tuổi, giới tính, trình độ học vấn… thuộc tính gom loại trình độ lãnh đạo nhân viên 4.2 - Hồi qui (regression) Là việc học hàm ánh xạ từ mẫu liệu thành biến dự đốn có giá trị thực Nhiệm vụ hồi quy tương tự gom lớp, điểm khác chỗ thuộc tính để dự báo liên tục rời rạc Việc dự báo giá trị số thường làm phương pháp thống kê cổ điển, chẳng hạn hồi quy tuyến tính Tuy nhiên, phương pháp mơ hình hố sử dụng, ví dụ: định - Ứng dụng hồi quy nhiều, ví dụ: dự đoán số lượng sinh vật phát quang thời khu rừng cách dị tìm vi sóng thiết bị cảm biến từ xa; ước lượng sác xuất người bệnh chết cách kiểm tra triệu chứng; dự báo nhu cầu người dùng sản phẩm… 4.3 - Gom nhóm (clustering) Là việc mơ tả chung để tìm tập hay nhóm, loại mơ tả liệu Các nhóm tách gom cấp hay gối lên Có nghĩa liệu vừa thuộc nhóm lại vừa thuộc nhóm khác Các ứng dụng khai phá liệu có nhiệm vụ gom nhóm phát tập khách hàng có phản ứng giống CSDL tiếp thị; xác định quang phổ từ phương pháp đo tia hồng ngoại… Liên quan chặt chẽ đến việc gom nhóm nhiệm vụ đánh giá liệu, hàm mật độ xác suất đa biến/ trường CSDL 4.4 - Tổng hợp (summarization) Là cơng việc liên quan đến phương pháp tìm kiếm mô tả tập liệu [1, 2, 5] Kỹ thuật tổng hợp thường áp dụng việc gom tích liệu có tính thăm dị báo cáo tự động Nhiệm vụ sản sinh mô tả đặc trưng cho lớp Mô tả loại kiểu tổng hợp, tóm tắt đặc tính chung tất hay hầu hết mục lớp Các mô tả đặc trưng thể theo luật có dạng sau: “Nếu mục thuộc lớp tiền đề mục có tất thuộc tính nêu kết luận” Lưu ý luật dạng có khác biệt so với luật gom lớp Luật phát đặc trưng cho lớp sản sinh mục thuộc lớp 4.5 - Mơ hình hố phụ thuộc (dependency modeling) Là việc tìm kiếm mơ hình mơ tả phụ thuộc biến, thuộc tính theo hai mức: Mức cấu trúc mơ hình mơ tả (thường dạng đồ thị) Trong đó, biến phụ thuộc phận vào biến khác Mức định lượng mơ hình mơ tả mức độ phụ thuộc Những phụ thuộc thường biểu thị dạng theo luật “nếu - thì” (nếu tiền đề kết luận đúng) Về nguyên tắc, tiền đề kết luận kết hợp logic giá trị thuộc tính Trên thực tế, tiền đề thường nhóm giá trị thuộc tính kết luận thuộc tính Hơn hệ thống phát luật gom lớp tất luật cần phải có thuộc tính người dùng kết luận 10 - Ở đây, ta đưa số khó khăn việc nghiên cứu ứng dụng kỹ thuật khai phá liệu Tuy nhiên, khơng có nghĩa việc giải hoàn toàn bế tắc mà muốn nêu lên để khai phá liệu đơn giản, mà phải xem xét tìm cách giải vấn đề Ta liệt kê số khó khăn sau: - Các vấn đề sở liệu Đầu vào chủ yếu hệ thống khai thác tri thức liệu thô sở phát sinh khai phá liệu từ Do liệu thực tế thường động, không đầy đủ, lớn bị nhiễu Trong trường hợp khác, người ta sở liệu có chứa thơng tin cần thiết cho việc khai thác hay không làm để giải với dư thừa thơng tin khơng thích hợp + Dữ liệu lớn: Cho đến nay, sở liệu với hàng trăm trường bảng, hàng triệu ghi với kích thước đến gigabytes chuyện bình thường Hiện bắt đầu xuất sở liệu có kích thước tới terabytes Các phương pháp giải đưa ngưỡng cho sở liệu, lấu mẫu, phương pháp xấp xỉ, xử lý song song (Agrawal et al, Holsheimer et al) + Kích thước lớn:khơng có số lượng ghi lớn mà số trường sở liệu nhiều Vì mà kích thước tốn trở nên lớn Một tập liệu có kích thước lớn sinh vấn đề làm tăng khơng gian tìm kiếm mơ hình suy diễn Hơn nữa, làm tăng khả giải thuật khai phá liệu tìm thấy mẫu giả Biện pháp khắc phục làm giảm kích thước tác động tốn sử dụng tri thức biết trước để xác định biến không phù hợp + Dữ liệu động: Đặc điểm hầu hết sở liệu nội dung chúng thay đổi liên tục Dữ liệu thay đổi theo thời gian việc khai phá liệu bị ảnh hưởng thời điểm quan sát liệu Ví dụ 21 sở liệu tình trạng bệnh nhân, số giá trị liệu số, số khác lại thay đổi liên tục theo thời gian (ví dụ cân nặng chiều cao), số khác lại thay đổi tùy thuộc vào tình có giá trị quan sát đủ (ví dụ nhịp đập mạch) Vậy thay đổi liệu nhanh chóng làm cho mẫu khai thác trước giá trị Hơn nữa, biến sở liệu ứng dụng cho bị thay đổi, bị xóa tăng lên theo thời gian Vấn đề giải giải pháp tăng trưởng để nâng cấp mẫu coi thay đổi hội để khai thác cách sử dụng để tìm kiếm mẫu bị thay đổi + Các trường không phù hợp: Một đặc điểm quan trọng khác tính khơng thích hợp liệu, nghĩa mục liệu trở thành khơng thích hợp với trọng tâm việc khai thác Một khía cạnh khác đơi liên quan đến độ phù hợp tính ứng dụng thuộc tính tập sở liệu Ví dụ trường số tài khoản Nostro không áp dụng cho tác nhân + Các giá trị bị thiếu: Sự có mặt hay vắng mặt giá trị thuộc tính liệu phù hợp ảnh hưởng đến việc khai phá liệu Trong hệ thống tương tác, thiếu vắng liệu quan trọng dẫn đến việc yêu cầu cho giá trị kiểm tra để xác định giá trị Hoặc vắng mặt liệu coi điều kiện, thuộc tính bị coi giá trị trung gian giá trị + Các trường bị thiếu: Một quan sát không đầy đủ sở liệu làm cho liệu có giá trị bị xem có lỗi Việc quan sát sở liệu phải phát tồn thuộc tính dùng để giải thuật khai phá liệu áp dụng nhằm giải tốn Giả sử ta có thuộc tính để gom biệt tình đáng quan tâm Nếu chúng khơng làm điều có nghĩa có lỗi liệu Đối với hệ thống học để chuẩn đoán bệnh sốt rét từ sở liệu bệnh nhân trường hợp ghi bệnh nhân có triệu chứng giống lại có chẩn đốn khác liệu bị lỗi Đây vấn đề thường xảy 22 sở liệu kinh doanh Các thuộc tính quan trọng bị thiếu liệu khơng chuẩn bị cho việc khai phá liệu + Độ nhiễu khơng chắn: Đối với thuộc tính thích hợp, độ nghiêm trọng lỗi phụ thuộc vào kiểu liệu giá trị cho phép Các giá trị thuộc tính khác số thực, số nguyên, chuỗi thuộc vào tập giá trị định danh Các giá trị định danh xếp theo thứ tự phần đầy đủ, chí có cấu trúc ngữ nghĩa + Một yếu tố khác độ khơng chắn tính kế thừa độ xác mà liệu cần có, nói cách khác độ nhiễu crên phép đo gom tích có ưu tiên, mơ hình thống kê mơ tả tính ngẫu nhiên tạo sử dụng để định nghĩa độ mong muốn độ dung sai liệu Thường mơ hình thống kê áp dụng theo cách đặc biệt để xác định cách chủ quan thuộc tính để đạt thống kê đánh giá khả chấp nhận (hay tổ hợp các) giá trị thuộc tính Đặc biệt với liệu kiểu số, đắn liệu yếu tố việc khai phá Ví dụ việc đo nhiệt độ thể, ta thường cho phép chênh lệch 0.1 độ + Nhưng việc gom tích theo xu hướng nhạy cảm nhiệt độ thể lại yêu cầu độ xác cao Để hệ thống khai thác liên hệ đến xu hướng để chuẩn đốn lại cần có độ nhiễu liệu đầu vào + Mối quan hệ phức tạp trường: thuộc tính giá trị có cấu trúc gom cấp, mối quan hệ thuộc tính phương tiện phức tạp để diễn tả tri thức nội dung sở liệu yêu cầu giải thuật phải có khả sử dụng cách hiệu thông tin Ban đầu, kỹ thuật khai phá liệu phát triển cho ghi có giá trị thuộc tính đơn giản Tuy nhiên, ngày người ta tìm cách phát triển kỹ thuật nhằm rút mối quan hệ biến 23 CHƯƠNG 2: GOM CỤM BẰNG PHƯƠNG PHÁP PHÂN CẤP Giới thiệu gom cụm - Gom cụm q trình nhóm điểm liệu sở liệu thành cụm cho điểm liệu cụm có độ tương đồng lớn điểm khơng cụm có tương đồng nhỏ Một cụm đối tượng liệu xem nhóm nhiều ứng dụng, ví dụ: mơ hình gom cụm trường dựa tiêu chuẩn thu nhập số nợ Cụm cụm người thu nhập cao, số nợ nhiều Cụm gồm người thu nhập cao nợ Cụm gồm đối tượng thu nhập nợ nhiều Hình 2.1: Mơ hình gom cụm dựa tiêu chuẩn thu nhập số nợ - Quá trình gom cụm trình tìm đối tượng sở 24 liệu cách tự động Không giống gom lớp (clasification), gom cụm không cần thông tin xác định trước Nói cách khác, gom cụm phương pháp học từ quan sát (learning from obversation) hay gọi học không thầy (unsupervised learning or automatic classfication) trí tuệ nhân tạo Gom cụm đặc biệt hiệu thông tin cụm, ta quan tâm tới thuộc tính cụm mà chưa biết biết thơng tin - Một câu hỏi lớn đặt toán gom cụm đo độ tương đồng không gian đối tượng liệu (spatial similarity) Trong liệu khơng gian độ đo tương đồng xem quan hệ vị trí khơng gian đối tượng liệu Nói cách khác hai đối tượng liệu gọi tương đồng “khoảng cách không gian” chúng nhỏ - Một phương pháp đo độ tương đồng hai đối tượng nghịch đảo hàm không tương đồng (dissimilarity function) Hàm không tương đồng, hàm dựa thuộc tính khơng gian đối tượng liệu như: toạ độ đối tượng, độ cao đối tượng… Trong nhiều trường hợp hàm khơng tương đồng xem hàm khoảng cách không gian đối tượng hàm khoảng cách Euclid, hàm khoảng cách Manhattan, hàm khoảng cách Minkowski… - Bài tốn gom cụm q trình nhóm sở liệu thành nhóm đối tượng liệu phục vụ cho mục đích cụ thể ứng dụng thực tế Khơng có thuật tốn gom cụm tốt thích hợp cho tất ứng dụng mà với ứng dụng khác người sử dụng phải lựa chọn thuật tốn gom cụm cụ thể thích ứng với ứng dụng Kết đánh giá cho thuật toán phụ thuộc vào yêu cầu ứng dụng Các ứng dụng gom cụm Gom cụm liệu nghiên cứu, ứng dụng nhiều lĩnh vực 25