Kho Dữ Liệu: Tìm Hiểu Khái Phá DỮ Liệu Thuật Toán Phân Cụm Dữ Liệu K Means

40 7 0
Kho Dữ Liệu: Tìm Hiểu Khái Phá DỮ Liệu Thuật Toán Phân Cụm Dữ Liệu K Means

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC MỎ - ĐỊA CHẤT KHOA CÔNG NGHỆ THÔNG TIN Lớp K63 chuyên ngành Hệ thống thông tin -oOo - TIỂU LUẬN MÔN HỌC KHO DỮ LIỆU ĐỀ TÀI: TÌM HIỂU KHAI PHÁ DỮ LIỆU – THUẬT TỐN PHÂN CỤM DỮ LIỆU K-MEANS GVHD: ĐÀO THỊ THU VÂN SV: VŨ ANH QUÂN Mã Sinh Viên:1821051009 HÀ NỘI ,THÁNG NĂM 2021 LỜI CẢM ƠN Đầu tiên, em xin cảm ơn GIẢNG VIÊN TS.Đào Thị Thu Vân đã truyền đạt cho em kiến thức quý báu, hướng dẫn em tìm hiểu kiến thức mới, tạo sở nghiên cứu cho em thực hiện đề tài Em cũng xin chân thành cảm ơn quý thầy cô trường Đại học Mỏ - Địa Chất đã tạo điều kiện để em hoàn thành đề tài Xin chân thành cảm ơn các bạn lớp đã góp ý thảo luận đề tài Xin chân thành cảm ơn! SINH VIÊN THỰC HIỆN: VŨ ANH QUÂN MÃ SINH VIÊN: 1821051009 MỤC LỤC GVHD: ĐÀO THỊ THU VÂN MÔN : KHO DỮ LIỆU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu Khai phá liệu dùng để mơ tả q trình phát tri thức CSDL Quá trình kết xuất tri thức tiềm ẩn từ liệu giúp cho việc dự báo kinh doanh, hoạt động sản xuất, Khai phá liệu làm giảm chi phí thời gian so với phương pháp truyền thống trước (ví dụ phương pháp thống kê) Sau số định nghiã mang tính mơ tả nhiều tác giả khai phá liệu Định nghĩa Ferruzza: “Khai phá liệu tập hợp phương pháp dùng tiến trình khám phá tri thức để khác biệt mối quan hệ mẫu chưa biết bên liệu” Định nghĩa Parsaye: “Khai phá liệu trình trợ giúp định, tìm kiếm mẫu thông tin chưa biết bất ngờ CSDL lớn” Định nghĩa Fayyad: “Khai phá tri thức q trình khơng tầm thường nhận mẫu liệu có giá trị, mới, hữu ích, tiềm hiểu được” 1.2 Các ứng dụng khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật tốn, tính tốn song song tốc độ cao, thu thập tri thức cho hệ chuyên gia, quan sát liệu Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phương pháp thống kê để mơ hình liệu phát mẫu, luật Ngân hàng liệu (Data Warehousing) cơng cụ phân tích trực tún (OLAP- On Line Analytical Processing) liên quan chặt chẽ với phát hiện tri thức khai phá liệu Khai phá liệu có nhiều ứng dụng thực tế, ví dụ như: SV: VŨ ANH QUÂN - 1821051009 Trang GVHD: ĐÀO THỊ THU VÂN • MƠN : KHO DỮ LIỆU Bảo hiểm, tài thị trường chứng khốn: phân tích tình hình tài dự báo giá loại cổ phiếu thị trường chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận, • Thống kê, phân tích liệu hỗ trợ định Ví dụ bảng sau: Năm Dân số Dân số giới giới (triệu Năm người) (triệu người) Nă m Dân số giới (triệu người) 1950 2555 1970 3708 1990 5275 1951 2593 1971 3785 1991 5359 1952 2635 1972 3862 1992 5443 1953 2680 1973 3938 1993 5524 1954 2728 1974 4014 1994 5604 1955 2779 1975 4087 1995 5685 1956 2832 1976 4159 1996 5764 1957 2888 1977 4231 1997 5844 1958 2945 1978 4303 1998 5923 1959 2997 1979 4378 1999 6001 1960 3039 1980 4454 2000 6078 1961 3080 1981 4530 2001 6153 1962 3136 1982 4610 2002 6228 1963 3206 1983 4690 1964 3277 1984 4769 1965 3346 1985 4850 1966 3416 1986 4932 1967 3486 1987 5017 1968 3558 1988 5102 1969 3632 1989 5188 SV: VŨ ANH QUÂN - 1821051009 Trang GVHD: ĐÀO THỊ THU VÂN MÔN : KHO DỮ LIỆU Nguồn: U.S Bureau of the Census, International Data Base Cập nhật ngày 10/10/2002 • Điều trị y học chăm sóc y tế: số thơng tin chuẩn đoán bệnh lưu hệ thống quản lý bệnh viện Phân tích mối liên hệ triệu chứng bệnh, chuẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc, ) • Sản xuất chế biến: Quy trình, phương pháp chế biến xử lý cố • Text mining Web mining: Phân lớp văn trang Web, tóm tắt văn bản, • Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìm kiếm, so sánh hệ gene thông tin di truyền, mối liên hệ gene số bệnh di truyền, • Mạng viễn thơng: Phân tích gọi điện thoại hệ thống giám sát lỗi, cố, chất lượng dịch vụ, 1.3 Các bước trình khai phá liệu Quy trình phát tri thức thường tuân theo bước sau: Bước thứ nhất:Hình thành, xác định định nghĩa tốn Là tìm hiểu lĩnh vực ứng dụng từ hình thành toán, xác định nhiệm vụ SV: VŨ ANH QUÂN - 1821051009 Trang GVHD: ĐÀO THỊ THU VÂN MÔN : KHO DỮ LIỆU cần phải hoàn thành Bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bước thứ hai:Thu thập tiền xử lý liệu Là thu thập xử lý thơ, cịn gọi tiền xử lý liệu nhằm loại bỏ nhiễu (làm liệu), xử lý việc thiếu liệu (làm giàu liệu), biến đổi liệu rút gọn liệu cần thiết, bước thường chiếm nhiều thời gian tồn qui trình phát tri thức Do liệu lấy từ nhiều nguồn khác nhau, khơng đồng nhất, … gây nhầm lẫn Sau bước này, liệu quán, đầy đủ, rút gọn rời rạc hoá Bước thứ ba:Khai phá liệu, rút tri thức Là khai phá liệu, hay nói cách khác trích mẫu hoặc/và mơ hình ẩn liệu Giai đoạn quan trọng, bao gồm công đoạn như: chức năng, nhiệm vụ mục đích khai phá liệu, dùng phương pháp khai phá nào? Thơng thường, tốn khai phá liệu bao gồm: tốn mang tính mơ tả - đưa tính chất chung liệu, toán dự báo - bao gồm việc phát suy diễn dựa liệu có Tuỳ theo tốn xác định mà ta lựa chọn phương pháp khai phá liệu cho phù hợp Bước thứ tư:Sử dụng tri thức phát Là hiểu tri thức tìm được, đặc biệt làm sáng tỏ mô tả dự đốn Các bước lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực Các kết trình phát tri thức đưa ứng dụng lĩnh vực khác Do kết dự đốn mơ tả nên chúng đưa vào hệ thống hỗ trợ định nhằm tự động hố q trình Tóm lại: KDD trình kết xuất tri thức từ kho liệu mà khai phá liệu công đoạn quan trọng 1.4 Nhiệm vụ khai thác liệu SV: VŨ ANH QUÂN - 1821051009 Trang GVHD: ĐÀO THỊ THU VÂN MƠN : KHO DỮ LIỆU Q trình khai phá liệu q trình phát mẫu thơng tin Trong đó, giải thuật khai phá tìm kiếm mẫu đáng quan tâm theo dạng xác định luật, phân lớp, hồi quy, định, 1.4.1 Phân lớp (phân loại - classification) Là việc xác định hàm ánh xạ từ mẫu liệu vào số lớp biết trước Mục tiêu thuật tốn phân lớp tìm mối quan hệ thuộc tính dự báo thuộc tính phân lớp Như q trình phân lớp sử dụng mối quan hệ để dự báo cho mục Các kiến thức phát biểu diễn dạng luật theo cách sau: “Nếu các thuộc tính dự báo mục thoả mãn điều kiện các tiền đề mục nằm lớp kết luận” Ví dụ: Một mục biểu diễn thơng tin nhân viên có thuộc tính dự báo là: họ tên, tuổi, giới tính, trình độ học vấn, … thuộc tính phân loại trình độ lãnh đạo nhân viên 1.4.2 Hồi qui (regression) Là việc học hàm ánh xạ từ mẫu liệu thành biến dự đốn có giá trị thực Nhiệm vụ hồi quy tương tự phân lớp, điểm khác chỗ thuộc tính để dự báo liên tục khơng phải rời rạc Việc dự báo giá trị số thường làm phương pháp thống kê cổ điển, chẳng hạn hồi quy tuyến tính Tuy nhiên, phương pháp mơ hình hố sử dụng, ví dụ: định Ứng dụng hồi quy nhiều, ví dụ: dự đốn số lượng sinh vật phát quang thời khu rừng cách dò tìm vi sóng thiết bị cảm biến từ xa; ước lượng sác xuất người bệnh chết cách kiểm tra triệu chứng; dự báo nhu cầu người dùng sản phẩm, … 1.4.3 Phân nhóm (clustering) Là việc mơ tả chung để tìm tập hay nhóm, loại mơ tả liệu Các nhóm tách phân cấp hay gối lên Có nghĩa SV: VŨ ANH QUÂN - 1821051009 Trang GVHD: ĐÀO THỊ THU VÂN MƠN : KHO DỮ LIỆU liệu vừa thuộc nhóm lại vừa thuộc nhóm khác Các ứng dụng khai phá liệu có nhiệm vụ phân nhóm phát tập khách hàng có phản ứng giống CSDL tiếp thị; xác định quang phổ từ phương pháp đo tia hồng ngoại, … Liên quan chặt chẽ đến việc phân nhóm nhiệm vụ đánh giá liệu, hàm mật độ xác suất đa biến/ trường CSDL 1.4.4 Tổng hợp (summarization) Là công việc liên quan đến phương pháp tìm kiếm mơ tả tập liệu [1, 2, 5] Kỹ thuật tổng hợp thường áp dụng việc phân tích liệu có tính thăm dị báo cáo tự động Nhiệm vụ sản sinh mô tả đặc trưng cho lớp Mô tả loại kiểu tổng hợp, tóm tắt đặc tính chung tất hay hầu hết mục lớp Các mô tả đặc trưng thể theo luật có dạng sau: “Nếu mục thuộc lớp tiền đề mục có tất thuộc tính nêu kết luận” Lưu ý luật dạng có khác biệt so với luật phân lớp Luật phát đặc trưng cho lớp sản sinh mục thuộc lớp 1.4.5 Mơ hình hố phụ thuộc (dependency modeling) Là việc tìm kiếm mơ hình mơ tả phụ thuộc biến, thuộc tính theo hai mức: Mức cấu trúc mơ hình mơ tả (thường dạng đồ thị) Trong đó, biến phụ thuộc phận vào biến khác Mức định lượng mơ hình mơ tả mức độ phụ thuộc Những phụ thuộc thường biểu thị dạng theo luật “nếu - thì” (nếu tiền đề kết luận đúng) Về nguyên tắc, tiền đề kết luận kết hợp logic giá trị thuộc tính Trên thực tế, tiền đề thường nhóm giá trị thuộc tính kết luận thuộc tính Hơn hệ thống phát luật phân lớp tất luật cần phải có thuộc tính người dùng kết luận SV: VŨ ANH QUÂN - 1821051009 Trang GVHD: ĐÀO THỊ THU VÂN MÔN : KHO DỮ LIỆU Quan hệ phụ thuộc biểu diễn dạng mạng tin cậy Bayes Đó đồ thị có hướng, khơng chu trình Các nút biểu diễn thuộc tính trọng số liên kết phụ thuộc nút 1.4.6 Phát biến đổi độ lệch (change and deviation dectection) Nhiệm vụ tập trung vào khám phá hầu hết thay đổi có nghĩa dạng độ đo biết trước giá trị chuẩn, phát độ lệch đáng kể nội dung tập liệu thực nội dung mong đợi Hai mơ hình độ lệch hay dùng lệch theo thời gian hay lệch theo nhóm Độ lệch theo thời gian thay đổi có ý nghĩa liệu theo thời gian Độ lệch theo nhóm khác liệu hai tập liệu, tính trường hợp tập liệu thuộc tập kia, nghĩa xác định liệu nhóm đối tượng có khác đáng kể so với tồn đối tượng khơng? Theo cách này, sai sót liệu hay sai lệch so với giá trị thơng thường phát Vì nhiệm vụ yêu cầu số lượng dạng thông tin khác nên chúng thường ảnh hưởng đến việc thiết kế chọn phương pháp khai phá liệu khác Ví dụ phương pháp định (sẽ trình bày đây) tạo mô tả phân biệt mẫu lớp khơng có tính chất đặc điểm lớp 1.5 Các phương pháp khai phá liệu Khai phá liệu lĩnh vực mà người ln tìm cách đạt mực đích sử dụng thơng tin Q trình khai phá liệu q trình phát mẫu, phương pháp khai phá liệu để tìm kiếm mẫu đáng quan tâm theo dạng xác định Có thể kể vài phương pháp như: sử dụng công cụ truy vấn, xây dựng định, dựa theo khoảng cách (Kláng giềng gần), giá trị trung bình, phát luật kết hợp, … Các phương pháp theo tích hợp vào hệ thống lai để SV: VŨ ANH QUÂN - 1821051009 Trang 10 GVHD: ĐÀO THỊ THU VÂN MÔN : KHO DỮ LIỆU liệu thuộc đơn vị giống tồn khoảng cách Euclidean xác định nhóm liệu tương tự Tuy nhiên, khơng phải lúc khoảng cách Euclidean cho kết xác Tuy nhiên ý khơng phải vấn đề đồ thị: vấn đề phát sinh từ công thức toán học sử dụng để kết hợp khoảng cách thành phần đơn đặc tính liệu vectơ vào độ đo khoảng mà sử dụng cho mục đích gom cụm: công thức khác dẫn tới cụm khác Các thuật tốn cần có phép đo khoảng cách độ tương tự hai đối tượng để thực gom cụm Kiến thức miền phải sử dụng để để trình bày rõ ràng phép đo khoảng thích hợp cho ứng dụng Hiện nay, phép đo có nhiều mức độ khác tùy theo trường hợp 2.3.1 Khoảng cách Minkowski Trong x, y hai đối tượng với n số lượng thuộc tính, kích thước liệu 2.3.2 Khoảng cách Euclidean: Là khoảng cách hai đối tượng trường hợp đặc biệt q=2 2.3.3 Khoảng cách Manhattan: Là khoảng cách hai đối tượng trường hợp đặc biệt q=1 2.3.4 Khoảng cách Chebychev: Trong trường hợp q = ∞, hữu ích để định nghĩa đối tượng phi tương tự chúng khác kích thước biến đổi Tính chất distance(i,j): + + + + distance distance distance distance (i,j) (i,i) (i,j) (i,j) >= =0 = distance (j,i)

Ngày đăng: 21/10/2022, 14:23

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan