1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu các kỹ thuật phân cụm dữ liệu và ứng dụng

69 261 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 1,49 MB

Nội dung

Header Page of 128 LỜI CẢM ƠN Để hoàn thành khóa luận này, trước hết em xin gửi lời cảm ơn sâu sắc tới PGS.TS Trịnh Đình Thắng, tận tình hướng dẫn, bảo, định hướng, đóng góp ý kiến quý báu suốt trình thực Em xin chân thành cảm ơn thầy, cô giáo khoa Công nghệ thông tin, trường ĐH Sư Phạm Hà Nội quan tâm dạy dỗ giúp đỡ em suốt bốn năm học vừa qua thời gian em làm khóa luận Là sinh viên ngành Cơng nghệ thơng tin, em tự hào khoa học, thầy giáo Em xin kính chúc thầy, cô mạnh khỏe, hạnh phúc thành công Chúc khoa Công nghệ thông tin ngày khang trang, vững mạnh, góp phần to lớn nghiệp đào tạo chuyên nghiệp trường Đại học sư phạm Hà Nội Là sinh viên lần đầu nghiên cứu khoa học, chắn đề tài em không tránh khỏi thiếu sót, hạn chế Vì em mong đóng góp ý kiến thầy cô giáo bạn để đề tài em hoàn thiện Cuối cùng, em xin cảm ơn tới đại gia đình em, ln ln động viên, khích lệ tinh thần tạo điều kiện tốt cho em hồn thành khóa luận Hà Nội, tháng 05 năm 2013 Sinh viên Vũ Thị Bích Phương luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page of 128 Header Page of 128 LỜI CAM ĐOAN Tên em là: Vũ Thị Bích Phương Sinh viên: K35 – CNTT, trường Đại học sư phạm Hà Nội Em xin cam đoan: Đề tài “Nghiên cứu kỹ thuật phân cụm liệu ứng dụng” kết tìm hiểu nghiên cứu riêng em, hướng dẫn PGS.TS Trịnh Đình Thắng Khóa luận hồn tồn khơng chép từ tài liệu có sẵn cơng bố khác Kết không trùng với tác giả khác Nếu sai em xin hoàn toàn chịu trách nhiệm Hà Nội, tháng 05 năm 2013 Sinh viên Vũ Thị Bích Phương luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page of 128 Header Page of 128 MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỞ ĐẦU CHƯƠNG Error! Bookmark not defined TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 11 1.1 Giới thiệu chung 11 1.2 Khám phá tri thức trình khám phá tri thức 12 1.3 Khai phá liệu 14 CHƯƠNG Error! Bookmark not defined PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN TRONGError! Bookmark not define PHÂN CỤM DỮ LIỆU Error! Bookmark not defined 2.1 Khái niệm phân cụm liệu 20 2.2 Các ứng dụng phân cụm .21 2.3 Các yêu cầu thuật toán phân cụm liệu 22 2.4 Các kiểu liệu phân cụm 23 2.5 Phép đo độ tương tự, phi tương tự .25 2.6 Các thuật toán phân cụm liệu 28 2.6.1 Thuật toán phân cụm liệu dựa vào phân cụm phân cấp 28 2.6.2 Thuật toán phân cụm liệu mờ 33 2.6.3 Thuật toán phân cụm liệu dựa vào cụm trung tâm 35 2.6.4 Thuật toán phân cụm liệu dựa vào lưới 38 2.6.5 Thuật toán phân cụm liệu dựa vào mật độ 42 2.6.6 Thuật toán phân cụm liệu dựa mẫu 48 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page of 128 Header Page of 128 CHƯƠNG 3: Error! Bookmark not defined ỨNG DỤNG CỦA PHÂN CỤM DỮ LIỆU 50 3.1 Phân đoạn ảnh 50 3.1.1 Định nghĩa phân đoạn ảnh 51 3.1.2 Phân đoạn ảnh dựa vào phân cụm liệu 52 3.2 Nhận dạng đối tượng ký tự 57 3.2.1 Nhận dạng đối tượng 57 3.2.2 Nhận dạng ký tự 60 3.3 Khai phá liệu 61 3.3.1 Khai phá liệu phương pháp tiếp cận 62 3.3.2 Khai phá liệu có cấu trúc lớn 63 3.3.3 Khai phá liệu Cơ sở liệu địa chất 64 KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN .66 TÀI LIỆU THAM KHẢO 69 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page of 128 Header Page of 128 MỞ ĐẦU Lý chọn đề tài Sự phát triển công nghệ thông tin ứng dụng công nghệ thông tin lĩnh vực đời sống, kinh tế, xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích lũy nhiều lên Hơn nữa, cơng nghệ lưu trữ phục hồi liệu phát triển cách nhanh chóng sở liệu quan, doanh nghiệp, đơn vị ngày nhiều thông tin tiềm ẩn phong phú đa dạng Mặt khác, môi trường cạnh tranh, người ta ngày cần có nhiều thơng tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật kỹ thuật khám phá tri thức khai phá liệu Khám phá tri thức sở liệu coi trình tìm tri thức có ích, cần thiết, tiềm ẩn chưa biết sở liệu lớn Kỹ thuật khám phá tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng năm gần Những vấn đề quan tâm phân lớp nhận dạng mẫu, luật kết hợp, phân cụm liệu, phần tử dị biệt, … Phân cụm sở liệu phương pháp quan trọng trình tìm hiểu tri thức Phân cụm đặc biệt hiệu ta thông tin cụm, ta quan tâm tới thuộc tính cụm mà ta chưa biết biết thơng tin Phân cụm coi luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page of 128 Header Page of 128 công cụ độc lập để xem xét phân bố liệu, làm bước tiền xử lý cho thuật toán khác Việc phân cụm liệu có nhiều ứng dụng tiếp thị, sử dụng đất, bảo hiểm, hoạch định thành phố… Hiện nay, phân cụm liệu hướng nghiên cứu nhiều Công nghệ thông tin Chính lý mà em chọn đề tài “Nghiên cứu kỹ thuật phân cụm liệu ứng dụng” hướng nghiên cứu cho khóa luận Mục đích nghiên cứu - Tìm hiểu qua trình khám phá tri thức khai phá liệu - Tìm hiểu phân cụm liệu thuật toán phân cụm liệu - Trên tảng lý thuyết khai phá liệu số thuật toán phân cụm liệu tiến tới sâu vào tìm hiểu, phân tích, đánh giá số thuật toán phương pháp phân cụm liệu Phạm vi nghiên cứu Data mining lĩnh vực thu hút nhiều quan tâm nhà nghiên cứu, với nhiều ngành ứng dụng Một hướng phân cụm liệu, với phương pháp phân cụm liệu khác Ở khóa luận này, em xin trình bày số phương pháp phân cụm liệu Ý nghĩa khoa học thực tiễn Nếu đề tài “Nghiên cứu kỹ thuật phân cụm liệu ứng dụng” nghiên cứu đạt hiệu phân cụm tối ưu, giúp xử lý liệu nhanh hơn, giảm thời gian, cơng sức để tìm kiếm, phát cụm, mẫu liệu tập liệu lớn để cung cấp thông tin trợ giúp việc định, dự đoán luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page of 128 Header Page of 128 Phương pháp nghiên cứu a Phương pháp nghiên cứu lý luận Nghiên cứu qua việc đọc sách, báo tài liệu liên quan nhằm xây dựng sở lý thuyết đề tài biện pháp cần thiết để giải vấn đề đề tài b Phương pháp chuyên gia Tham khảo ý kiến chuyên gia để thiết kế chương trình phù hợp với yêu cầu thực tiễn, nội dung xử lý nhanh đáp ứng yêu cầu ngày cao người sử dụng c Phương pháp thực nghiệm Thông qua quan sát thực tế, yêu cầu sở, lý luận nghiên cứu kết đạt qua phương pháp Cấu trúc khóa luận Ngồi phần mở đầu, kết luận định hướng phát triển luận văn em bao gồm ba chương: Chương 1: Tổng quan khám phá tri thức khai phá liệu Chương 2: Phân cụm liệu thuật toán phân cụm liệu Chương 3: Ứng dụng phân cụm liệu luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page of 128 Header Page of 128 DANH SÁCH CÁC HÌNH Hình 1: Q trình khám phá tri thức Hình 2: Quá trình khai phá liệu Hình 3: Cây CF biểu diễn BIRCH Hình 4: Cụm liệu khai phá thuật tốn CURE Hình 5: Các bước thuật tốn Chameleon Hình 6: Các thiết lập để xác định danh giới cụm ban đầu Hình 7: Ví dụ hình dạng PCDL sau phân cụm K-means Hình 8: Mơ hình cấu trúc liệu lưới Hình 9: Mơ hình thuật tốn STING Hình 10: Hình dạng cụm khám phá DBSCAN Hình 11: Mật độ - đến trực tiếp Hình 12: Mật độ - đến Hình 13: Mật độ - liên thơng Hình 14: Cụm nhiễu Hình 15: Tính đại diện cho clustering Hình 16: Ảnh thang đo xám gốc Hình 17: Biểu đồ mức xám Hình 18: Kết việc tạo ngưỡng Hình 19: Phân đoạn ảnh phân cụm liệu luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page of 128 Header Page of 128 Hình 20: Kết kết cấu phân đoạn ảnh Hình 21: Phân đoạn ảnh y tế đa quang phổ Hình 22: Phân đoạn ảnh LANDSAT Hình 23: Một tập ảnh cảnh Rắn hổ mang chọn từ 320 cảnh Hình 24: Cấu trúc nhóm gồm 320 cảnh tác phẩm điêu khắc rắn hổ mang Hình 25: Mã vùng so với đồ đơn vị địa tầng khu vực nghiên cứu luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page of 128 Header Page 10 of 128 DANH SÁCH CÁC CỤM TỪ VIẾT TẮT STT Viết tắt Cụm từ tiếng Anh Cụm từ tiếng Việt CNTT Information Technology Công nghệ thông tin CSDL Database Cơ sở liệu KDD Knowledge Discovery in Khám phá tri thức Database sở liệu KPDL Data mining Khai phá liệu PCDL Data Clustering Phân cụm liệu MTĐT Electronic Computer Máy tính điện tử 10 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page 10 of 128 Header Page 55 of 128 a) b) Hình 20: Kết kết cấu phân đoạn ảnh a) Một khảm kết cấu bao gồm bốn đầu vào kết cấu Brodatz phổ biến b) Phân khúc sản xuất tính lọc Gabor ghép để chứa thông tin không gian Phân cụm liệu sử dụng giai đoạn tiền xử lý để xác định lớp mẫu để phân loại giám sát Taxt Lundervold mơ tả thuật tốn clustering partitional kỹ thuật ghi nhãn hướng dẫn sử dụng để xác định lớp vật liệu (ví dụ: não tủy, chất lỏng, chất trắng, khối u) hình ảnh đăng ký người có năm kênh khác Một số phân cụm thu kết hợp với kiến thức tên miền (nhân lực chuyên môn) để xác định lớp khác 55 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page 55 of 128 Header Page 56 of 128 a) b) Hình 21: Phân đoạn ảnh y tế đa quang phổ a) Kênh ảnh đầu vào b) cụm phân đoạn ảnh a) b) Hình 22: Phân đoạn ảnh LANDSAT a) Bản gốc hình ảnh ESA/EURIMAGE/Sattelitbild b) Cảnh phân cụm 56 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page 56 of 128 Header Page 57 of 128 3.2 Nhận dạng đối tượng ký tự 3.2.1 Nhận dạng đối tượng Việc sử dụng phân nhóm để xem nhóm đối tượng 3D cho mục đích cơng nhận đối tượng phạm vi liệu mô tả Dorai Jain Các thuật ngữ dùng để xem hình ảnh phạm vi đối tượng thu từ quan điểm tùy ý Hệ thống xem xét, làm việc theo quan điểm phụ thuộc (hoặc xem trung tâm) cách tiếp cận vấn đề công nhận đối tượng, đối tượng công nhận đại diện điều khoản thư viện hình ảnh loạt đối tượng Có nhiều ý có đối tượng 3D mục tiêu công việc để tránh kết hợp đầu vào xem không rõ hình ảnh đối tượng Một chủ đề phổ biến công nhận đối tượng lập mục, xem chưa biết sử dụng để chọn tập hợp đối tượng sở liệu để so sánh, từ chối tất điểm khác đối tượng Một cách tiếp cận để đánh sử dụng khái niệm tầng lớp xem, lớp xem tập hợp điểm chất lượng tương tự đối tượng Xem đối tượng nhóm lại vào lớp dựa hình dạng giống tính phổ Mỗi hình ảnh đầu vào đối tượng xem sản lượng cô lập véc tơ tính mà mơ tả Các tính véc tơ ml = ∑ (ℎ) (ℎ) hóa quang phổ phân phối, H(h) đối tượng xem thu từ liệu phạm vi cách xây dựng biểu đồ giá trị số hình dạng (có liên quan đến giá trị bề mặt cong) tích lũy tất đối tượng điểm ảnh mà rơi vào thùng Bởi bình thường hóa quang phổ diện tích tổng số đối tượng quy mơ (size) khác mà tồn đối tượng khác gỡ bỏ Tại thời điểm ml tính tốn mà có ý nghĩa H(h): 57 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page 57 of 128 Header Page 58 of 128 ml = ∑ (ℎ) (ℎ) Với moment trung tâm khác mp ≤ p ≤ 10 định nghĩa là: mp = ∑ (ℎ - ml)p H(h) Do véc tơ đặc tính biểu thị R = (m1, m2, …, m10) nằm khoảng [-1,1] Tại o = {O1, O2, …, On} lựa chọn n đối tượng 3D với cảnh nằm sở liệu MD, cảnh thứ i j đối tượng, liệu biểu thị ( , ) nơi đối tượng nhãn sở véc tơ đặc tính = {( Cho tập đối tượng đại diện , ), … ( , )} mà mô tả m cảnh i đối tượng, mục tiêu để lấy phần cảnh pi = { , ,…, } Mỗi cụm pi chứa cảnh đối tượng thứ i mà đối tượng cấp tương tự dựa khơng giống thời điểm tương ứng với tính hình quang phổ cảnh Các biện pháp D( , )=∑ định nghĩa: ( − )2 Phân cụm liệu Cảnh (Views) Hình cho thấy tập hợp điểm Rắn hổ mang sử dụng thử nghiệm Hình dạng quang phổ xem véc tơ đặc tính sau tính xác định Cảnh đối tượng tụ tập, dựa D không giống véc tơ thời điểm họ kết nối Đề án clustering thứ bậc (Jain Dubes 1988) Các nhóm thứ bậc thu với 320 cảnh đối tượng Rắn hổ mang hiển thị hình 23 Cảnh nhóm phân cấp đối tượng khác tương tự dendrogram hình 23 Dendrogram cắt mức độ không giống 58 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page 58 of 128 Header Page 59 of 128 0,1 để có nhỏ gọn cách cụm Các clustering thu theo cách chứng minh quan điểm đối tượng rơi vào vài cụm khác biệt Các trọng tâm cụm xác định trung bình véc tơ thời điểm lượt xem rơi vào cụm Hình 23: Một tập cảnh ảnh Rắn hổ mang chọn từ 320 cảnh Dorai Jain (1995) chứng minh phân nhóm dựa xem nhóm đối tượng phù hợp với điều kiện tính xác phân loại số lượng phù hợp cần thiết cho việc phân loại xem thử Xem đối tượng nhóm thành cụm xem nhỏ gọn đồng nhất, chứng tỏ sức mạnh cluster dựa sơ đồ tổ chức xem phù hợp với đối tượng có hiệu 59 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page 59 of 128 Header Page 60 of 128 Hình 24: Cấu trúc nhóm gồm 320 cảnh tác phẩm điêu khắc rắn hổ mang 3.2.2 Nhận dạng ký tự Kỹ thuật nhận dạng ký tự vào phân cụm liệu phát triển Connell Jain (1998) nhận biết lexemes văn viết tay cho mục đích nhà văn cơng nhận độc lập Sự thành công hệ thống nhận dạng chữ viết phụ thuộc vào việc chấp nhận người sử dụng tiềm Nhà văn phụ thuộc hệ thống cung cấp mức độ cao công nhận xác so với hệ thống nhà văn độc lập, đòi hỏi số lượng lớn liệu đào tạo Một nhà văn độc lập hệ thống phải có khả nhận nhiều phong cách văn nhằm đáp ứng người dùng cá nhân Khi biến thiên phong cách văn phải bắt giữ hệ thống tăng, trở nên khó khăn để phân biệt lớp khác số lượng chồng chéo không gian đặc tính Một giải pháp cho vấn đề để tách liệu từ phong cách viết khác cho lớp học vào lớp khác nhau, gọi lexemes, đại diện 60 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page 60 of 128 Header Page 61 of 128 cho phần liệu dễ dàng tách từ liệu tầng khác mà lexemes thuộc Trong hệ thống này, chữ viết bị bắt số hóa tọa độ (x, y) vị trí bút vị trí đặt điểm bút (lên xuống) với tỷ lệ lấy mẫu không đổi Sau số lấy lại mẫu, bình thường hóa, làm mịn, nét bút đại diện chuỗi dài biến điểm Một số liệu dựa đàn hồi mẫu lập trình phù hợp động, xác định phép khoảng cách hai nét để tính tốn Sử dụng khoảng cách tính cách này, ma trận gần sử dụng loại chữ số Mỗi biện pháp ma trận khoảng cách lớp cho lớp chữ số cụ thể Chữ số lớp đặc biệt nhóm thực nghiệm để tìm số lượng nhỏ nguyên mẫu Phân cụm thực cách sử dụng chương trình CLUSTER phân nhóm tốt cho giá trị K số phạm vi, K số cụm liệu vào để phân vùng Theo dự đốn, có nghĩa lỗi bình phương (MSE) giảm đơn điệu chức K Các “tối ưu” giá trị K chọn cách xác định biểu đồ MSE K Khi đại diện cho cụm chữ số mẫu thử nghiệm nhất, tốt nhận diện kết công nhận thu cách sử dụng chữ số gần để tới trung tâm cụm Sử dụng sơ đồ này, tỷ lệ nhận diện xác lên đến 99,33 % 3.3 Khai phá liệu Trong năm gần thấy khối lượng liệu ngày tăng, với nhiều liệu có sẵn, cần thiết để phát triển thuật tốn lấy thơng tin từ cửa hàng có ý nghĩa rộng lớn Tìm kiếm nuggets hữu ích thơng tin số lượng lớn liệu biết đến lĩnh vực khai phá liệu Khai phá liệu áp dụng cho quan hệ, giao dịch, sở liệu không gian, cửa hàng lớn liệu có cấu trúc World 61 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page 61 of 128 Header Page 62 of 128 Wide Web Có nhiều liệu hệ thống khai thác sử dụng ngày nay, ứng dụng bao gồm Cục Ngân khố Hoa Kỳ phát rửa tiền, Hiệp hội Bóng rổ Quốc gia huấn luyện viên phát xu hướng mơ hình cầu thủ chơi cho cá nhân đội, phân loại mơ hình trẻ em hệ thống chăm sóc ni dưỡng (Hedberg 1996) Một số tạp chí gần có vấn đề đặc biệt khai phá liệu (1996 Cohen, Cross 1996, Wall 1996) 3.3.1 Khai phá liệu phương pháp tiếp cận Khai phá liệu giống phân cụm liệu, hoạt động thăm dò, phương pháp phân cụm liệu thích hợp để khai phá liệu Phân cụm liệu thường bước khởi đầu quan trọng số trình khai phá liệu, số phương pháp khai phá liệu sử dụng phương pháp phân cụm liệu để sở liệu phân khúc, mẫu tiên đốn, trực quan hóa sở liệu Phân đoạn Phương pháp phân cụm liệu sử dụng khai phá liệu vào sở liệu phân khúc thành nhóm đồng Điều phục vụ mục đích nén liệu (làm việc với cụm cá nhân), để nhận biết đặc điểm dân số phụ thuộc mục đích cụ thể (ví dụ, tiếp thị cho người già) Thuật toán phân cụm liệu K-means (Faber 1994) sử dụng để phân cụm điểm ảnh hình ảnh Landsat (Faber 1994) Mỗi điểm ảnh ban đầu có giá trị từ vệ tinh khác nhau, bao gồm hồng ngoại Những giá trị khó khăn cho người để đồng hóa phân tích mà khơng cần trợ giúp Các điểm ảnh với giá trị tính nhóm thành 256 nhóm, sau điểm ảnh gán giá trị cụm trung tâm Hình ảnh sau hiển thị với thơng tin khơng gian ngun vẹn, người xem nhìn vào hình ảnh đơn xác định khu vực quan tâm (ví dụ, đường cao tốc rừng) nhãn khái niệm Hệ thống sau 62 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page 62 of 128 Header Page 63 of 128 xác định điểm ảnh khác nhóm ví dụ khái niệm Đốn trước mẫu Thống kê phương pháp phân tích liệu thường liên quan đến thử nghiệm mơ hình giả thuyết nhà phân tích có tâm trí Khai thác liệu giúp người dùng phát giá thuyết tiềm trước sử dụng công cụ thống kê Đốn trước mơ hình sử dụng phân nhóm để nhóm, sau infers quy tắc để characterize nhóm đề xuất mơ hình Ví dụ, người đăng ký tạp chí nhóm dựa số yếu tố (tuổi tác, giới tính, thu nhập, …) sau đó, nhóm kết đặc trưng nỗ lực để tìm mơ hình Hình ảnh Cụm sở liệu lớn sử dụng để hình dung, hỗ trợ nhà phân tích việc xác định nhóm nhóm có đặc trưng tương tự WinViz (Lee Ong 1996) cơng cụ khai thác liệu trực quan, nguồn gốc cụm xuất thuộc tính mà sau đặc trưng hệ thống Ví dụ, ngũ cốc ăn sáng nhóm theo calo, đạm, chất béo, natri, chất xơ, carbohydrate, đường, kali, vitamin nội dung phục vụ Khi thấy cụm kết quả, người sử dụng đề xuất cụm để WinViz thuộc tính Hệ thống cho thấy cụm đặc trưng nội dung kali cao, nhà phân tích người nhận cá nhân nhóm thuộc cám “gia đình ngũ cốc”, dẫn đến khái quát “ngũ cốc, cám nhiều chất kali” 3.3.2 Khai phá liệu có cấu trúc lớn Khai phá liệu thường thực sở liệu quan hệ giao dịch xác định lĩnh vực mà sử dụng tính năng, nghiên cứu gần sở liệu có cấu trúc lớn World Wide Web (Etzioni 1996) Ví dụ nỗ lực gần để phân biệt văn web cách sử dụng từ ngữ chức từ tính bao gồm Maarek 63 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page 63 of 128 Header Page 64 of 128 Shaull (1995) Tuy nhiên, tương đối nhỏ mẫu đào tạo có nhãn chiều hạn chế lớn thành công cuối tự động phân loại tài liệu web dựa từ tính Phương pháp phân cụm K-means có nghĩa phân nhóm sử dụng để nhóm từ 5190 thành 10 nhóm Một kết đáng ngạc nhiên trung bình 92% từ rơi vào cụm nhất, mà sau loại bỏ để khai thác liệu mục đích Điều sử dụng ngữ cảnh bình thường, điều kiện mà không xảy thường xuyên tồn tài liệu có xu hướng cụm thành nhóm thành viên lớn 4000, điều khoản sử dụng theo cách tương tự suốt toàn tài liệu Điều khoản sử dụng bối cảnh cụ thể xuất tài liệu phù hợp với điều kiện thích hợp khác cho sáng chế có xu hướng cụm lại với số nhóm từ, ngữ cảnh đặc biệt bật so với đám đông Sau discarding cluster lớn nhất, thiết lập nhỏ tính sử dụng để xây dựng truy vấn tài liệu khác có liên quan Web 3.3.3 Khai phá liệu Cơ sở liệu địa chất Khai phá sở liệu nguồn lực quan trọng việc thăm dò dầu mỏ sản xuất Nó phổ biến kiến thức ngành cơng nghiệp dầu mỏ mà chi phí điển hình khoan đắt, hệ thống khoan có định đáng kể làm giảm chi phí sản xuất chung Tiến công nghệ khoan phương pháp thu thập liệu có dẫn đến cơng ty dầu mỏ họ có thu nhập lượng lớn địa vật lý liệu địa chất từ giếng sản xuất trang web thăm dò, sau tổ chức chúng thành sở liệu lớn Kỹ thuật khai thác liệu gần sử dụng để lấy xác phân tích mối quan hệ tượng quan sát thông số Những mối quan hệ sau sử dụng để định lượng dầu khí đốt 64 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page 64 of 128 Header Page 65 of 128 Về chất lượng, trữ lượng tốt phục hồi có bão hòa hydrocarbon cao mắc kẹt trầm tích xốp (chứa porosity) bao quanh số lượng lớn loại đá cứng có ngăn chặn rò rỉ dầu khí từ xa Một khối lượng lớn trầm tích xốp quan trọng để dự trữ phục hồi tốt, phát triển đáng tin cậy xác phương pháp cho dự đốn trầm tích từ liệu thu thập để ước tính tiềm dầu khí Các quy tắc chung chun gia sử dụng cho tính tốn độ xốp: Độ xốp = K.e-F(x1, x2, , x ).Depth m Hình 25: Mã vùng so với đồ đơn vị địa tầng khu vực nghiên cứu Thuật toán phân cụm liệu K-means sử dụng để xác định tập đồng cấu trúc địa chất nguyên thủy (g1, g2,…, gm) Những nguyên thủy sau ánh xạ vào mã đơn vị so với đồ đơn vị tầng học Hình mô tả phần đồ tập hợp giếng bốn cấu trúc nguyên thủy Bước trính phát triển xác định phần khu vực giếng tạo thành từ trình tự địa chất nguyên thủy Mỗi trình tự quy định Ci ngữ cảnh Từ phần đồ, C1 = g2 g1 g2 g3 xác định khu vực tốt (của 300 600 65 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page 65 of 128 Header Page 66 of 128 series) Sau bối cảnh xác định, liệu điểm thuộc bối cảnh nhóm lại với Thủ tục dẫn xuất derivation làm việc phân tích hồi quy (Sen Srivastava 1990) Phương pháp áp dụng cho tập liệu khoảng 2600 đối tượng tương ứng với mẫu đo thu thập từ giếng lưu vực Alaska K-means nhóm liệu đặt thành nhóm, chọn 138 đối tượng đại diện cho bối cảnh để phân tích Các tính định nghĩa cụm lựa chọn, chuyên gia surmised bối cảnh đại diện cho vùng độ xốp rỗng thấp, mơ hình cách sử dụng thủ tục hồi quy 66 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page 66 of 128 Header Page 67 of 128 KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN Kết luận Data mining lĩnh vực nghiên cứu mới, đồng thời xu hướng nghiên cứu ngày phổ biến Do nhu cầu thực tế, với phát triển công nghệ máy tính, lĩnh vực kinh tế - xã hội lượng thơng tin lưu trữ ngày tăng, nhu cầu khai thác thông tin, tri thức ngày lớn Do việc đọc, nghiên cứu phát triển phương pháp phân cụm liệu đóng vai trò quan trọng hoạt động khoa học công nghệ máy tính hoạt động thực tiễn Các vấn đề tìm hiểu luận văn Tổng hợp, nghiên cứu nét lý thuyết ứng dụng thực tiễn phân cụm liệu Với phát triển ngày lớn vũ bão Công nghệ thơng tin, u cầu nghiên cứu hồn thiện, áp dụng phương pháp, kỹ thuật phân cụm liệu cần thiết có ý nghĩa to lớn Trong chương 1, khóa luận trình bày tổng quan lý thuyết phân cụm liệu, số lý liên quan trực tiếp đến khai phá liệu Chương 2, giới thiệu tổng quan thuật toán phân cụm liệu, khóa luận trình bày thuật tốn phổ biến, thơng dụng Chương nói số ứng dụng tiêu biểu phân cụm liệu phân đoạn ảnh, nhận diện đối tượng ký tự, khai phá liệu Định hướng phát triển Nghiên cứu kỹ thuật phân cụm liệu ứng dụng hướng nghiên cứu cần thiết, quan trọng Tuy nhiên mảng rộng, bao hàm nhiều phương pháp, kỹ thuật, hình thành nhiều nhóm khác 67 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page 67 of 128 Header Page 68 of 128 Phát triển nghiên cứu thêm lý thuyết phân cụm liệu, xây dựng, phát triển thêm kỹ thuật, ứng dụng phân cụm liệu Trong trình nghiên cứu, thực khóa luận cố gắng tập trung nghiên cứu tham khảo nhiều tài liệu, báo cáo, tạp chí khoa học, trình độ nhiều giới hạn khơng thể tránh khỏi thiếu sót hạn chế Em mong bảo đóng góp nhiều thầy, giáo bạn Một lần nữa, em xin chân thành gửi lời cảm ơn giúp đỡ thầy cô giáo khoa Công nghệ thông tin, đặc biệt PGS.TS Trịnh Đình Thắng tồn thể bạn lớp K35CNTT giúp đỡ em q trình làm khóa luận tốt nghiệp 68 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page 68 of 128 Header Page 69 of 128 TÀI LIỆU THAM KHẢO [1] Nguyễn Trung Thông, Phương pháp phân cụm nửa giám sát, Nhà xuất giáo dục [2] Hà Quang Thụy (2009), Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam [3] Kỹ sư Nguyễn Anh Trung - Trung tâm Công nghệ Thông tin, Ứng dụng kỹ thuật khai phá liệu vào lĩnh vực viễn thơng [4] Hồng Hải Xanh, Một số kỹ thuật phân cụm liệu Data Mining, Luận văn thạc sĩ, Trường Đại học Công nghệ (ĐHQGHN), Hà Nội [5] Hoàng Xuân Huấn, Nguyễn Thị Xuân Hương, Mở rộng thuật toán phân cụm K-Mean cho liệu hỗn hợp Một số vấn đề chọn lọc Cơng nghệ thơng tin, Hải phòng 25-27 tháng năm 2005 69 luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Page 69 of 128 ... Header Page 20 of 128 CHƯƠNG PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU 2.1 Khái niệm phân cụm liệu Phân cụm liệu kỹ thuật phát triển mạnh mẽ nhiều năm trở lại ứng dụng lợi ích to lớn lĩnh... Nghiên cứu kỹ thuật phân cụm liệu ứng dụng hướng nghiên cứu cho khóa luận Mục đích nghiên cứu - Tìm hiểu qua trình khám phá tri thức khai phá liệu - Tìm hiểu phân cụm liệu thuật toán phân cụm. .. dựa vào phân cụm phân cấp 28 2.6.2 Thuật toán phân cụm liệu mờ 33 2.6.3 Thuật toán phân cụm liệu dựa vào cụm trung tâm 35 2.6.4 Thuật toán phân cụm liệu dựa vào lưới 38 2.6.5 Thuật

Ngày đăng: 30/03/2018, 22:43

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w