Nghiên cứu phương pháp cho bài toán phân cụm và xây dựng hệ thống thử nghiệm (tt)

26 21 0
Nghiên cứu phương pháp cho bài toán phân cụm và xây dựng hệ thống thử nghiệm (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - NGUYỄN LÂM TÚ NGHIÊN CỨU PHƢƠNG PHÁP CHO BÀI TOÁN PHÂN CỤM VÀ XÂY DỰNG HỆ THỐNG THỬ NGHIỆM Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2013 Luận văn đƣợc hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG Ngƣời hƣớng dẫn khoa học: PGS.TS Đoàn Văn Ban Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn đƣợc bảo vệ trƣớc Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bƣu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thƣ viện Học viện Công nghệ Bƣu Viễn thơng LỜI MỞ ĐẦU Thơng tin nguồn tri thức rào quan trọng nhân loại, lƣợng liệu ngƣời ta thu thập đƣợc ngày lớn Với phát triển cơng nghệ điện tốn hệ thống lƣu trữ liệu khối lƣợng tài nguyên số ngày trở nên đồ sộ phức tạp Trong xã hội đại, thơng tin đóng vai trị then chốt Thông tin tri thức mà cịn đóng vai trị khác nhƣ điều hƣớng trình sản xuất Ảnh hƣởng đến hoạt động xã hội hay thị trƣờng Tác động đến thói quen ngƣời tiêu dùng Việc phân cụm liệu, để phân loại quản lý nguồn liệu cách có hiệu trọng tâm nghiên cứu khai phá liệu Khoa học máy tính Mà ứng dụng đƣợc thực hóa nhiều thực tế, kinh doanh thông minh (BI-Bussiness Intellegent) ví dụ rõ nét Các cơng ty doanh nghiệp muốn phát triển khả kinh doanh họ, muốn phục vụ khách hàng tốt, có thêm khách hàng lợi nhuận nhiều Việc hoạch định chiến lƣợc kinh doanh dựa thông tin công ty nhu cầu tất yếu Từ xây dựng phát triển hệ thống BI trở nên cần thiết dần gắn liền với hoạt động công ty Phân cụm liệu có nhiều phƣơng pháp Mỗi phƣơng pháp có ƣu điểm, nhƣợc điểm khả ứng dụng riêng Trong nội dung luận văn này, tác giả trình bày phƣơng pháp phân cụm phân cấp kết hợp với mạng nơ-ron để giải vấn đề cụ thể hệ thống BI Luận văn đƣợc trình bày gồm chƣơng với nội dung chƣơng nhƣ sau: Chƣơng 1: Giới thiệu khai phá liệu, khái niệm khai phá liệu Đồng thời chƣơng tác giả sâu vào phân cụm liệu số phƣơng pháp lĩnh vực Chƣơng 2: Trong chƣơng luận văn tập trung vào việc tìm hiều kết hợp thuật toán phân cụm, áp dụng chúng vào vấn đề cụ thể BI Hai thuật toán đƣợc tìm hiểu sau chƣơng phân cụm phân cấp thuật toán SOM Bài toán đƣợc đƣa để giải toán phân loại khách hàng triển vọng sản phẩm tiềm Chƣơng 3: Chƣơng vào việc cài đặt ứng dụng cụ thể dựa thuật toán vấn đề đƣợc nêu chƣơng Ứng dụng đƣợc phát triển ứng dụng đơn giản nhƣng bao quát đầy đủ thuật toán nhƣ thỏa mãn toán đặt CHƢƠNG 1: KHAI PHÁ DỮ LIỆU VÀ CÁC PHƢƠNG PHÁP PHÂN CỤM DỮ LIỆU 1.1 Giới thiệu chung khai phá liệu Khai phá liệu q trình rút trích hay khai phá tri thức từ lƣợng lớn liệu Ta nói q trình đƣợc thực theo quy trình với nhiều bƣớc rõ ràng, bƣớc có vai trò định Việc khai phá liệu bắt nguồn từ nhu cầu thực mà lƣợng liệu ngƣời ta sử dụng ngày nhiều Lấy ví dụ nhƣ q trình sản xuất, kinh doanh, liệu khách hàng, hợp đồng, số liệu kinh doanh, chứng từ, tài liệu, … lên đến hàng triệu file hay ghi Việc quản lý khai thác lƣợng lớn liệu điều sống cịn với doanh nghiệp Q trình khai phá liệu đƣợc chia thành ba giai đoạn chính, là: - Giai đoạn tiền xử lý (pre-processing) - Giai đoạn khai phá, rút trích (data mining) - Giai đoạn hậu lý xong (post-processing) Hình 1.1.Quá trình khai phá liệu Trong giai đoạn lại đƣợc chia thành nhiệm vụ nhỏ hơn.Thơng thƣờng nhiều lý mà liệu thô ban đầu sử dụng cho trình khai phá đƣợc Chúng cần đƣợc tinh lọc xử lý trƣớc Giai đoạn tiền xử lý bao gồm bốn bƣớc: - Bƣớc làm liệu (Cleaning): Loại bỏ liệu dƣ thừa không đồng - Bƣớc tích hợp (Integration): liệu đƣợc lấy từ nhiều nguồn khác nhau, bƣớc tất dứ liệu đƣợc kết hợp lại với - Bƣớc lựa chọn liệu (Data Selection): bƣớc liệu đƣợc coi tốt đƣợc lấy ra, chúng liệu đầu vào cho việc phân tích liệu - Bƣớc cuối bƣớc chuyển đổi (Transformation): bƣớc liệu đƣợc chuyển đổi hợp vào định dạng phù hợp với việc khai phá sau Một số kỹ thuật thƣờng đƣợc sử dụng bƣớc tổng quát hóa (summary) hay kết hợp (aggregation) Giai đoạn khai phá liệu giai đoạn quan trọng tồn q trình Sau giai đoạn tiền xử lý, lƣợng liệu đƣợc đƣa vào cho giai đoạn khai phá Một số kỹ thuật đƣợc sử dụng giai đoạn này: khai phá luật kết hợp (association rule mining), khai phá mẫu (sequential pattern mining), học giám sát (hay phân loại –classification) học không giám sát (hay phân cụm clustering ) Tuy vào đặc trƣng toán mà kỹ thuật thích hợp đƣợc sử dụng Kết giai đoạn đƣa ra, rút trích đƣợc mẫu hay tri thức Giai đoạn cuối giai đoạn sau xử lý xong Trong nhiều ứng dụng khơng phải tất mẫu có đƣợc từ giai đoạn khai phá hữu dụng Bạn hay tƣởng tƣợng với hệ thống lớn có sử dụng khai phá liệu có tới hàng nghìn hay hàng triệu luật hay mẫu Các luật hay mẫu có đƣợc từ giai đoạn xử lý phức tạp với lƣợng liệu lớn Chính khơng phải luật, mẫu đƣợc sinh thật tốt Hơn thế, mẫu đƣợc coi tốt cần đảm bảo số tính chất nhƣ: dễ hiểu ngƣời dễ tiếp cận, hoạt động tốt với liệu mới, mang tính cách tân hữu dụng,nó cần phù hợp với cá lý thuyết đƣợc đề Đây nhiệm vụ bƣớc đánh giá (Evaluation) giai đoạn hậu xử lý liệu Ngoai giai đoạn cịn có bƣớc trình bày lại tri thức (Knowledge Presentation) Bƣớc sử dụng kỹ thuật trình bày trực quan: đƣa báo cáo, biểu đồ… nhằm giúp ngƣời dùng tiếp cận với tri thức đƣợc rút trích [20] 1.2 Các phương pháp phân cụm Khai phá liệu Phân cụm liệu trình nhằm xếp đối tượng vào nhóm cho thành viên nhóm có đặc điểm riêng biệt Cụm hiểu theo nghĩa tâp đối tượng có đặc điểm giống khác biệt với đối tượng nhóm khác [3, 24] Phân cụm thƣờng đƣợc đề cập tới nhƣ kiểu “học không giám sát” (unsupervised learning) Tức trình phân cụm liệu không dựa nhãn cho trƣớc Phƣơng pháp phân cụm đƣợc sử dụng để tìm cấu trúc tập hợp liệu không mang nhãn Hai hay nhiều đối tƣợng nằm cụm nhƣ đối tƣợng chúng định đƣợc khái niệm chung cho tất đối tƣợng khác Nói cách khác đối tƣợng đƣợc phân cụm dựa khái niệm chung cho nhóm khơng phải từ đặc điểm giống riêng lẻ 1.2.1 Phƣơng pháp phân hoạch (Partitioning Methods) Phƣơng pháp phân hoạch phƣơng pháp phân chia n đối tƣợng cho trƣớc k nhóm khác Các nhóm tạo dựa vào phân hoạch đối tƣợng Một cách thức thƣờng đƣợc sử dụng dựa vào khoảng cách Các đối tƣợng nhóm có đặc điểm giống gần giống nhau, đối tƣợng nhóm khác có đặc tính khác 1.2.2 Phƣơng pháp phân cấp (Hierarchical Methods) Đây phƣơng pháp nhằm phân chia đối tƣợng thành cụm dƣới dạng sơ đồ cấu trúc Phƣơng pháp bao gồm làm hai kỹ thuật chính: tích tụ (agglomerative) phân chia (divisive) Tích tụ cách phân cụm theo kiểu từ dƣới lên (buttom – up) phân chia cách phân cụm theo kiểu từ xuống (topdown) 1.2.3 Phƣơng pháp dựa mật độ (Density-Based Methods) Để tìm cụm có hình dạng phức tạp nhiều kiểu khác nhau, ngƣời ta sử dụng phƣơng pháp phân cụm dựa mật độ [4, 20] Phƣơng pháp nhằm phân định vùng có mật độ đối tƣợng dầy đặc thành nhóm tách biệt khỏi vùng có mật độ đối tƣợng 1.2.4 Phƣơng pháp dựa lƣới (Grid-Based Methods) Cách tiếp cận phân cụm dựa lƣới sử dụng cấu trúc lƣới đa phân giải Lƣới cấu trúc định lƣợng đối tƣợng không gian vào lƣợng giới hạn ô lƣới Tiếp thực tất thao tác phân cụm cấu trúc Thuận lợi tiếp cận thời gian xử lý nhanh chóng độc lập với số đối tƣợng liệu tuỳ thuộc vào số lƣợng ô chiều không gian [6, 7, 20] 1.3 Kết luận chƣơng CHƢƠNG 2: PHƢƠNG PHÁP PHÂN CỤM PHÂN CẤP VÀ PHƢƠNG PHÁP SOM 2.1 Phương pháp phân cụm phân cấp Phương pháp phân cụm phân cấp phương pháp phân cụm, đối tượng liệu gom vào cụm có cấu trúc dạng Trong phƣơng pháp đối tƣợng đƣợc phân rã theo dạng cấu trúc phân cấp (có thứ bậc) Tuy theo cách thức phân rã mà ngƣời ta sử dụng hai kỹ thuật phƣơng pháp là: Phân rã theo hƣớng từ xuống (tiếp cận theo hƣớng phân chia) phân rã theo hƣớng từ dƣới lên (tiếp cận theo hƣớng tích tụ) [12] 2.1.1 Những khái niệm chung phƣơng pháp Phân cụm phân cấp Cách tiếp cận dƣới lên: Ban đầu, xem đối tƣợng nhóm (cụm) nhóm đối tƣợng gần thành cụm Quá trình lặp lại tất đối tƣợng đƣợc nhóm vào cụm cuối Cách tiếp cận xuống: Quá trình ngƣợc lại với tiếp cận dƣới lên, ban đầu xem tất đối tƣợng thuộc cụm, sau tiến hành phân thành nhóm (thƣờng dựa vào khoảng cách lớn nhất) Quá trình đƣợc thực nhóm cịn đối tƣợng 2.1.2 Nội dung đặc điểm phƣơng pháp Phân cụm phân cấp Một thuật toán thƣờng đƣợc sử dụng phƣơng pháp phân cụm phân cấp nhƣ là: Thuật tốn phân cụm phân cấp tích tụ (Agglomerative Hierarchical Clustering) [22] Kỹ thuật tính liên kết (linkage between objects): Bảng 2.1 Bảng so sánh cách tính độ liên kết cụm Kỹ thuật Liên kết đơn Cách thức Lấy khoảng cách đối tƣợng gần Độ phƣc tạp Đặc điểm ảnh hƣởng đến tập đối tƣợng Liên kết hoàn toàn Liên kết trung bình nhóm Liên kết tâm Lấy khoảng cách đối tƣợng xa Lấy khoảng cách trung bình đối tƣợng Lấy khoảng cách tâm cụm ( N ) ( N log N ) Ảnh hƣởng đến liệu ngoại biên ( N log N ) Là lựa chọn tốt cho nhiều ứng dụng ( N log N ) Sự đảo ngƣợc xảy 2.1.3 Ứng dụng phƣơng pháp Phân cụm phân cấp Phƣơng pháp phân cụm theo thứ bậc đƣợc sử dụng nhiều thực tế Một số kỹ thuật thƣờng thấy phƣơng pháp là: [2 20] - BIRCH - CURE - CHAMELEON Phƣơng pháp phân cụm phân cấp thƣờng đƣợc áp dụng cho toán khai phá liệu nhƣ: phân cụm tài liệu theo cấu trúc cây; đƣợc áp dụng để phân cụm tập liệu miêu tả cấu trúc gen; Đƣợc áp dụng tốn dự đốn tài chính, thị trƣờng chứng khốn 2.2 Mạng nơ-ron cách học khơng giám sát SOM 2.2.1 Giới thiệu mạng Nơ-ron Mạng Nơ-ron (Artificial Neural Network- ANN) mơ hình tốn học xây dựng dựa mô hệ thần kinh sinh học Mơ hình bao gồm số lượng lớn nốt gắn kết với để xử lý thông tin Các nốt gọi đơn vị xử lý hay Nơ-ron ANN giống não người, học kinh nghiệm (thông qua huấn luyện), có khả lưu giữ kinh nghiệm hiểu biết (tri thức) sử dụng tri thức việc dự đốn liệu chưa biết (unseen data) [13, 22] 10 Learning) học không giám sát (Un-Supervised Learning) Học giám sát nghĩa giá trị đầu vào kết mong muốn đƣợc đƣa trƣớc Điển hình cho kỹ thuật mạng Nơ-ron lan truyền ngƣợc (Backpropagation) Học không giám sát ta biết đƣợc giá trị đầu vào, giá trị mong muốn đƣợc thiết lập dần trình học Mạng Nơ-ron điển hình đƣợc huấn luyện theo kiểu học không giám sát mạng tự tổ chức SOM ( Self Organization Map) Khơng có kiểu học giám sát theo mơ hình mạng tự tổ chức Mạng Nơ-ron có cách huấn luyện huấn luyện theo khối, huấn luyện ngẫu nhiên huấn luyện trực tuyến 2.2.2 Nội dung đặc điểm phƣơng pháp SOM SOM ( Seft Organization Map) mạng Nơ-ron nhân tạo, huấn luyện kỹ thuật khơng giám sát,trong số lượng Nơ-ron SOM số lượng cụm liệu huấn luyện Các Nơ-ron SOM biểu diễn dãy, dãy chiều hay dãy hai chiều Cách biều diễn thường sử dụng biểu diễn theo hai chiều, SOM coi mạng tự tổ chức hai chiều cụm Dữ liệu đầu vào thuộc cụm định-tương ứng với Nơ-ron, cụm có số chiều số chiều Nơ-ron Như SOM có khả biểu diễn liệu đầu vào nhiều chiều trở thành chiều [19, 21] Hình 2.7 Mạng tự tổ chức SOM Thuật toán: 11 Input: Tập vector đầu vào, tập Nơ-ron Output: Tập cụm liệu đầu Các cụm tạo thành SOM Nội dung: Bước 1: Khởi tạo trọng số cách ngẫu nhiên Bước 2: với vector đầu vào x, thực bƣớc đến Bước 3: Đối với Nơ-ron thứ j, ta tính khoảng cách D( j )  n  (x i 1 i - w ji ) (2.7) Bước 4: Tìm khoảng cách D(j) nhỏ nhất, từ xác định đƣợc winning Nơron Bước 5: cập nhật giá trị trọng số tất láng giềng j winning Nơron w ij  w ij   h(i , j )( xi  w ij ) (2.8) Bước 6: giảm số học  và bán kính láng riềng  Bước 7: kiểm tra giá trị điều kiện dừng kết thúc thuật toán điều kiện dừng 2.2.3 Ứng dụng SOM thực tế Một số ứng dụng thực tế SOM kể ra: - Kohonen (1984) hệ thống nhận biết âm - Hệ thông nhận biết ký tự 12 - Ứng dụng việc giải toán ngƣời bán hàng - Tổ chức lƣu trữ tài liệu (Document Organization and Retrieval - SOM đƣợc sử dụng ứng dụng Gen di truyền học 2.3 Giới thiệu BI toán hỗ trợ kinh doanh 2.3.1 BI chiến lƣợc khách hàng BI ( Business Intelligence) tập hợp lý thuyết, phương pháp, quy trình, kiến trúc, cơng nghệ với mục tiêu chuyển hóa liệu thơ thành thơng tin có nghĩa hữu ích cho việc kinh doanh [27] Các thành phần BI: Hình 2.8 Các thành phần hệ thống BI Thông thƣờng doanh nghiệp chọn BI mà họ nghĩ đến hệ thống có khả dự báo hỗ trợ việc định Nhiệm vụ BI tạo tri thức từ liệu ban đầu doanh nghiệp Thơng qua việc phân tích, đánh giá tri thức doanh nghiệp dự báo trƣớc xác định mục tiêu, định BI giúp cho doanh nghiệp thay đổi cách nhìn nhận thực tế hoạt động mình, nhƣ đề chiền lƣợc 13 kinh doanh phù hợp với thực tế BI thay đổi tầm nhìn thay đổi cách hoạt động tƣơng lai doanh nghiệp Cũng nhƣ theo định nghĩa BI, có vai trị quan trọng chuyển hóa liệu thơ thành thong tin có nghĩa hữu ích cho việc kinh doanh Điều có nghĩa BI giúp cho việc quản lý liệu tài nguyên doanh nghiệp cách tốt tạo giá trị tri thức từ nguồn liệu Mức độ chuyển hóa liệu đƣợc đề cập đến là: Dữ liệu  Thơng tin Tri thức 2.3.2 Vai trò khai phá liệu BI Khai phá liệu đóng vai trị quan trọng BI Nó có nhiệm vụ biến đổi liệu thơ, vơ nghĩa thành liệu có tri thức nhằm giúp cho việc định hay định hƣớng định 2.3.3 Bài toán phân loại khách hàng triển vọng đánh giá sản phẩm tiềm Khách hàng sản phẩm hai yếu tố quan trọng chiến lƣợc kinh doanh, gắn liền với thành công hay thất bại doanh nghiệp Hai yếu tố ln đơi có quan hệ qua lại với nhau.Nắm bắt đƣợc đâu khách hàng, nhóm khách hàng phù hợp triển vọng dựa yếu tố công ty nhƣ dịch vụ, sản phẩm với đặc điểm khách hàng điều mấu chốt Từ việc phân vùng khách hàng mà ta biết đƣợc nên đầu tƣ trọng đến mặt hàng để nâng cao sức hút với khách hàng đẩy mạnh trình kinh doanh Bài tốn đƣợc đặt là: Cho trƣớc số lƣợng khách hàng với đặc tính, gom cụm khách hàng nhằm tìm nhóm khách hàng có đặc điểm, thói quen giống Từ ta biết đƣợc sản phẩm hay dịch vụ phù hợp với nhóm khách hàng Kết toán giúp cho doanh nghiệp biết đƣợc tính chất nhóm khách hàng, khoanh vùng đƣợc khách hàng Đồng thời thấy đƣợc cần phải trọng vào mạng kinh doanh sản phẩm hay dịch vụ 14 2.4 Kết hợp phân cụm phân cấp SOM để giải toán hỗ trợ kinh doanh 2.4.1 Sự kết hợp phân cụm phân cấp với SOM, thuật toán HSOM SOM phƣơng pháp phân cụm đƣợc đánh giá mạnh mẽ linh hoạt Trong trọng tâm thuật tốn rơi vào việc xây dựng mạng lƣới Nơ-ron với vector trọng số Nơ-ron Tính linh hoạt phƣơng pháp gắn liền với trình cập nhật lân cận Nơ-ron chiến thắng Mỗi Nơ-ron đƣợc coi cụm Nhƣ vậy, ta thấy việc xây dựng mạng lƣới Nơ-ron ban đầu với đặc tính Nơ-ron bƣớc quan trọng SOM Việc sử dụng phƣơng pháp phân cụm phân cấp mà cụ thể kỹ thuật tích tụ (tích tụ algorithm) hƣớng để tích hợp hai phƣơng pháp Q trình xử lý phƣơng pháp SOM đƣợc minh họa sơ đồ sau: Hình 2.9 Kết hợp phân cụm phân cấp SOM Trong phạm vi luận văn này, việc kết hợp hai phƣơng pháp SOM Hierachical Clustering để tạo bƣớc việc phân cụm liệu đƣợc gọi tắt thuật toán HSOM Nội dung thuật toán HSOM nhƣ sau: Input: cho tập vector đầu vào X ={x1, x2, …, xn} Output: Xác định cụm vector đầu vào Bước 0: Xác định tham số đầu vào MxN (kích thƣớc Map SOM); số học ban đầu 0 ; số lƣợng epoch (số lƣợng lần huấn luyện) Bước 1: Xây dựng lƣới Nơ-ron Sử dụng kỹ thuật Tích tụ để gom nhóm Nơ-ron tạo mạng tự tổ chức SOM 15 Bước 1.1: Tập vector đầu vào đối tƣợng xây dựng mạng tự tổ chức SOM Bước 1.2: Tính tốn khoảng cách đối tƣợng tập huấn luyện E Thiết lập ma trận khoảng cách Bước 1.3: Coi đối tƣợng cụm Lặp lại bƣớc sau số lƣợng cụm MxN - Tìm min(aij), xác định đƣợc hai đối tƣợng ei, ej Gom nhóm hai đối tƣợng thành nhóm - Cập nhật lại ma trận khoảng cách M với số lƣợng đối tƣợng giảm Bước 1.4: - Ta có đƣợc tập cụm với ma trận khoảng cách cụm Mỗi cụm Nơ-ron - Đối với vector trọng số Nơ-ron: Vector trọng số Nơ-ron đƣợc tính tốn lại theo cơng thức trung bình sau: w - w1  w 2  w k k (2.13) Thực việc ánh xạ đến mạng tự tổ chức SOM nhƣ sau: + Tìm vị trí cịn trống có khoảng cách đến đến nhỏ + Tìm min(aij), xác định đƣợc hai đối tƣợng ei, ej, đặt vào hai vị trí vừa tìm đƣợc Gom nhóm hai đối tƣợng thành nhóm +Cập nhật lại ma trận khoảng cách M với số lƣợng đối tƣợng giảm + Kết thúc trình ánh xạ nhƣ lƣới SOM đƣợc lấp đầy - Xác định đƣợc bán kính láng giềng ban đầu mạng tự tổ chức:  = max(aij)/2 Bước 2: với vector huấn luyện đầu vào x, thực bƣớc đến Bước 3: Đối với Nơ-ron thứ j, ta tính khoảng cách D( j )  n  ( x -w i 1 i ji )2 (2.14) 16 Bước 4: Tìm khoảng cách D(j) nhỏ nhất, từ xác định đƣợc Nơ-ron chiến thắng Bước 5: cập nhật giá trị trọng số tất láng giềng j Nơ-ron chiến thắng wij  wij   h(i , j )( xi  w ij )  d  h (i, j )  exp   ( j ,winner ) 2 2   T1  epoch / log( ) (2.15) (2.16) (2.17) Bước 6: giảm số học  bán kính   (n)  0 exp  count epochs   (count )   exp   count T    (2.18) (2.19) Bước 7: kiểm tra giá trị điều kiện dừng kết thúc thuật toán điều kiện dừng 2.4.2 Thuật toán HSOM toán hỗ trợ kinh doanh Thuật toán HSOM thuật toán phù hợp cho việc giải toán phân loại khách hàng triển vọng đánh giá sản phẩm tiềm Thực chất HSOM thuật tốn phân cụm, kết cuối đƣa tập cụm với đặc tính riêng chúng Ngồi ra, HSOM chấp nhận lƣợng liệu lớn đầu vào với cá thuộc tính cho trƣớc Số lƣợng cụm đầu đƣợc xác định khơng chế trƣớc Hình 2.11 Mơ hình tốn hỗ trợ kinh doanh Thuật tốn thực có ích số lƣợng liệu khách hàng lớn gây khó khăn cho ngƣời quản lý phân tích lƣợng liệu phức tạp nhƣ Thuật toán 17 gom cụm giảm thiểu số lƣợng liệu đầu vào Việc khách hàng thuộc vào cụm thể xu khách hàng Cùng với vector trọng số cụm mà cho ta biết đƣợc yếu tố ảnh hƣởng đến nhóm khách hàng nhiều Các thông tin tri thức đƣợc ngƣời quản lý nắm bắt dựa vào mà đƣa định cho phù hợp với công ty 2.4.3 Quá trình tìm kiếm BMU cập nhật BMU vào HSOM Map Nơ-ron có vector trọng số gần giống với giá trị huấn luyện đầu vào đƣợc gọi BMU (Best matching unit) Hay hiểu theo cách khác, Nơ-ron có khoảng cách nhỏ tới giá trị huấn luyện BMU đƣợc xác định bƣớc số thuật toán HSOM Để biết đƣợc đâu Nơ-ron giống với giá trị huấn luyện nhất, sử dụng cách tính khoảng cách cơng thức Euclid: D( j )  n  ( x -w i 1 i ji )2 Sau ta xác định khoảng cách nhỏ tƣơng ứng với Nơ-ron BMU BMU đƣợc xác định sau vịng lặp khơng phải cố định suốt q trình chạy thuật tốn BMU rằng, đâu điểm mạng tự tổ chức giữ vai trị trung tâm vịng lặp Đồng thời, đƣợc điểm láng giềng nhờ vào giá trị bán kính láng giềng Tiếp sau đó, BMU đƣợc dịch chuyển cập nhật giá trị cho tiến sát vector đâu vào Những giá trị láng giềng theo mà đƣợc cập nhật gom lại gần Việc cập nhật thông qua việc thay đổi giá trị trọng số Nơ-ron với vị trí chúng mạng tự tổ chức Việc cập nhật trọng số đƣợc tính theo cơng thức sau: w ij  w ij   h(i , j )( xi  w ij ) 2.5 Kết luận chương 18 CHƢƠNG 3: XÂY DỰNG ỨNG DỤNG PHÂN CỤM DỮ LIỆU CHO BÀI TOÁN HỖ TRỢ KINH DOANH 3.1 Thu thập liệu khách hàng từ hệ thống Taskhub Taskhub hệ thống phần mềm ERP dựa Web đƣợc phát triển cơng ty Synergix Technologies (Singapore), có chức hỗ trợ cách hiểu với hoạt động q trình kinh doanh cơng ty Taskhub đƣợc thiết kế Web nên đƣợc truy cập lúc nơi không phụ thuộc vào hệ điều hành hay tảng Taskhub có đến hai mƣơi module khác nhau, module hƣớng đến phần hoạt động doanh nghiệp nhƣ: MFG, AR, AP, SO, PJ… Trong SO (Sales Order) module tƣơng tác với khách hàng giúp khách hàng đƣa yêu cầu Đây module chứa liệu khách hàng với đặc điểm tƣơng tác khách hàng công ty Trong luận văn, tác giả lấy số liệu khách hàng từ Module cơng ty, có sang lọc tinh chỉnh để làm ví dụ cho hệ thống demo HSOM Bảng 3.1 Dữ liệu thử nghiệm cho ứng dụng 19 3.2 Xây dựng kiến trúc ứng dụng Hệ thống đƣợc xây dựng bao gồm gói (package) nhƣ sơ đồ sau: Hình 3.1 Các gói (package) hệ thống 3.3 Thực ứng dụng 3.3.1 Biểu đồ lớp biểu đồ Có lớp đƣợc sử dụng ứng dụng, chúng đƣợc miêu tả theo sơ đồ lớp nhƣ sau: 20 Hình 3.2 Sơ đồ lớp ứng dụng Quá trình xử lý ứng dụng đƣợc mơ hình hóa dƣới dạng sơ đồ sau: Hình 3.3 Biểu đồ trình xử lý ứng dụng Quá trình tích hợp xuất báo cáo đƣợc mơ tả sơ đồ sau: Hình Hình 3.4 Biểu đồ trình truy xuất báo cáo 21 Dữ liệu đầu vào cho ứng dụng Dữ liệu đầu vào ứng dụng dƣới dạng file hay trích xuất từ sở liệu Ứng dụng chấp nhận liệu dạng vector đƣợc lƣu xuống file File có phần mở rộng som file mặc định mà ứng dụng đọc đƣợc Trong phần cài đặt luận văn, tác giả sử dụng hệ quản trị DB2 để quản lý liệu Cấu trúc bảng đƣợc sử dụng miêu tả sơ đồ thực thể sau: Hình 3.5 Mơ hình thực thể kết hợp Dữ liệu miêu tả mối quan hệ khách hàng, đơn đặt hàng sản phẩm đơn đặt hàng Ứng dụng có nhiệm vụ phải tìm tri thức khách hàng sản phẩm thỏa mãn toán phân loại khách hàng triển vọng đánh giá sản phẩm tiềm 3.3.2 Biến đổi giá trị trích xuất thành vector trọng số Thuật tốn SOM làm việc với giá trị trọng số vector Chính cần có bƣớc để biến liệu thơ thành dạng trọng số Đây nhiệm vụ trình tiền xử lý liệu ứng dụng 22 Giá trị thực Bộ biến đổi Giá trị trọng số Hình 3.6 Quá trình chuyển hóa liệu thực qua dạng vector Kỹ thuật đƣợc xử dụng sử dụng bảng trung gian, nối kết giá trị cụ thể với trọng số Tùy thuộc vào tình hình kinh doanh thực tế, nhƣ đặc điểm, hoạt động công ty mà xác định đƣợc trọng số quan trọng 3.4 Tìm hiểu cơng cụ IReport xuất báo cáo kinh doanh từ ứng dụng JasperReport công cụ mã nguồn mở java dùng chuyên cho báo cáo(report) JasperReport thƣờng đƣợc sử dụng cho ứng dụng BI hay hệ thống quản trị doanh nghiệp 3.5 Kết thu đƣợc thực nghiệm Kết thu đƣợc: xây dựng đƣợc ứng dụng với tính sau; thực thi đƣợc thuật toán đề Luận văn xây dựng đƣợc hệ thống thử nghiệm cho toán phân cụm đặt Ứng dụng giải đƣợc toán BI: “ nhằm xác định khách hàng triển vọng đánh giá sản phẩm tiềm năng” Dựa liệu kinh doanh đầu vào công ty, ứng dụng tách lọc, phân tích, khai phá, gom nhóm liệu Cuối cùng, kết thu đƣợc báo cáo tích hợp thơng tin hỗ trợ cho việc định hoạch định chiến lƣợc 23 Hình 3.9 Hình ảnh ứng dụng Hình 3.20 Báo cáo nhóm khách hàng sản phẩm Dƣới báo cáo khác nữa, cho thấy mặt hàng(inventory Code) đƣợc mua nhiều nhất, có tiềm để kinh doanh 3.6 Kết luận chƣơng 24 KẾT LUẬN Luận văn nghiên cứu tìm hiểu phƣơng pháp phân cụm liệu, mà trọng tâm hai phƣơng pháp phân cụm phân cấp SOM Kết hợp tính chất phân cấp hội tụ phân cụm phân cấp với SOM cách thức tiếp cận cho số toán đƣợc đặt thực tế Luận văn đƣa nhìn khái quát hƣớng phát triển lĩnh vực kinh doanh quản lý, BI ( Business Intellegence) Áp dụng cơng nghệ khai phá liệu vào BI điểm mấu chốt để phát triển lĩnh vực Luận văn đƣa toán BI giải thuật tốn khai phá liệu Tổng kết số điểm mà luận văn đạt đƣợc nhƣ sau: - Trình bày khai phá liệu, khái niệm khai phá liệu - Giới thiệu tập trung vào hai phƣơng pháp phân cụm có thứ bậc phân cụm theo SOM - Xây dựng ứng dụng minh họa cho hai thuật tốn Từ áp dụng cho tốn cụ thể BI tốn: phân loại khách hàng triển vọng sản phẩm có tiềm ... thuộc vào số lƣợng ô chiều không gian [6, 7, 20] 1.3 Kết luận chƣơng CHƢƠNG 2: PHƢƠNG PHÁP PHÂN CỤM PHÂN CẤP VÀ PHƢƠNG PHÁP SOM 2.1 Phương pháp phân cụm phân cấp Phương pháp phân cụm phân cấp phương. .. dụ cho hệ thống demo HSOM Bảng 3.1 Dữ liệu thử nghiệm cho ứng dụng 19 3.2 Xây dựng kiến trúc ứng dụng Hệ thống đƣợc xây dựng bao gồm gói (package) nhƣ sơ đồ sau: Hình 3.1 Các gói (package) hệ thống. .. dựng đƣợc ứng dụng với tính sau; thực thi đƣợc thuật toán đề Luận văn xây dựng đƣợc hệ thống thử nghiệm cho toán phân cụm đặt Ứng dụng giải đƣợc toán BI: “ nhằm xác định khách hàng triển vọng đánh

Ngày đăng: 19/03/2021, 18:03

Mục lục

  • Luận văn được hoàn thành tại:

  • HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

  • Người hướng dẫn khoa học: PGS.TS Đoàn Văn Ban

  • Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông

  • Có thể tìm hiểu luận văn tại:

  • CHƯƠNG 1: KHAI PHÁ DỮ LIỆU VÀ CÁC PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU

    • Giới thiệu chung về khai phá dữ liệu

      • Hình 1.1.Quá trình khai phá dữ liệu

      • Các phương pháp phân cụm trong Khai phá dữ liệu

        • Phương pháp phân hoạch (Partitioning Methods)

        • Phương pháp phân cấp (Hierarchical Methods)

        • Phương pháp dựa trên mật độ (Density-Based Methods)

        • Phương pháp dựa trên lưới (Grid-Based Methods)

        • CHƯƠNG 2: PHƯƠNG PHÁP PHÂN CỤM PHÂN CẤP VÀ PHƯƠNG PHÁP SOM

          • Phương pháp phân cụm phân cấp

            • Những khái niệm chung trong phương pháp Phân cụm phân cấp

            • Nội dung và đặc điểm của phương pháp Phân cụm phân cấp

            • Bảng 2.1. Bảng so sánh các cách tính độ liên kết giữa các cụm

            • Ứng dụng của phương pháp Phân cụm phân cấp

            • Mạng nơ-ron và cách học không giám sát SOM

              • Giới thiệu về mạng Nơ-ron

              • Hình 2.6. Mô hình của Nơ-ron trong mạng Nơ-ron

              • Nội dung và đặc điểm của phương pháp SOM

              • Hình 2.7. Mạng tự tổ chức SOM

              • Ứng dụng của SOM trong thực tế

              • Giới thiệu về BI và bài toán hỗ trợ kinh doanh

                • BI và chiến lược khách hàng

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan