LỜI NÓI ĐẦU
1 Lý do lựa chọn đề tài
Sự phát trién mạnh mẽ của công nghệ thông tin và truyền thông đã tác động và ảnh hưởng rất lớn đến các lĩnh vực đời sống kinh tế - xã hội Chính vì vậy, khối lượng đữ
liệu con người thu thập được thông qua các hoạt động kinh tế - xã hội ngày càng lớn, hình
thành nên những nhà kho đữ liệu có dung lượng hang terabyte, các hệ thống máy tính được kết nối mạng với nhau làm cho các dit liệu ngày càng trở nên phong phú và phức tạp Một
trong các lĩnh vực đang được nghiên cứu, ứng dụng mạnh mẽ trong khai thác, phân tích dữ
liệu ngày nay là Phát hiện tri thức và khai phá dữ liệu.
Trong thực tế, dé thể hiện thông tin của các đối tượng, các hiện tượng hay
vấn đề nào đó người ta phải sử dụng kết hợp nhiều loại đữ liệu khác nhau cùng lúc như
kiểu dữ liệu số, dữ liệu định danh, dữ liệu định danh có thứ tự Bài toán đặt ra là làm thế nào dé kết hợp các thuộc tinh lại với nhau để giải quyết tốt nhất các bài toán cơ bản trong khai phá dữ liệu như Phân lớp, Phân cụm Trong các bài toán đó, điểm mau chốt
là phải xác định được một độ đo khoảng cách hoặc độ đo tương tự/không tương tự cho
các đối tượng cần xem xét Với các dữ liệu thuần nhất hiện đã có nhiều độ đo được dé
xuất, mỗi độ đo này có một ý nghĩa riêng và tuỳ thuộc theo lĩnh vực bài toán áp dụng
cũng như đặc tính của loại dữ liệu Việc chuyển đôi các dạng dữ liệu khác nhau về cùng một loại trong khi tính toán độ tương tự có thé dẫn đến sai khác về ý nghĩa hay mat mát thông tin Đồng thời, mỗi loại dit liệu khác nhau sẽ có ý nghĩa khác nhau nên không thé kết hợp chúng lại trong cùng một độ đo một cách đơn thuần.
Vì những lý do đó, đề tài của luận án này nhằm nghiên cứu độ đo tương tự hỗn
hợp hoặc độ đo khoảng cách hỗn hợp giữa các đối tượng dé có thé xử lý dit liệu dưới dạng hỗn hợp mà không cần thiết phải chuyển đổi các dạng đữ liệu, như vậy sẽ tránh
được mat mát thông tin.
2 Mục đích nghiên cứu của luận án
Qua quá trình tìm hiểu, nghiên cứu về phát hiện tri thức và khai phá đữ liệu,
đặc điểm của các loại di liệu và đặc biệt là độ đo tương tự hỗn hợp, học viên nhận thấy độ
đo tương tự hỗn hợp hay độ đo khoảng cách hỗn hợp đóng vai trò rất quan trọng trong các
Trang 2bài toán khai phá dữ liệu dựa trên khoảng cách Vì vậy, mục đích của luận án là nghiên cứu
nhằm tim ra hoặc cải tiến các phương pháp, các kỹ thuật tính toán độ đo tương tự hỗn hợp
áp dụng trong bài toán phân lớp dữ liệu một cách hiệu quả, thực hiện các thực nghiệm trên
các bộ dữ liệu chuẩn dùng dé nghiên cứu phát hiện tri thức và khai pha dữ liệu, thực nghiệm
trên bộ dữ liệu mẫu trên internet.
3 Đối tượng, phạm vi nghiên cứu
Nghiên cứu các vấn đề cơ bản của phát hiện tri thức và khai phá đữ liệu; độ đo
tương tự và độ đo tương tự hỗn hợp; bài toán phân lớp, phân cụm trong phát hiện tri thức vàkhai phá dữ liệu Các nội dung nghiên cứu sẽ được thử nghiệm trên một số bộ đữ liệu của
cộng đồng nghiên cứu phát hiện tri thức và khai phá dif liệu trên internet và các dữ liệu kinh
tế - xã hội của Việt Nam.
4 Phương pháp nghiên cứu
Học viên sử dụng phương pháp khảo sát các vẫn đề cần nghiên cứu, so sánh,
phân tích dựa trên những lý thuyết cơ bản của các lĩnh vực như: phát hiện tri thức và khai phá dữ liệu; phân tích và thiết kế thuật toán Các đề xuất của học viên sẽ được kiểm nghiệm bằng các dữ liệu chuẩn được công bố cho cộng đồng nghiên cứu sử dụng và các dữ
liệu kinh tế - xã hội thực tế của Việt Nam.
5 Những đóng góp của luận văn
Luận văn đã nêu ra một số vấn đề về ly thuyét của độ do tương tự, các khái niệm va
những van dé cơ ban của phan cụm dữ liệu.Trong luận văn nêu ra các điểm khác biệt của độ
đo tương tự hỗn hợp với các độ đo tương tự khác.Học viên nêu ra thực nghiệm với bộ dữ
liệu mẫu trên internet để thực nghiệm độ đo tương tự hỗn hop sử dụng phân cum dir liệu
theo cụm so với thực nghiệm sử dụng độ đo tương tự là độ đo khoảng cách Euclide.
6 Kết cấu của luận văn
Luận án được trình bày trong ba chương:
Chương 1 Những vấn đề lý luận chung
Chương này trình bày các khái niệm và những vấn đề cơ bản về phát hiện tri thức và khai phá di liệu, tóm lược các nội dung cơ bản của lý thuyết tập thô dé làm nền tảng lý thuyết cho các đề xuất tính toán trọng số trong độ đo tương tự hỗn hợp của chương 2.
Chương 1 cũng trình bày tổng quan những nghiên cứu về độ đo tương tự, độ đo tương tự
hỗn hợp và bài toán khai phá đữ liệu
Trang 3Chương 2 Nghiên cứu độ đo tương tự hỗn hợp trong phát hiện tri thức từ dữ liệu
Chương này trình bày về độ đo tương tự hỗn hợp theo phương pháp truyền thống và
độ đo tương tự hỗn hợp của Goodall Học viên nghiên cứu theo phương pháp tự động xác
định trọng số cho các thuộc tính trong độ đo tương tự hỗn hợp dựa trên lý thuyết tập thô, thử
nghiệm độ phức tạp tính toán của thuật toán xác định trọng số tự động trong độ đo tương tự hỗn hợp, quy trình sử dụng độ đo tương tự hỗn hợp có trọng số này.
Chương 3 Thử nghiệm độ đo MSM-R trong bài toán phan lớp và phâncụm dữ liệu
Học viên trình bày về bài toán phân lớp dữ liệu với thuật toán Kmeans gần nhất có sử
dụng độ đo MSM-R, áp dụng thử nghiệm phân lớp cho các bộ dữ liệu mẫu trên Internet.
Trong chương học viên cũng giới thiệu tóm tắt về các đặc trưng của dữ liệu trên Internet , trích lọc dữ liệu Đối với bai toán phân cụm, học viên cũng đã thử nghiệm và trình bày một
số kết quả bước đầu về phân cụm đữ liệu Mẫu internet.
Trang 4CHƯƠNG 1 NHỮNG VAN DE LÝ LUẬN CHUNG 1.1 Giới thiệu chương
Mục tiêu của chương này là nhăm trình bày về cơ sở lý luận, lý thuyết nền tảng phục
vụ cho những nghiên cứu sâu hơn trong luận án.
1.2 Phát hiện tri thức và khai phá dữ liệu
Phát hiện tri thức và khai phá đữ liệu là một lĩnh vực phát triển rất nhanh chóng, đây
là lĩnh vực giao thoa giữa hệ co sở dit liệu, thống kê, học máy và các lĩnh vực liên quan khác nhằm trích rút ra những tri thức hữu ích từ những tập dữ liệu rất lớn.
Định nghĩa: Khai pha dit liệu là một tập hợp các kỹ thuật được sử dung để tự động
khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp đữ liệu không lô và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó.
Khai phá dữ liệu là một bước trong bảy bước của quá trình KDD (KnowleadgeDiscovery in Database) và KDD được xem như 7 quá trình khác nhau theo thứ tự sau:
1 Làm sạch dữ liệu (data cleaning & preprocessing)s: Loại bỏ nhiễu va các dit liệu
không cần thiết.
2 Tích hợp dữ liệu: (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning &
3 Trích chon dir liệu (data selection): trích chon dir liệu từ những kho dữ liệu va sau
đó chuyền đổi về dang thích hợp cho quá trình khai thác tri thức.
4 Chuyển đổi dữ liệu: Cac dit liệu được chuyển đổi sang các dang phù hợp cho qua
trình xử lý
5 Khai phá dữ liệu(data mining): Là một trong các bước quan trọng nhất, trong đó sử dụng những phương pháp thông minh dé chat lọc ra những mẫu dữ liệu.
6 Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm được
thông qua các độ đo nào đó.
7 Biéu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ thuật dé
biểu diễn và thể hiện trực quan cho người dùng.
Trang 51.3 Tổng quan về Lý thuyết tập thô
Lý thuyết tập thô được nhà khoa học người Balan Zdislaw Pawlak đưa ra lần đầu tiên
vào năm 1982 Tập thô là một công cụ toán học mới cho suy diễn được phát triển từ tính mập mờ và tính không chắc chắn của một khái niệm Lý thuyết tập thô được phát triển từ giả định là dé định nghĩa một tập hợp ta cần phải biết một số thông tin (hay tri thức) về các phần tử của tập vũ trụ - trái với cách tiếp cận cô điền, định nghĩa tập hợp một cách duy nhất dựa trên các phan tử của tập đó và không cần thêm bat cứ thông tin gì về các phần tử của tập Hiển nhiên là đối với một số phan tử, thông tin của chúng có thé tương tự nhau và do đó các phần tử này không thể phân biệt được một cách rõ ràng nếu chỉ nhìn từ thông tin về chúng Quan hệ không phân biệt được chính là điểm khởi đầu của lý thuyết tập thô và quan hệ này chỉ ra sự mập mờ và không chắc chắn có quan hệ chặt chẽ với tính không phân biệt
được và chúng có thể được định nghĩa dựa trên các cơ sở của quan hệ này Qua đó, một loạt
các khái niệm và những vấn đề liên quan được trình bày như xấp xi tập hợp, rút gọn, quan
hệ giữa các thuộc tính
1.4 Tổng quan các nghiên cứu về đề tài luận án
Năm 1966, Goodall [13] đã đưa ra phương pháp tinh độ tương tự hỗn hợp
cho các đối tượng với cơ sở toán học chặt chẽ nhằm áp dụng cho bài toán phân loại thực vật Trong phương pháp tính độ tương tự hỗn hợp của Goodall, các đối tượng trong một
tập đối tượng được thể hiện bằng các một tập các thuộc tính có kiểu dữ liệu số, định danh và định danh có thứ tự Goodall thực hiện tính độ tương tự cho hai đối tượng trên từng
loại thuộc tính riêng biệt bằng cách tính xác suất xuất hiện các giá tri của từng thuộc tinh của đối tượng trên toàn bộ tập đối tượng với tư tưởng giá tri nao của thuộc tính ít xuất hiện sẽ đóng vai trò quan trọng hơn so với giá trị khác của thuộc tính để tạo ra quan hệ sắp xếp thứ tự cho giá trị thuộc tính, sau đó, Goodall kết hợp các gia tri tương tự riêng cho từngthuộc tính vào trong một giá trị tương tự hỗn hợp cho hai đối tượng Việc tính toán độ tương tự hỗn hợp này có độ phức tạp lớn Một nhược điểm khác của độ tương tự hỗn hợp này là khi muốn tìm độ tương tự của một đối tượng so với một đối tượng khác trong mộttập huấn luyện, ta phải đưa đối tượng này vào tập huấn luyện để tính toán, đồng thời, độ đo tương tự hỗn hợp của Goodall không phải là độ đo thoả mãn các tiên đề metric (học viên sé chỉ rõ điểm này trong chương 2) Cen Li va Gautam Biswas trong [18], [21] đã đưa ra thuật toán mới dé phân cụm dit liệu theo phương pháp gộp có tên SBAC (Similarity
Trang 6Based Agglomerative Clustering), trong đó lẫy độ tương tự do Goodall đưa ra làm hàm
tính độ tương tự cho thuật toán này Trong bài, các học viên đã đánh giá độ tương tự của
Goodall làm việc tốt trên dữ liệu hỗn hợp Các học viên trong [5], [6] đã nghiên cứu các
đặc điểm của độ tương tự của Goodall trong bài toán khai pha dữ liệu va đề xuất thuật toán cải thiện tốc độ tính toán độ tương tự cho một cặp đối tượng với độ phức tạp tính toán
là O(n) theo thời gian va O(n) theo không gian lưu trữ Năm 2005, học viên trong [28] đã
nghiên cứu va đưa ra độ đo tương tự cho di liệu phân loại, dữ liệu hỗn tap va dữ liệu đồ
thị Các nghiên cứu trên đây của các học viên phần lớn sử dụng độ tương tự hỗn hợp của
Goodall trong các thuật toán của mình hoặc dùng Goodall với vai trò là một phương pháp
để so sánh.
Ngoài các bài nghiên cứu về độ đo tương tự hỗn hợp theo hướng nghiên cứu theo cách tính của Goodall, một số học viên khác đã có những nghiên cứu theo các hướng khác
về độ đo tương tự hỗn hợp và độ đo tương tự cho thuộc tính phân loại do tính chất đặc biệt
của loại dữ liệu này Năm 1997, Zhexue Huang trong [15] trình bày thuật toán
k-protonhóms dựa trên ý tưởng thuật toán k-mean dé phân cụm cho tập dữ liệu lớn có chứa thuộc tính số và thuộc tính phân loại Trong bài viết, học viên đã trình bày cách tính hàm giá và độ tương tự cho các đối tượng dựa trên việc kết hợp giữa độ tương tự của thuộc tính số là Square Euclidean và độ tương tự của thuộc tính phân loại là số lượng giá trị khác của giữa các đối tượng và đối với các tâm của cụm Năm 2007, Amir Ahmad và Lipika Dey
trong [2] đã trình bay một thuật toán phân cum dựa trên ý tưởng thuật toán k-mean cho dtr
liệu hỗn hợp, các học viên cũng đề xuất một hàm tính khoảng cách và tính hàm giá dựa trên sự đồng xuất hiện của các giá trị đồng thời trình bay sự thay đổi của học viên về mô tả
tâm của cụm trong thuật toán k-mean.
Xuất phát từ nhu cầu thực tiễn và từ những nghiên cứu liên quan, việc tìm kiếm phương pháp tính toán độ đo tương tự hỗn hợp cho các bài toán khai phá dữ liệu dựa trên khoảng cách hay dựa trên độ đo tương tự như phân lớp và phân cụm là rất cần thiết.
Chính vi lý do đó, học viên tập trung nghiên cứu về độ đo tương tự trên dữ liệu hỗn hop và
khả năng áp dụng chúng trong các bài toán khai phá dữ liệu dựa trên độ đo khoảng cách
hoặc độ đo tương tự trong dé tài luận án này.
Trang 71.5 Tổng kết chương 1
Trong chương này, học viên đã trình bày các khái niệm và những vấn đề cơ bản về phát hiện tri thức và khai phá dữ liệu, các chức năng của phát hiện tri thức và khai
phá dữ liệu, mô hình của hệ thống phát hiện tri thức và khai phá dữ liệu, khái niệm lý thuyết
tập thô.
Trang 8CHƯƠNG 2 NGHIÊN CỨU ĐỘ ĐO TƯƠNG TỰ HON HỢP
TRONG PHÁT HIỆN TRI THỨC TỪ DỮ LIỆU 2.1 Giới thiệu chương
Mục tiêu của chương là nhằm đưa ra phương pháp tự động xác định trọng số trong độ đo tương tự hỗn hợp dựa trên lý thuyết tập thô, độ đo này được tính gián tiếp thông
qua độ đo khoảng cách hỗn hợp thoả mãn các tiên đề metric.
2.2 Tổng quan về độ đo tương tự
2.2.1 Độ do tương tự dựa trên khoảng cách
Dựa trên khái niệm về đa chiều mở rộng (Multidimensional scaling -MDR) là kỹ thuật dựa trên độ đo tương tự để tạo ra không gian tọa độ các điểm giống nhau dựa trên tỷ lệ nghịch về khoảng cách(Young & Hamer, 1994 ) Khoảng cách phố biến nhất được sử dung trong MDR là khoảng cách Euclidean với không gian 2 chiêu.
Chúng ta thường sử dụng khoảng cách giữa 2 A,B với không gian hệ tọa độ 2 chiều
2.2.2 Độ do tương tự dựa trên đặc trưng
Một phan dé đáp ứng với bằng chứng thực nghiệm đối với các tiên đề khoảng cách, Tversky (1977) đề xuất rang sự giỗng nhau nhận thức là kết quả của một quá trình tinh năng phù hợp với các kiểu khác mà trọng lượng tính năng kích thích chung và riêng biệt Hãy g
(A ñB) biểu thi sự nỗi bật trong những tinh năng được phô biến đến các kích thích A và B
và dé cho g(A-B) biểu thị sự nồi bật của các tính năng độc đáo để kích thích kinh tế A.
Sau đó, mô hình tương phản (1977) tính năng Tversky của đề xuất rằng sự giống nhau của kích thích kinh tế từ A đến B là kích thích bằng.
s (A, B) = ø g(A ñB) - B g(A - B) -yg(B - A),
nơi a, B, y là hằng số và có thé khác nhau giữa các cá nhân, bối cảnh và hướng dan.
Theo mô hình này, các tính năng chung tăng tương tự, trong khi tính năng độc đáo cho một
gói kích thích giảm tương tự Một lợi thế của mô hình tính năng tương phản là nó có thể chiếm vi phạm trong bất kỳ của các tiên đề khoảng cách.
Trang 92.2.3 Độ do tương tự dựa trên xác suat
Tất cả các biện pháp tương tự được coi là cho đến nay giả rằng trình bày lặp đi lặp lại
của các gói kích thích cùng luôn gợi cùng nhận thức chính xác - đó là, họ giả định rằng nhận thức trước được Tuy nhiên, nhiều nhà lý luận đã cho rằng thông tin đó tạo một nguyên tắc thay đổi theo thời gian, và vì thé mà nguyên tắc là xác suất Điều này phù hop với kinh nghiệm cá nhân liên quan đến mùi vị của sản phẩm, quan điểm về các vấn đề chính trị, hoặc ý kiến về con người Quá trình sinh học liên quan đến việc tạo ra tắc, hóa chất va sự biến đổi vật lý kết hợp với các kích thích, và những hạn chế về khả năng của chúng tôi dé biết được tình trạng thông tin hoàn toàn tất cả các mô hình lợi mà giả nguyên tắc xác suất.
2.3 Độ đo tương tự hỗn hợp có trọng số cho thuộc tính được xác định tự động dựa trên tiếp cận lý thuyết tập thô
Trong phần này, học viên trình bày về độ đo tương tự hỗn hợp và tập trung vào trình bày lại phương pháp tính độ đo khoảng cách truyền thống và phương pháp tính độ đo tương tự của Goodall Qua việc phân tích những điểm tồn tại của độ đo trên, học viên
dẫn dắt đến việc đề xuất phương pháp tính trọng số cho thuộc tính trong độ đo hỗn hợp.
2.3.1 Khoảng cách giữa hai doi trợng
Nhằm xác định khoảng cách hỗn hợp giữa hai đối tượng hay xác định độ
tương tự hỗn hợp giữa hai đối tượng thỏa mãn các tiên dé metric, trong phan này học viên
đưa ra phương pháp tính trọng số cho các thuộc tính một cách tự động trong độ đo tương tự hỗn hợp với tiếp cận lý thuyết tập thô Đây là một cách tiếp cận mới trong việc sử dụng lý thuyết tập thô cho các bài toán phát hiện tri thức và khai phá dữ liệu.
Giả sử các đối tượng trong một hệ quyết định được thé hiện bằng m thuộc tính A=fai, đ›, , Am}, dụ Edom(a,) là giá trị trên thuộc tính k của đối tượng iva thuộc tính quyết định hay thuộc tinh phân lớp là đ Xuất phát từ công thức tính khoảng cách Euclide, học viên đưa thêm trọng số cho các thuộc tính tương ứng, khi đó khoảng cách giữa hai đối tượng
được định nghĩa một cách tông quát là:
.)" " (2.39)
trong đó w„là trọng SỐ tương ứng với thuộc tính thứ k, thoả mãn các điều kiện sau:
Trang 10trong đó Gimax= max ( a, \" 62), min({a, lo )1
và max la, Jerrd(as)) min({a, lu) tương ứng là giá trị lớn nhất và giá trị nhỏ nhất trên
thuộc tính thứ & của hệ quyết định Trong trường hợp áp dụng công thức này cho bài toán phân lớp đữ liệu, ta phải thực hiện bước tiền xử lý để xác định miền giá trị cho thuộc tính
thứ k của hệ quyết định, khi đó min({a,}°""), max(fa, }2®)Ì sẽ là giá trị nhỏ nhất và giá trị
lớn nhất trong miễn giá trị của thuộc tính.
- Với thuộc tính định danh, khoảng cách đã chuẩn hoá là:
2.3.2Tinh trọng số cho các thuộc tinh
Như chúng ta đã biết, một đối tượng được xác định bởi một tập giá trị trên tập
thuộc tính đặc trưng cho đối tượng, nếu nhiều đối tượng có cùng giá tri trên một thuộc tinh điều kiện nào đó mà các đối tượng này lại cũng có giá trị trên thuộc tính quyết định hay
Trang 11phân lớp/phân cụm như nhau thì khi đó ta có thé coi là thuộc tinh điều kiện có sự anh hưởng lớn đến thuộc tính quyết định hay phân lớp/phân cụm.
Với tư tưởng trên và dựa trên lý thuyết tập thô, ta có thé xác định được mức độ anh
hưởng của một thuộc tính a„tới kết quả phân lớp/phân cum theo thuộc tính d:
a, _|f9s.0]_ xp fae7 x 7 (2.46)
trong đó POS, (d) là vùng dương dựa trên thuộc tinh a, với các phân hoạch của U
trên thuộc tính quyết định đ.
hệ số này thoả mãn điều kiện:
O<a,<1 (2.47)
Từ đó, dé chuẩn hoá các trọng sé trong độ công thức tinh độ đo thoả mãn (2.41), chúng tôi đưa ra công thức xác định trọng số cho các thuộc tính:
với điêu kiện c>1 O đây, học viên lựa chọn giá trị c=e dé tính toán và thực nghiệm
trong các phần sau này Từ đó, công thức (2.48) có thê viết thành:
vw, =————— (2.49)
G,; thoả mãn hoàn toàn các tiên dé metric vì công thức (2.45) dé tính khoảng cách giữa hai đối tượng chính là khoảng cach Euclide, trong công thức đó có sử dụng các trong
số cho khoảng cách của từng thuộc tính đơn nhưng không làm mất tính chất thoả mãn các
tiên đề metric của độ đo này Dưới đây học viên trình bày cách chứng minh khoảng cách Gi thoa man cac tién dé metric:
Khoảng cách G; hiển nhiên thoả mãn tiên đề Không âm và tiên đề Đối xứng Ta kiểm tra tiên đề Tam giác:
Giả sử {aj, đ¿, , ap} là các thuộc tinh SỐ, (dp.i, đpx2, Am} là các thuộc tính định
danh.
Trang 12tương ứng là giá tri của các thuộc tính sô của hai đôi tượng i, jsau khi đã được tính toán với
các cách tính trên và kêt hợp với trọng sô của thuộc tính, như vậy w,¢,, = lu —? i
Khi đó: Cj, = w,g„, VỚI kK=ptilm, Oi, € [0,1] là khoảng cách giữa hai đối tượng i,j
trên thuộc tính định danhk.
Trang 13Vi các thuộc tinh [ p+J, , m] nay là thuộc tinh định danh, khoảng cách giữa chung
được xác định theo (2.43), ta có thé chứng minh:
Cink + Cin >On vk=p+l,m
+ nếu Cin ==0=>hién nhiên đúng
+nếu Cit=w,Â, #0
Trang 142.3.3.Độ do tương tự hỗn hợp có trọng số dựa trên lý thuyết tập thô (Mixed
Similarity Measure based on Rough set theory - MSM-R)
Từ các dé xuất trên, theo công thức chuyên đổi độ đo tương tự, ta có thé tính độ đo
tương tự hỗn hopMSM-R cho hai đối tượng i và j một cách gián tiếp thông qua khoảng cách giữa hai đối tượng như sau:
Sy =1-G, =1- là tu, (2.53)
2.3.4 Thuật toán xác định trọng số cho các thuộc tinh trong độ do tương tự hỗn
Với các công thức tính trọng số cho các thuộc tính trong độ đo tương tự hỗn
hợp đã đề xuất ở trên, học viên trình bày hai thuật toán để tính hệ số œ, và tính w; với thuộc
tính quyết định đ Thuật toán dé tính hệ số o, được sử dụng ý tưởng từ thuật toán tìm các
lớp tương đương được trình bày trong [30] Kết quả thử nghiệm thể hiện độ phức tạp tính toán của thuật toán tính trọng sé phụ thuộc vảo thuật toán sắp xếp dữ liệu mà ta chọn.
2.4 Các mô hình phân cụm dữ liệu
2.4.1 Tổng quan về phân cụm dữ liệu
Phân cụm dữ liệu nhăm mục đích chính là khai phá câu trúc của mẫu dữ liệu để
thành lập các nhóm dữ liệu từ tập dữ liệu lớn, theo đó.
2.4.2 Giải thuật K-Means
Thuật toán K-means clustering do MacQueen giới thiệu trong tài liệu “J SomeMethods for Classification and Analysis of Multivariate Observations” năm 1967.
K-means Clustering là một thuật toán dùng trong các bài toán phân loại/nhóm n đối
tượng thành k nhóm dựa trên đặc tính/thuộc tính của đối tượng (k <n nguyên, đương).
về nguyên lý, có n đối tượng, mỗi đối tượng có m thuộc tính, ta phân chia được các đối tượng thành k nhóm dựa trên các thuộc tính của đối tượng bằng việc áp dụng thuật toán
Coi mỗi thuộc tính của đối tượng (đối tượng có m thuộc tính) như một toạ độ của
không gian m chiêu và biêu diễn đôi tượng như một diém của không gian m chiêu.
Trang 15Aj =( Xịt Xi2, Xim) (1)
a; (i=1 n) - đối tượng thứ i
xij (i=1 n, j=1 m) - thuộc tinh thứ j của đối tượng i
Phương thức phân loại/nhóm dữ liệu thực hiện dựa trên khoảng cách Euclidean nhỏ
nhất giữa đối tượng đến phan tử trung tâm của các nhóm.
Phần tử trung tâm của nhóm được xác định bằng giá trị trung bình các phần tử trong
Khoảng cách Euclidean từ đối tượng ai đến phan tử trung tâm nhóm j cj được tính
toán dựa trên công thức:
Ø;¡ - khoảng cach Euclidean từ ai đến cj Xi, - thuộc tinh thứ s của đối tượng ai
+;s- thuộc tính thứ s của phan tử trung tâm cj
2.4.2.2 Phần tử trung tâm.
k phần tử trung tâm (k nhóm) ban đầu được chọn ngẫu nhiên, sau mỗi lần nhóm các đối tượng vào các nhóm, phần tử trung tâm được tính toán lại.
Clusteri = {al, a2 at} — Nhóm thứ 1