Quyển báo cáo này giới thiệu về đề tài Phân loại tự động khách hàng bằng thuật toán Kmeans. Đề tài này mô tả một nghiên cứu về cách áp dụng thuật toán Kmeans để phân loại khách hàng một cách tự động. Chúng ta sống trong thời đại số hóa, và việc hiểu và phân loại khách hàng dựa trên hành vi và dữ liệu của họ là một yếu tố quan trọng để nâng cao hiệu suất kinh doanh và cung cấp dịch vụ cá nhân hóa. Trong thực tế, việc phân loại khách hàng có thể giúp doanh nghiệp xác định nhu cầu của họ, tạo ra chiến dịch tiếp thị hiệu quả hơn và cung cấp dịch vụ tốt hơn. Với nhận thức về những lợi ích này, nghiên cứu và áp dụng thuật toán K means cho bài toán phân loại tự động khách hàng trở thành một giải pháp tiềm năng và mang tính ứng dụng cao. Để thực hiện nghiên cứu này, chúng tôi đã tiếp thu kiến thức và kỹ năng liên quan đến thuật toán Kmeans, xử lý dữ liệu và phân tích kết quả. Đồng thời, chúng tôi cũng đã nắm vững các công cụ và ngôn ngữ lập trình để triển khai thuật toán và tạo ra một hệ thống đáng tin cậy và dễ sử dụng cho phân loại khách hàng.
Trang 1TR ƯỜ NG Đ I H C CÔNG NGHI P HÀ N I Ạ Ọ Ệ Ộ
KHOA CÔNG NGH THÔNG TIN Ệ -
BÁO CÁO H C PH N Ọ Ầ KHAI THÁC D LI U Ữ Ệ
Hà N i ─ Năm 2023ộ
2
Trang 2M C L C Ụ Ụ
DANH M C HÌNH NH 4Ụ Ả
L I C M N 5Ờ Ả Ơ
L I NÓI Đ U 6Ờ Ầ
CHƯƠNG 1 BÀI TOÁN PHÂN LO I T Đ NG KHÁCH HÀNG 8 1.1.Ạ Ự Ộ
T ng quan v khai thác d li u và bài toán phân lo i 8 ổ ề ữ ệ ạ1.1.1 Khai thác d li u 8 1.1.2.ữ ệBài toán phân nhóm d li u 9 1.2 Thu tữ ệ ậtoán K-means và bài toán phân lo i t đ ng khách hàng 10 1.2.1 Gi iạ ự ộ ớthi u bài toán 10 1.2.2 Các khóệkhăn thách th c c a bài toán 11 1.2.3 Đ u vào vàứ ủ ầ
đ u ra c a bài toán 12 1.2.4 ng d ng c a bàiầ ủ Ứ ụ ủ
toán 13 1.3 C s lýơ ởthuy t 14 ế
CHƯƠNG 2 M T S THU T TOÁN S D NG Đ PHÂN C M 15 2.1.Ộ Ố Ậ Ử Ụ Ể ỤThu t toán K-means 15 ậ
2.1.1 Khái ni m 15ệ2.1.2 Cách ho t đ ng 15ạ ộ2.1.3 Ph ng pháp ch n s c m t i u Elbow Method 23ươ ọ ố ụ ố ư2.1.4 Đánh giá thu t toán K-means 24 ậ2.2 DBSCAN (Density-Based Spatial Clustering of Applications with
Noise) 25 2.2.1 Khái ni m 25ệ2.2.2 Cách ho t đ ng 26ạ ộ2.2.3 Đánh giá 27
3 2.3 Hierarchical Clustering (Phân c m phân c p) 28ụ ấ
Trang 32.3.1 Khái ni m 28ệ2.3.2 Cách ho t đ ng 28ạ ộ2.3.3 Bi u đ Dendrogram trong phân c m theo c p b c 31ể ồ ụ ấ ậ2.3.4 Đánh giá 32 2.4 Thu t toán Mean-shift 33 2.4.1.ậKhái ni m 33 2.4.2 Cáchệ
ho t đ ng 33 2.4.3 Đánhạ ộgiá 34 TÀI LI U THAMỆ
s hóa, và vi c hi u và phân lo i khách hàng d a trên hành vi và d li u c a h ố ệ ể ạ ự ữ ệ ủ ọ
là m t y u t quan tr ng đ nâng cao hi u su t kinh doanh và cung c p d ch v cá ộ ế ố ọ ể ệ ấ ấ ị ụnhân hóa
Trong th c t , vi c phân lo i khách hàng có th giúp doanh nghi p xác đ nh ự ế ệ ạ ể ệ ịnhu c u c a h , t o ra chi n d ch ti p th hi u qu h n và cung c p d ch v t t h n ầ ủ ọ ạ ế ị ế ị ệ ả ơ ấ ị ụ ố ơ
V i nh n th c v nh ng l i ích này, nghiên c u và áp d ng thu t toán K means cho ớ ậ ứ ề ữ ợ ứ ụ ậbài toán phân lo i t đ ng khách hàng tr thành m t gi i pháp ti m năng và mang ạ ự ộ ở ộ ả ềtính ng d ng cao ứ ụ
Đ th c hi n nghiên c u này, chúng tôi đã ti p thu ki n th c và k năng liênể ự ệ ứ ế ế ứ ỹquan đ n thu t toán K-means, x lý d li u và phân tích k t qu Đ ng th i, chúngế ậ ử ữ ệ ế ả ồ ờtôi cũng đã n m v ng các công c và ngôn ng l p trình đ tri n khai thu t toán vàắ ữ ụ ữ ậ ể ể ậ
t o ra m t h th ng đáng tin c y và d s d ng cho phân lo i khách hàng ạ ộ ệ ố ậ ễ ử ụ ạ
Trong l i nói đ u này, chúng tôi s trình bày m t cái nhìn t ng quan v n iờ ầ ẽ ộ ổ ề ộ
Trang 4dung và c u trúc c a báo cáo Tr c h t, chúng em s trình bày c u trúc c a báoấ ủ ướ ế ẽ ấ ủcáo, bao g m các ch ng chính và n i dung c a t ng ch ng Các ch ng baoồ ươ ộ ủ ừ ươ ươ
g m: ồ
- Ch ng 1: Bài toán phân lo i t đ ng khách hàng ươ ạ ự ộ
- Ch ng 2: Các thu t toán có th s d ng trong phân lo i t đ ng khách ươ ậ ể ử ụ ạ ự ộhàng
- Ch ng 3: S d ng thu t toán K-means áp d ng vào bài toán phân lo i ươ ử ụ ậ ụ ạ
t đ ng khách hàng, k t qu th nghi m ự ộ ế ả ử ệ
Tr c h t, chúng tôi s gi i thi u lý do l a ch n đ tài và m c tiêu c a ướ ế ẽ ớ ệ ự ọ ề ụ ủnghiên c u Chúng tôi cũng s tôn tr ng t m quan tr ng c a vi c phân lo i khách ứ ẽ ọ ầ ọ ủ ệ ạ
7 hàng và làm rõ l i ích c a vi c áp d ng thu t toán K-means trong vi c th c hi n ợ ủ ệ ụ ậ ệ ự ệnhi m v này ệ ụ
Ti p theo, chúng tôi s trình bày v thu t toán K-means và cách nó có th ế ẽ ề ậ ể
đ c áp d ng đ phân lo i khách hàng Chúng tôi cũng s trình bày v quy trình ượ ụ ể ạ ẽ ề
th c hi n nghiên c u và phân tích k t qu ự ệ ứ ế ả
Chúng tôi xin g i l i c m n chân thành đ n quý th y/cô đã dành th i gianử ờ ả ơ ế ầ ờ
và quan tâm đ đ c báo cáo v đ tài c a chúng tôi Chúng tôi mong nh n đ c sể ọ ề ề ủ ậ ượ ựđóng góp và ph n h i t quý v đ ti p t c phát tri n và nâng cao kh năng phânả ồ ừ ị ể ế ụ ể ả
lo i t đ ng khách hàng b ng thu t toán K-means ạ ự ộ ằ ậ
Trang 5Khai thác d li u là m t ph n quan tr ng đ i v i s thành công c a b t kỳ sángữ ệ ộ ầ ọ ố ớ ự ủ ấ
ki n phân tích nào Các doanh nghi p có th s d ng quy trình khai phá ế ệ ể ử ụ
ki n th c đ tăng ni m tin c a khách hàng, tìm ki m ngu n doanh thu m i và ế ứ ể ề ủ ế ồ ớthu hút khách hàng quay l i Quy trình khai thác d li u hi u qu h tr trong ạ ữ ệ ệ ả ỗ ợnhi u khía c nh khác nhau c a vi c l p k ho ch kinh doanh và qu n lý ho t ề ạ ủ ệ ậ ế ạ ả ạ
đ ng ộ
M t s ng d ng th c ti n c a khai thác d li u: ộ ố ứ ụ ự ễ ủ ữ ệ
- Ngân hàng và b o hi m: Các d ch v tài chính có th s d ng ng d ng khai ả ể ị ụ ể ử ụ ứ ụthác d li u đ gi i quy t nh ng v n đ ph c t p liên quan đ n gian l n, ữ ệ ể ả ế ữ ấ ề ứ ạ ế ậtuân th , qu n lý r i ro và t l khách hàng r i b d ch v Ví d : các công ủ ả ủ ỷ ệ ờ ỏ ị ụ ụ
ty b o hi m có th phát hi n m c đ nh giá s n ph m t i u b ng cách so ả ể ể ệ ứ ị ả ẩ ố ư ằsánh hi u su t c a s n ph m trong quá kh v i m c đ nh giá c a đ i th ệ ấ ủ ả ẩ ứ ớ ứ ị ủ ố ủ
h có th t i u hóa l ch trình s n xu t và gi m th i gian ng ng ho t đ ng ọ ể ố ư ị ả ấ ả ờ ừ ạ ộ
- Bán l : Các công ty bán l có c s d li u khách hàng l n v i d li u thô v ẻ ẻ ơ ở ữ ệ ớ ớ ữ ệ ềhành vi mua hàng c a khách hàng Quy trình khai thác d li u có th x lý ủ ữ ệ ể ử
Trang 6d li u này đ thu v thông tin chuyên sâu liên quan cho các chi n d ch ti p ữ ệ ể ề ế ị ế
th và d báo doanh s bán hàng Thông qua các mô hình d li u chính xác ị ự ố ữ ệ
h n, công ty bán l có th t i u hóa ho t đ ng bán hàng và kho v n đ gia ơ ẻ ể ố ư ạ ộ ậ ểtăng s hài lòng c a khách hàng Ví d : quy trình khai thác d li u có th choự ủ ụ ữ ệ ể
bi t các s n ph m theo mùa ph bi n mà nhà bán l có th d tr tr c đ ế ả ẩ ổ ế ẻ ể ự ữ ướ ểtránh tình tr ng thi u h t hàng vào phút cu i ạ ế ụ ố
1.1.2 Bài toán phân nhóm d li u ữ ệ
Bài toán phân nhóm d li u (phân c m, gom nhóm) là cách phân b các đ i ữ ệ ụ ổ ố
t ng d li u vào các nhóm/ c m sao cho: Các đ i t ng trong m t c m thì gi ngượ ữ ệ ụ ố ượ ộ ụ ốnhau h n các ph n t khác c m ơ ầ ử ụ
Bài toán phân nhóm trong khoa h c d li u là quá trình tìm ki m các phân ọ ữ ệ ế
ho ch c a t p d li u M c tiêu là chia d li u thành các nhóm có tính ch t ạ ủ ậ ữ ệ ụ ữ ệ ấ
t ng t nhau bên trong m i nhóm và khác bi t so v i các nhóm khác.ươ ự ỗ ệ ớ
10 Cách ti p c n ph bi n trong phân nhóm là xác đ nh các phân ho ch d li u saoế ậ ổ ế ị ạ ữ ệcho t ng s t ng đ ng gi a các đi m d li u bên trong cùng m t nhóm là l nổ ự ươ ồ ữ ể ữ ệ ộ ớ
nh t có th , trong khi s t ng đ ng gi a các nhóm l i là nh nh t có th ấ ể ự ươ ồ ữ ạ ỏ ấ ểCho m t b d li u g m n đi m, có r t nhi u phân ho ch có th có M c tiêu ộ ộ ữ ệ ồ ể ấ ề ạ ể ụ
c a bài toán phân nhóm là tìm ra m t phân ho ch “t t” ủ ộ ạ ố
1.2 Thu t toán K-means và bài toán phân lo i t đ ng khách ậ ạ ự ộ hàng
1.2.1 Gi i thi u bài toán ớ ệ
Bài toán phân lo i t đ ng khách hàng là m t trong nh ng ng d ng quan tr ngạ ự ộ ộ ữ ứ ụ ọ
Trang 7c a khoa h c d li u trong lĩnh v c ti p th và kinh doanh Bài toán này t p trung ủ ọ ữ ệ ự ế ị ậvào vi c phân lo i các khách hàng vào các nhóm d a trên các đ c đi m và hành vi ệ ạ ự ặ ể
c a h ủ ọ
M c tiêu c a phân lo i t đ ng khách hàng là hi u rõ h n v nhóm khách hàng ụ ủ ạ ự ộ ể ơ ềkhác nhau trong c s khách hàng Qua đó, doanh nghi p có th t i u hóa chi n ơ ở ệ ể ố ư ế
l c ti p th , tăng c ng t ng tác và cung c p giá tr t t h n cho t ng nhóm ượ ế ị ườ ươ ấ ị ố ơ ừkhách hàng
Quy trình phân lo i t đ ng khách hàng th ng g m các b c sau: - Thu th p ạ ự ộ ườ ồ ướ ậ
d li u: B t đ u b ng vi c thu th p d li u v khách hàng t nhi u ngu n ữ ệ ắ ầ ằ ệ ậ ữ ệ ề ừ ề ồkhác nhau nh hành vi mua s m, thông tin cá nhân, t ng tác tr c tuy n.ư ắ ươ ự ế
11
- Ti n x lý d li u: D li u th ng đa d ng và không hoàn h o, vì v y ề ử ữ ệ ữ ệ ườ ạ ả ậ
vi c ti n x lý nh là x lý d li u thi u, chu n hóa d li u là c n thi t ệ ề ử ư ử ữ ệ ế ẩ ữ ệ ầ ế
- Ch n s l ng nhóm (k): Xác đ nh s l ng nhóm mà b n mu n chiaọ ố ượ ị ố ượ ạ ốkhách hàng thành S l ng này có th d a trên ki n th c chuyên môn ho cố ượ ể ự ế ứ ặ
đ c xác đ nh b ng cách s d ng các ph ng pháp đánh giá ượ ị ằ ử ụ ươ
- Áp d ng K-means: S d ng thu t toán K-means đ chia khách hàng ụ ử ụ ậ ểthành K nhóm K-means s c g ng tìm ra K nhóm sao cho các khách ẽ ố ắhàng trong cùng m t nhóm có hành vi mua hàng t ng t nhau, trong ộ ươ ựkhi các nhóm khác nhau có hành vi khác bi t ệ
- Phân tích k t qu : Sau khi hoàn thành quá trình chia nhóm, phân tích k t ế ả ế
qu đ hi u các đ c đi m chung c a t ng nhóm khách hàng Đi u này ả ể ể ặ ể ủ ừ ề
có th giúp b n tùy ch nh chi n l c marketing, c i thi n d ch v , t i uể ạ ỉ ế ượ ả ệ ị ụ ố ưhóa chi n l c bán hàng, và n m b t nhu c u c th c a t ng nhóm ế ượ ắ ắ ầ ụ ể ủ ừkhách hàng
1.2.2 Các khó khăn thách th c c a bài toán ứ ủ
Đ i v i bài toán phân lo i khách hàng nói riêng và bài toán phân nhóm nói ố ớ ạchung, chúng ta đ u ph i đ i m t v i m t s thách th c sau: ề ả ố ặ ớ ộ ố ứ
- S l ng nhóm (K) c n ch n: vi c xác đ nh s l ng nhóm phù h p đ ố ượ ầ ọ ệ ị ố ượ ợ ểphân lo i khách hàng là m t thách th c S l ng nhóm không ch nh ạ ộ ứ ố ượ ỉ ả
Trang 8h ng đ n k t qu phân lo i mà còn nh h ng đ n vi c hi u sâu h n vưở ế ế ả ạ ả ưở ế ệ ể ơ ềhành vi c a khách hàng Ch n sai s l ng nhóm có th d n đ n vi c ủ ọ ố ượ ể ẫ ế ệ
g p nhóm quá chung chung ho c chia nh nhóm m t cách không c n ộ ặ ỏ ộ ầthi t ế
hi u bi t sâu r ng v lĩnh v c và d li u ể ế ộ ề ự ữ ệ
- Đ nh nghĩa đ c đi m chung c a t ng nhóm: Đôi khi, vi c hi u rõ và đ nh ị ặ ể ủ ừ ệ ể ịnghĩa đ c các đ c đi m chung c a t ng nhóm khách hàng sau khi đã ượ ặ ể ủ ừphân lo i cũng là m t thách th c Có th có s m nh t gi a các nhóm, ạ ộ ứ ể ự ờ ạ ữ
và vi c xác đ nh các đ c đi m c th có th đòi h i s phân tích k l ngệ ị ặ ể ụ ể ể ỏ ự ỹ ưỡ
và sâu s c ắ
- Đ chính xác c a thu t toán: M c dù K-means là m t công c phân lo i ộ ủ ậ ặ ộ ụ ạ
m nh m , nh ng nó cũng có nh c đi m, ví d nh vi c d a vào vi c ạ ẽ ư ượ ể ụ ư ệ ự ệ
ch n đi m kh i t o ban đ u có th nh h ng đ n k t qu cu i cùng ọ ể ở ạ ầ ể ả ưở ế ế ả ố
Nó cũng không ho t đ ng t t trên các d li u có hình d ng và kích ạ ộ ố ữ ệ ạ
th c không đ ng đ u ướ ồ ề
- Phân nhóm chéo l n nhau: Đôi khi, khách hàng có th có nhi u đ c đi m ẫ ể ề ặ ểchung, đi u này có th d n đ n vi c chúng có th đ c phân vào nhi u ề ể ẫ ế ệ ể ượ ềnhóm khác nhau Vi c này có th làm m đi ranh gi i gi a các nhóm và ệ ể ờ ớ ữlàm gi m s chính xác c a phân lo i ả ự ủ ạ
1.2.3 Đ u vào và đ u ra c a bài toán ầ ầ ủ
Bài toán phân lo i t đ ng khách hàng th ng s d ng các đ c tr ng t d ạ ự ộ ườ ử ụ ặ ư ừ ữ
li u khách hàng làm đ u vào và đ a ra các nhóm ho c các c m khách hàng ệ ầ ư ặ ụ
t ng ng là k t qu đ u ra ươ ứ ế ả ầ
Đ u vào: d li u t p h p thông tin v khách hàng, bao g m thông tin cá nhânầ ữ ệ ậ ợ ề ồ
Trang 9(nh tu i, gi i tính, đ a ch ), thông tin giao d ch mua hàng (s l n mua, s l ngư ổ ớ ị ỉ ị ố ầ ố ượ
s n ph m mua, giá tr đ n hàng), th i gian mua hàng, l ch s giao d ch, ph n h i tả ẩ ị ơ ờ ị ử ị ả ồ ừkhách hàng (n u có), và b t kỳ thông tin nào khác mô t hành vi mua hàng ế ấ ả
ho c t ng tác v i s n ph m/d ch v ặ ươ ớ ả ẩ ị ụ
Đ u ra: K t qu c a bài toán v i vi c phân lo i khách hàng thành các nhóm ầ ế ả ủ ớ ệ ạ
t ng t nhau d a trên các d li u đ u vào M i nhóm này đ i di n cho m t lo i ươ ự ự ữ ệ ầ ỗ ạ ệ ộ ạhành vi mua hàng hay m t nhóm khách hàng c th ộ ụ ể
13
1.2.4 ng d ng c a bài toán Ứ ụ ủ
Bài toán phân lo i t đ ng khách hàng mang l i r t nhi u l i ích đ n cho các ạ ự ộ ạ ấ ề ợ ếdoanh nghi p và t ch c H có th s d ng thông tin t vi c phân lo i khách hàngệ ổ ứ ọ ể ử ụ ừ ệ ạ
đ c i thi n d ch v và t i u hóa chi n l c kinh doanh M t s ng d ng c th : ể ả ệ ị ụ ố ư ế ượ ộ ố ứ ụ ụ ể
- T i u hóa chi n l c ti p th và qu ng cáo: Phân lo i khách hàng giúpố ư ế ượ ế ị ả ạxác đ nh nhóm đ i t ng m c tiêu cho các chi n d ch ti p th và qu ngị ố ượ ụ ế ị ế ị ảcáo Các thông đi p có th đ c tùy ch nh đ phù h p v i nhu c u, sệ ể ượ ỉ ể ợ ớ ầ ở
thích và hành vi mua hàng c th c a t ng nhóm khách hàng ụ ể ủ ừ
- C i thi n tr i nghi m khách hàng: Hi u rõ h n v các nhóm khách hàng ả ệ ả ệ ể ơ ềgiúp c i thi n tr i nghi m c a h Các s n ph m và d ch v có th đ c ả ệ ả ệ ủ ọ ả ẩ ị ụ ể ượtùy ch nh đ đáp ng nhu c u đ c bi t c a t ng nhóm, t vi c c i thi n ỉ ể ứ ầ ặ ệ ủ ừ ừ ệ ả ệgiao di n ng i dùng đ n vi c cung c p s n ph m ho c d ch v phù h p ệ ườ ế ệ ấ ả ẩ ặ ị ụ ợ
h n ơ
- D đoán hành vi mua hàng: Phân lo i khách hàng cung c p thông tin v xuự ạ ấ ề
h ng mua hàng trong t ng lai D đoán hành vi mua hàng có th giúp ướ ươ ự ể
d báo nhu c u c a khách hàng, t đó t i u hóa qu n lý hàng t n kho vàự ầ ủ ừ ố ư ả ồchi n l c cung ng ế ượ ứ
- Tăng c ng tìm ki m khách hàng: Đi u này bao g m vi c tìm ki m khách ườ ế ề ồ ệ ếhàng ti m năng và t i u hóa chi n l c đ gi chân khách hàng hi n t i.ề ố ư ế ượ ể ữ ệ ạCác ch ng trình khuy n mãi, u đãi đ c bi t ho c d ch v chăm sóc ươ ế ư ặ ệ ặ ị ụkhách hàng có th đ c t o ra d a trên thông tin t phân lo i khách hàng.ể ượ ạ ự ừ ạ
- Qu n lý chu i cung ng: Hi u bi t v hành vi mua hàng c a các nhóm ả ỗ ứ ể ế ề ủkhách hàng cũng h tr trong vi c qu n lý và t i u chu i cung ng D ỗ ợ ệ ả ố ư ỗ ứ ự
Trang 10đoán nhu c u s n ph m và d ch v c th có th giúp tăng c ng qu n lýầ ả ẩ ị ụ ụ ể ể ườ ảhàng t n kho và k ho ch s n xu t.ồ ế ạ ả ấ
14
1.3 C s lý thuy t ơ ở ế
Đ th c hi n ch đ nghiên c u này, chúng em đã s d ng ki n th c và k năngể ự ệ ủ ề ứ ử ụ ế ứ ỹtrong h c ph n “H c máy” , “Khai thác d li u và ng d ng”và m t s h c ph n ọ ầ ọ ữ ệ ứ ụ ộ ố ọ ầliên quan Các ki n th c này có th g m nh ng ph n sau đây: - Phân c m d li u: ế ứ ể ồ ữ ầ ụ ữ ệ
+ Đ nh nghĩa và m c đích c a phân c m d li u ị ụ ủ ụ ữ ệ
+ Các ph ng pháp và thu t toán phân c m d li u thông d ng + ươ ậ ụ ữ ệ ụ
Các đ đo và ph ng pháp đánh giá hi u qu c a phân c m - Thu t ộ ươ ệ ả ủ ụ ậ
toán K-means:
+ Nguyên lý ho t đ ng c a thu t toán K-means ạ ộ ủ ậ
+ Các b c th c hi n thu t toán K-means, bao g m: kh i t o đi m trungướ ự ệ ậ ồ ở ạ ểtâm, gán các đi m d li u vào các c m, c p nh t l i các đi m trung tâmể ữ ệ ụ ậ ậ ạ ể
và l p l i quá trình cho đ n khi h i t ặ ạ ế ộ ụ
+ Các ph ng pháp kh i t o đi m trung tâm ban đ u và các ph ng pháp ươ ở ạ ể ầ ươ
c p nh t đi m trung tâm trong thu t toán K-means ậ ậ ể ậ
- Tiêu chí đánh giá hi u qu c a thu t toán K-means: ệ ả ủ ậ
+ Các đ đo phân tán trong c m, bao g m SSE (Sum of Squared Errors), ộ ụ ồSSB (Sum of Squared Between), và silhouette coefficient
+ Các ph ng pháp đánh giá s l ng c m t i u, bao g m Elbow Method ươ ố ượ ụ ố ư ồ
và Silhouette Method
- Ti n x lý d li u cho bài toán phân lo i t đ ng khách hàng: +ề ử ữ ệ ạ ự ộ
Thu th p d li u khách hàng t các ngu n khác nhau ậ ữ ệ ừ ồ
+ Chu n hóa và bi u di n tr c quan d li u ẩ ể ễ ự ữ ệ
C s lý thuy t này cung c p nh ng ki n th c c n thi t đ hi u và áp d ngơ ở ế ấ ữ ế ứ ầ ế ể ể ụthu t toán K-means vào bài toán phân lo i t đ ng khách hàng Nó giúp xác đ nhậ ạ ự ộ ịcác ph ng pháp đánh giá và t i u hóa hi u su t c a thu t toán, cũng nh cungươ ố ư ệ ấ ủ ậ ư
c p cách ti n x lý d li u và ng d ng trong lĩnh v c kinh doanh.ấ ề ử ữ ệ ứ ụ ự
15
Trang 11CH ƯƠ NG 2 M T S THU T TOÁN S Ộ Ố Ậ Ử
li u M c đích là làm th nào đ phân d li u thành các c m (cluster) khác nhau saoệ ụ ể ể ữ ệ ụcho d li u trong cùng m t c m có tính ch t gi ng nhau M c tiêu c a thu t toán làữ ệ ộ ụ ấ ố ụ ủ ậtìm ra K đi m trung tâm (centroids) đ i di n cho K nhóm d li u khác nhau, saoể ạ ệ ữ ệcho t ng bình ph ng kho ng cách gi a các đi m d li u và đi m trung tâm g nổ ươ ả ữ ể ữ ệ ể ầ
nh t là nh nh t ấ ỏ ấ
2.1.2 Cách ho t đ ng ạ ộ
D i đây là các b c c b n đ th c hi n thu t toán K-means: 1 ướ ướ ơ ả ể ự ệ ậ Kh i t o ở ạ :
Ch n ng u nhiên K đi m trong t p d li u ban đ u làm các đi m trung tâm ban ọ ẫ ể ậ ữ ệ ầ ể
đ u Đây là các đi m đ i di n cho K nhóm d li u 2 ầ ể ạ ệ ữ ệ Phân lo i ạ : V i m i đi m ớ ỗ ể
d li u, tính kho ng cách Euclid t đi m đó t i K đi m trung tâm và gán đi m ữ ệ ả ừ ể ớ ể ể
d li u vào nhóm có đi m trung tâm g n nh t K t qu là m t phân lo i ban đ u ữ ệ ể ầ ấ ế ả ộ ạ ầ
c a d li u thành các nhóm 3 ủ ữ ệ C p nh t v trí đi m trung tâm ậ ậ ị ể : Tính toán l i vạ ịtrí m i cho m i đi m trung tâm b ng cách l y trung bình c a các đi m d li u ớ ỗ ể ằ ấ ủ ể ữ ệtrong cùng m t nhóm C p nh t này đ c th c hi n sau m i l n phân lo i ộ ậ ậ ượ ự ệ ỗ ầ ạ
4 L p l i phân lo i và c p nh t ặ ạ ạ ậ ậ : Ti p t c l p l i b c 2 và 3 cho đ n khiế ụ ặ ạ ướ ếkhông có s thay đ i đáng k trong phân lo i ho c đã đ t đ n s l n l p t iự ổ ể ạ ặ ạ ế ố ầ ặ ố
đa đ c ch đ nh tr c.ượ ỉ ị ướ
16
5 Đ u ra ầ : K t qu c a thu t toán là K đi m trung tâm cu i cùng và phân lo iế ả ủ ậ ể ố ạ
c a t ng đi m d li u d a trên v trí c a các đi m trung tâm Các đi m trungủ ừ ể ữ ệ ự ị ủ ể ểtâm đ i di n cho các nhóm trong d li u ạ ệ ữ ệ
Trang 12ho c tr ng tâm g n nh t c a nó Vì v y, chúng tôi s v m t trung v gi a c hai ặ ọ ầ ấ ủ ậ ẽ ẽ ộ ị ữ ả
tr ng tâm ọ
Trang 13Hình 2 3 Gán đi m d li u cho đi m K ho c tr ng tâm g n nh t ể ữ ệ ể ặ ọ ầ ấ
T hình nh trên, rõ ràng là các đi m bên trái c a đ ng g n v i K1 ho cừ ả ể ủ ườ ầ ớ ặtâm màu xanh và các đi m bên ph i c a đ ng g n v i tâm màu vàng Hãy tô màuể ả ủ ườ ầ ớchúng thành màu xanh lam và màu vàng đ d hình dungể ễ
18
Hình 2 4 Tô màu cho các đi m d li u ể ữ ệ
Vì chúng tôi c n tìm c m g n nh t nên chúng tôi s l p l i quy trình b ng ầ ụ ầ ấ ẽ ặ ạ ằcách ch n m t tr ng tâm m i ọ ộ ọ ớ
Trang 14Hình 2 5 Ch n m t tr ng tâm m i ọ ộ ọ ớ
Ti p theo, chúng tôi s gán l i t ng đi m d li u cho tr ng tâm m i ế ẽ ạ ừ ể ữ ệ ọ ớ
19
Hình 2 6 Gán t ng đi m d li u cho tr ng tâm m i ừ ể ữ ệ ọ ớ
Khi vi c gán l i đã di n ra, vì v y chúng ta s l i chuy n sang b c 4, đó là ệ ạ ễ ậ ẽ ạ ể ướtìm tr ng tâm ho c đi m K m i ọ ặ ể ớ