1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận Công nghệ tri thức và ứng dụng ỨNG DỤNG PHÂN LỚP DỮ LIỆU NAIVEBAYES TRONG KHAI PHÁ DỮ LIỆU

18 345 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Bài thu hoạch môn Công nghệ tri thức và ứng dụng  TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG  ỨNG DỤNG PHÂN LỚP DỮ LIỆU NAIVEBAYES TRONG KHAI PHÁ DỮ LIỆU GVHD: GS.TSKH Hoàng Kiếm HVTH: Vũ Thị Hường MSHV: CH1301089 TP HCM, Tháng 10 năm 2014 Mục Lục HV: Vũ Thị Hường Trang 1 Bài thu hoạch môn Công nghệ tri thức và ứng dụng HV: Vũ Thị Hường Trang 2 Bài thu hoạch môn Công nghệ tri thức và ứng dụng Đặt vấn đề  !"!#$%&'()*+", %&'()*+"(/" 0'1 #$ %&23 4) 56#&)! #   0 7 8 9' :"/ #)1 5$;<)" ="(/" 0' ! ">=50:?@5?)=#A' !  ?  ?B)"C!-:D) CE5F.,/"5G=  /?$ / H)IJ)K)"L=  8/=50:MN5<= /=50:M#0)" C!-:D>:M.) /" 0'#9:CE5F:?@OP?51 0A) #0)"C!-:DQ0I /R (0S)@)"C!-:D K'(/" 0'OT! /& -5?@'()*%EO9,/":K :U+"V) ?N 5"." 5 0CE5$/" 0'.4I.## 1) = ,<"+"0S)@)"C!-:D:M<5'T5$'/=50 ) >"" W,"'(/=50X) '#2!.PO)V2! 1'GY) +:>"" :M5'T5$'/=50./&:(%&,0/&"#5F !-"!P%ZF!-!M##0<O(%9+"%&,0/&"#(,-CE[ ,\(%&,0) C(,I ]O ^5BENT:-__` `-.5 ?B:a)&-' E /!.)!:= ,-I5\C"$b. 9' .?50 K P!M[ c .? #$5?@ ,-Ide', )(,Y -%M) C()V&0. A:?@F,-:M  M'+"G!:*PM* 0N ]OTENf b#\ QgD?B HV: Vũ Thị Hường Trang 3 Bài thu hoạch môn Công nghệ tri thức và ứng dụng Phần I: TỔNG QUAN VỀ DATAMING 1. Data ming là gì ? `(0#,"'(/= 50W>"" X"!'(0 ) IW`h5P/ P >%#P)!XM)9(/i:,("? #2E9:M5C()V&:1 )<O9 M ()DW /&:(j)P/#Pk)"XlI") ,[5?@ /=50,4 58) &- >"" 9m,<"<:M5,En )<O9 M<& :1 W"P/X# " </&:(W)P/#PX >"" 5\C"op:-(56#&%" • _"%%[ ,\ • "PZP") (!b • >""2"%P%N%q/=50 • Q%"5r")&C"M"W K'/=50/i*./i%^/R X Các lĩnh vực của Data ming 2.Nhiệm vụ của Data Mining 0  #R  +"  /""    M  *  'T    m  5  <  :M  5dự đoán (Predictive)#mô tả (Descriptive). (In <+","'(/=50 • E,(0WP'/P%)'X\#E.4 @'#MU,( 0Q</RMU#n2E • ZA,-@'W"%%")5P%X5/ 5A2*/i)Iq/ ,(:N EQ</RHstu" $#%\D-"2"VM$vtu) %[b HV: Vũ Thị Hường Trang 4 Bài thu hoạch môn Công nghệ tri thức và ứng dụng %p"\D2d,JZA,-@':?@I /R ) 56#&,< /".!b.7%.<wD)?B I ,(.## • T5$'#/&:(W5"%%k"w')P/XO-'1:[?@ #1 ) = 5$':a2-)?$Q</R'T5$'#3 :D"5FP/=50B- ?$ -'A!?B %^/R 1%[,xA+""P5P") ?T! C!-:DW/P%)PPX. N)TWP)"5Ph),X.## ?B "d b'T5$'5bM (%(WbMG!X • TRW5%P) XO-'(:[?@ PL RW%[5?@ g ?\ +"R?":?@2-)?$ ?B"d b'TR5b,  (%(X • `"'(SW%PCP"5yP')"5'"P)%X?N &?,"'(5A,-@' ? M\<I&#<B "?$ -'A!:?@I /R ) 56#&<#D)?B I ,(#VMM</&2( >?$:T!51%[A('42-:?@/3 ) >"" • >P%)PPT!C!-:DW5"%%k""%,X • P")P%P 2)Z(    G9W5"%%k""%,X • P)"5Ph), P)"5W5"%%k""/5%P) "%,X • z5P/ZAC'W5"%%k""%,X • `7P"%A(`7P"%W5%P) "%,X Các thuật toán phổ biến trong Data ming 3. Ứng dụng của khai phá dữliệu >"" !51?$ -'A$? K:?@)9%&C"T +"( \I#'()*B#= I /R &i+"MK "M *50,\)":T!1%[I /R :*V • T</=50#S)@)"C!-:DW/""""5!%%w/P%%'')X HV: Vũ Thị Hường Trang 5 Bài thu hoạch môn Công nghệ tri thức và ứng dụng • )D!bWP/"5)P"PX • PO w{P2  • 7%W27k)"%X • <#D)?B I ,(Wk"Pw%,"),PX • E*W%)"PX • A/ W'"P))P X • | HV: Vũ Thị Hường Trang 6 Bài thu hoạch môn Công nghệ tri thức và ứng dụng Phần II: KỸ THUẬT PHÂN LỚP 1. Giới thiệu về phân lớp Phân lớp dữ liệu5,6A/&")\A'95!0#=  ()D"!"!5a +"5$') 11<'T5$'#%^/R M) #0'T5$'/=50$T 5$'g 5\:(55$'+"a\,6A'T5$'M1VI?N &5,6A\:(.,6A\:(,(#$'T5$'qS'T5$'}5\C" :-\:(55$'+"ad,6A\:(V= :( (5\R Kĩ thuật phân lớp được tiến hành bao gồm 2 bướ~T!/& V#%^/R  V • Xây dựng mô hìn5E1A'= 5$':?@:D 6")?$) :M S21o•:?@ (1#15$':?@:D 6")?$?5:?@O( :D2q1<a5$'.A'@'+"= 21:?@%^/R ) #0%^/R V:?@ b5A'95!0V:?@2*/i5= 5A'T5$'. T!C!-:D#=  I(b • Sử dụng mô hìnQ0%^/R V'R#RR:<'T5$'/=50 ) ?N 5"o'T5$'= :[?@ ?"2-:-)?$,%^/R V ?B"?B 'E:( (<<O(+"V) :Ma :?@2-+"•,*)":?@%%(#$,-CE'T5$'+"V.:1< O(5'G)n+"A'@'•,*)"'T5:K 2qV.A',* )"5:15A'#$A'95!0 T5$'51VIb:?@ (%(I5A'/=5095!0WC"%(. l:DX::#$= a}:D5$'C"%(.= /=50$:?@'T5$' /&")\A'95!0  ?@5#$VIb:?@ (%(5VIb, :?@ (%(5K:M a5$'+"A'/=5095!05, :?@2-:- Các giải thuật phân loại dữ liệu: • T5#$T!C!-:DW/P%)PPX • T5#$ "!P%" • T5#$ P)"5 • T5#$,'G^A G9W,7P")P%P 2)X • T5#$%!/i/&")\V[ W"%P72"%P/)P"% X • T5/&")\-( PW PP"5 )%X • T5#$5F!-A'W) %P%X • T5#$5F!-A'BWkrr!%P%X| HV: Vũ Thị Hường Trang 7 Bài thu hoạch môn Công nghệ tri thức và ứng dụng 2. Phân lớp Bayes 2.1. Giới thiệu thuật toán"€#P"!P% ) 56#&>"" ."!P%P)PW"!"!P%•z5PX5,xA'T5$' /&"##0<O(%9M:,0"!P%•z5P:?@I /R )9)1 )a2q</i *#/i)*," "€#P"!P%5'?N '(''T5/&"#O(%9:?@%^/R )1 )a) 56#&(!b‚P55.ƒ„„s…‚†"%.ƒ„„‡…‚†"%.mttƒ….:?@%^/R 5G:G \) 56#&'T52q")#nƒ„sƒ‚").ƒ„sƒ…%":M)q\'4 2-/3 ) 56#&?) ( RV,-‚zˆ%2P) PP"5.ƒ„‡t….( 215bP"5‚_""P"5.ƒ„„v…| A("€#P"!P%/&")\:D5F"!P%:?@'(2*?%" ‰'/R ) 2('T5.(/=,0 8M • >A'/=5095!0:a:?@#P)M"/?$/  • 'T5$'.#$Š‹ƒ.m.|.Œ • (1<:15A':,0:1#$" P:D5F"!P% P<9:15A':,0 ) :M • 5O(%91'T5$',2-)?$•~ • O(%95'T5$' • O(%91<I,"  ()DO,,:a2-~1'T5$' (2?$&0A("€#P"!P% • ?$ƒ95!0"€#P"!P%W/&"#A'/=50X.<# • ?$mT5$'."G<O(%91L 'T5$',:a2-)?$~ Ph  ~ Ph :?@ (#5$'MO(%95$9P I • • 2.2. Áp dụng cho bài toán phân loại văn bản HV: Vũ Thị Hường Trang 8 Bài thu hoạch môn Công nghệ tri thức và ứng dụng Ý tưởng:•?q N2E+"(-'A"€#P"!P%5%^/R O(%9M: ,0 ="L#+::*/&:(O(%9+:+"1#n2EG'T5* C")b +"'?N '('!<5qS E:D)c %&O90+"9E(L ) #n2E::15A'#$"E:D:M5#0<(0CE# "M N('?N '(',(#V, %^/R #0,-@'(L:*:?")" '(:(+:`-CE/&:(2DE?q 2q,<?$A'/=50.95?@ +" ,  ":o)? | Hướng dẫn cài đặt: E#P):o)? +"#n2EZ#P)M%[5%[ :o)? ) A'/=50.(:o)? !:1,("-#n2EMI" :o)? :M%pM ()Dƒ. ?@55t A( 8m ":95!0#'T5$' a. Huấn luyện: tính và G# • (#P):o)? +"#n2E) A'95!0W")AO.#$5 %[#P):o)? ) A'95!0.5%[:o)? +"#P)X • A'ay5$'L #P):o)? +"A'95!0 G)" • ( ()DO(%9# •  I<:a5)NZ"'5"P ) :M • Ž/%  Ž%[#n2E+"A'95!01'T5$' • Ž"5/%Ž%[#n2E) A'95!0 • %['T5$' :o • `qE .M,<?$ • >!0C"(#n2E) A'/=50.:-%[#n2E) S'T5$'5? # • <O(%9L 'T5$'P I)\#5?#E   I<:a5)NZ"'5"P ) :M HV: Vũ Thị Hường Trang 9 Bài thu hoạch môn Công nghệ tri thức và ứng dụng • _[#n2E) ) 'T5$'M:o)? I,"  ()DO , W"!%[#n 2E) 5$'.MO90y, O90:o)? ,X • _[#n2E+"A'95!01'T5$' • _[ ()DM*M+":o)? I, :o • Q$#P):o)? ?E2\)\./ , q:T!"  ()D5m.?N I #$O90#, O90>}Mm ()D."M*<"O( %9, O90P I • `qE •.ƒM,<?$5W%['T5$'X.mM ,<?$5W%[:o)? X.•M,<5mW/ , X:*5?( ()D • >!0C"(#n2E) A'/=50.-[ ,\(}%[G- :*<O(%9P I)\#5?#E  b. Phân lớp: G# • QP):o)? +"#n2EG'T5$' • ( ()DO(%9# G)" • ay5$'+"#n2EG'T5 •  I<O(%91'T5$',2-)?$•~ >&"##P):o)? +"#n2EG'T5$'.('/R  I)\<O( %91L 'T5$'#n2E.#b)"5$'MO(%9"9 c. Ví dụ : Q</R%":T!b"#0%^/R "€#P"!P%) #0'T5$'/=50Q</Rƒ M)" /""#B-?%" HV: Vũ Thị Hường Trang 10 [...]... Trang 16 Bài thu hoạch môn Công nghệ tri thức và ứng dụng 4 Kết luận – hướng phát tri n Kết quả demo mới chỉ phản ảnh được ví dụ nhỏ trong đời sống, chưa áp dụng được vào thực tế Trong thời gian tới em sẽ cố gắng tìm hiểu và phát tri n hơn nữa để ứng dụng có thể được tri n khai trong thực tế 1 HV: Vũ Thị Hường Trang 17 Bài thu hoạch môn Công nghệ tri thức và ứng dụng Tài liệu tham khảo 1 Silde bài... sẽ mua một máy tính • 2 Mô tả ứng dụng Thuật toán được cài đặt trên ngôn ngữ lập trình C# Dữ liệu đầu vào tập dữ liệu huấn luyện: HV: Vũ Thị Hường Trang 14 Bài thu hoạch môn Công nghệ tri thức và ứng dụng Tập dữ liệu huấn huyến 3 Hướng dẫn sử dụng Chạy file bayes.exe Click chọn Nhập dữ liệu mẫu HV: Vũ Thị Hường Trang 15 Bài thu hoạch môn Công nghệ tri thức và ứng dụng Chọn mẫu đánh giá  đánh giá HV:... như sau Trong đó E là dữ liệu cần phân lớp (dự đoán): HV: Vũ Thị Hường Trang 11 Bài thu hoạch môn Công nghệ tri thức và ứng dụng Vì P(“no”) > P(“yes”) nên kết quả dự đoán Play =“no” HV: Vũ Thị Hường Trang 12 Bài thu hoạch môn Công nghệ tri thức và ứng dụng Phần III: Demo thuật toán 1.Xét bài toán Biểu diễn bài toán phân loại (classification problem) Một tập học D_train, trong đó mỗi ví dụ học x ược biểu... môn Công nghệ tri thức và ứng dụng Sử dụng Naïve Bayes Classifier để xác định khả năng đến chới thể thao (Play = “yes” hay “no”) với thời tiết của ngày quan sát được như sau: Từ Training data ta có dữ liệu như sau: Vì thuộc tính phân lớp Play chỉ có 2 giá trị là “yes” (nghĩa là có đến chơi thể thao) và “no”(không đến chơi thể thao) nên ta phải tính Pr(yes|E) và Pr(no|E) như sau Trong đó E là dữ liệu. .. mua một máy tính hay không? Cho tập dữ liệu mẫu (Traning data) như sau: Biểu diễn bài toán phân loại: HV: Vũ Thị Hường Trang 13 Bài thu hoạch môn Công nghệ tri thức và ứng dụng Ví dụ tập z= (Age=Young, Income = Medium, Student = Yes, Credit_Rating = Fair) • Có 2 phân lớp có thể: c1 (“Mua máy tính”) và c2 (“Không mua máy tính”) Tính giá trị xác suất trước cho mỗi phân lớp: • P(c1 ) = 9/14 • P(c2 ) = 5/14... với phân lớp c2 P(z|c2) = P(Age=Young|c2) x P(Income=Medium|c2) x P(Student=Yes|c2 ) x P(Credit_Rating=Fair|c2 ) = (3/5) x (2/5)x (1/5)x (2/5) = 0.019 Xác định phân lớp có thể nhất (the most probable class) Đối với phân lớp c1: P(c1) x P(z|c1 ) = (9/14) x (0,044) = 0.028 • Đối với phân lớp c2: P(c2) x P(z|c2) = (5/14) x (0.019) = 0.007 0.028 > 0.007→Kết luận: Anh ta (z) sẽ mua một máy tính • 2 Mô tả ứng. .. tập xác định các nhăn lớp: C={c1, c2, , cm } • Với một ví dụ (mới) z, z sẽ được phân vào lớp nào? Mục tiêu: Xác định phân lớp có thể (phù hợp) nhất đối với z • Cmap = argmax P(ci | z) với c∈C Cmap = argmax P(ci |z1,z2, ,zn) Cmap = argmax [ P(z1,z2, , zn | ci ).P(ci) ] / P(z1,z2, , zn) (bởi định lý Bayes) Bài toán: Một sinh viên trẻ với mức thu nhập trung bình và mức đánh giá tín dụng bb ình thường sẽ... giá trị thuộc tính đối với mỗi phân lớp: • P(Age = Young|c1 ) = 2/9; P(Age = Young|c2 ) = 3/5 • P(Income = Medidium|c1 ) = 4/9; P(Income = Medium|c2 ) = 2/5 • P(Student=Yes|c1 ) = 6/9; P(Student=Yes|c2 ) = 1/5 • P(Credit_Rating=Fair|c1 ) = 6/9; P(Credit_Rating=Fair|c2 ) = 2/5 Tính toán xác suất có thể xảy ra (likelihood) của ví dụ đối với mỗi phân lớp: • • Đối với phân lớp c1 P(z|c1) = P(Age=Young|c1... định”, Đại học Quốc Gia TPHCM, 2006 3 Nguyễn Trần Thiên Thanh, Trần Khải Hoàng, Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử, Khóa luận cử nhân tin học 2005 4 http://doc.edu.vn/tai-lieu/de-tai-ky-thuat-phan-lop-du-lieu -trong- khai- pha-du-lieu8281/ HV: Vũ Thị Hường Trang 18 . môn Công nghệ tri thức và ứng dụng  TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG  ỨNG DỤNG PHÂN LỚP DỮ LIỆU NAIVEBAYES TRONG. X • | HV: Vũ Thị Hường Trang 6 Bài thu hoạch môn Công nghệ tri thức và ứng dụng Phần II: KỸ THUẬT PHÂN LỚP 1. Giới thiệu về phân lớp Phân lớp dữ liệu 5,6A/&")A'95!0#=. thu hoạch môn Công nghệ tri thức và ứng dụng QVWHJX•WH!P%JX,-CE/&:(5"!ŠHJ HV: Vũ Thị Hường Trang 12 Bài thu hoạch môn Công nghệ tri thức và ứng dụng Phần III:

Ngày đăng: 20/05/2015, 10:28

Xem thêm: Tiểu luận Công nghệ tri thức và ứng dụng ỨNG DỤNG PHÂN LỚP DỮ LIỆU NAIVEBAYES TRONG KHAI PHÁ DỮ LIỆU

TỪ KHÓA LIÊN QUAN

Mục lục

    Phần I: TỔNG QUAN VỀ DATAMING

    1. Data ming là gì ?

    2.Nhiệm vụ của Data Mining

    3. Ứng dụng của khai phá dữliệu

    Phần II: KỸ THUẬT PHÂN LỚP

    1. Giới thiệu về phân lớp 

    2.1. Giới thiệu thuật toánNaïve Bayes

    2.2. Áp dụng cho bài toán phân loại văn bản

    a. Huấn luyện: tính và

    Phần III: Demo thuật toán

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w