Kết quả cho thấy các mô hình này có thế được sử dụng hiệu quả để phân loại chất lượng rượu vang... Bên cạnh đó, có thê sử dụng các công nghệ khoa học, trí tuệ nhân tạo cụ thể là các mô h
Trang 1VIỆN KỸ THUẬT CÔNG NGHỆ
PAI HOC
| int DAU MOT
2009 +~=THU DAU MOT UNIVERSITY
BAO CAO TIEU LUAN
UNG DUNG ID3, C4.5 XAY DUNG CAY QUYET
DINH CHO CHAT LUQNG RUQU VANG TRANG
"VINHO VERDE" CUA BO DAO NHA
Trang 2VIỆN KỸ THUẬT CÔNG NGHỆ
PAI HOC
| lim, DAU MỌT
BAO CAO TIỂU LUẬN
UNG DUNG ID3, C4.5 XAY DUNG CAY QUYET
DINH CHO CHAT LUQNG RUQU VANG TRANG
"VINHO VERDE" CUA BO DAO NHA
Trang 3
TOM TAT Cấu trúc bài báo cáo được chia thành 3 phần: Chương 1: Bài toán ứng dụng, Chương 2: Tông quan, Chương 3: Kết quả thực nghiệm
Chương I1: Bài toán ứng dụng: giới thiệu tông quan về rượu vang trắng "Vinho Verde" của Bồ Đào Nha, mô tả bài toán, các phương pháp và phạm vi nghiên cứu đề
tài
Chương 2: Tông quan: giới thiệu chung về trí thức và khai phá đữ liệu, các mô
hình, thuật toán phân lớp, phân nhánh
Chương 3: Kết quả thực nghiệm: trình bày mô tả, trực quan hóa bộ dữ liệu, các bước xây dựng các mô hình và kết quả đạt được sau khi hoàn thành các mô hình
Tóm lại, đề tài đã ứng dụng các mô hỉnh học máy ID3, C4.5 và để xây dựng cây quyết định cho chất lượng rượu vang trang "Vinho Verde" cua Bồ Đào Nha Kết quả cho thấy các mô hình này có thế được sử dụng hiệu quả để phân loại chất lượng rượu
vang
Trang 4
MỞ ĐẦU
Rượu vang trắng Vinho Verde là I trong những loại rượu vang được xem là có hương vị đặc biệt nhất của vùng Vinho Verde, Bắc Bồ Đào Nha Đi đôi với hương vị đặc trưng đó thì loại rượu vang này có các lên men, ủ rượu vô củng cầu kỳ, và đòi hỏi
sự tỉ mỉ, và đòi hỏi trải qua nhiều quá trình mới có thể hoàn thành một thành phẩm ruou vang Vinho Verde chat lượng
Từ đó nhận thấy quá trình đánh giá và đảm bảo chất lượng của rượu vang trắng Vinho Verde là một quá trình dài cần có nhiều thao tác để có thê đưa ra dự đoán chất lượng chính xác Bên cạnh đó, có thê sử dụng các công nghệ khoa học, trí tuệ nhân tạo
cụ thể là các mô hình học máy, khai phá dữ liệu đề thực hiện kết quả quá trình đánh giá, đảm bảo chất lượng rượu vang trắng Vinho Verde Nén em da chon dé tai “Ung dung 1D3, C4.5 xây dựng cây quyết định cho chất lượng rượu vang trắng "Vĩinho Verde" cia Bồ Đào Nha” Đề tài tập trung vào ứng dụng 2 phương pháp tạo cây quyết định phô biến trong khai phá dữ liệu là mô hình ID3 (Iterative Dichotomiser 3), mô hình C4.5 để đánh giá chất lượng của rượu vang trắng Vĩinho Verde Và phương pháp
dé phan cum, gom nhóm các đữ liệu có mức độ tương đồng với nhau Từ 2 phương pháp xây dựng cây quyết định sẽ chọn ra phương pháp tối ưu đề tiến hành dự đoán kết quả chất lượng của rượu vang trắng Vĩinho Verde
Trang 5
MỤC LỤC I0) 8V — i I9 0001018 - ảÄäÄẬÄH,HẬỆẬHẤ ii
09I:8/00/98.1n7.100157 iv
2.1 Giới thiệu về Data mining 2
2.2.1 Kỹ thuật phân lớp - 2212112211211 12 112211211 11111111111 2111201118111 1 Hy 4
2.4.0, Khai nig Vo ID3 oo eeccceececeecsssecssecssecsseeesseecsseceesecsssecseeesinsestessneaneaeessees 5 2.4.2 Ham 86 Emtropy cccccccccccccccsccsscsessessessesessesessssesseseeseesessesessessesesessesnseesee 6
V Niooo c4 7 P19 h 7 CHUONG 3 KET QUA THUC NGHIEM 8
3.7.7 Mô tả bộ đữ liệu - cc 0 22121122121 1121 21151 151111111 11711111811 1211 211 xe tre 8
Trang 6
DANH MỤC HÌNH
Hình 2.2 - Mối quan hệ giữa dữ liệu, thông tin và tri thức - 22222222222 szzszzs2 2
Hình 3.1 - Thống kê mô tả bộ dữ liệu - 2-22 SE22EE212E1225111121212112122127127122 22x 9
Hình 3.5 - Kết quả dự đoán - 5 S1 E111 112112111121 121222112221 ng tre 20
Trang 7sự tỉ mỉ, và đòi hỏi trải qua nhiều quá trình mới có thể hoàn thành một thành phẩm rượu vang Vĩinho Verde chất lượng Để nâng cao chất lượng có thể áp dụng các công nghé hoc may như ID3, C4.5 để đánh giá chất lượng của rượu vang trang Vinho Verde Và phương pháp để phân cụm, gom nhóm các đữ liệu có mức độ tương đồng với nhau
1.2 MỤC TIỂU NGHIÊN CỨU
Mục tiêu của dé tài: xây dựng và phát triển hệ thống phân loại chất lượng rượu vang trắng Vinho Verde, với việc áp dụng 2 thuật toán đề đánh giá chất lượng là ID3
và C4.5 Qua việc đó xây dựng ứng dụng dự đoán chất lượng dựa trên các thành phan, thuộc tính về hóa học, các quy trình sản xuất và gia trị ding dé đánh giá
1.3 Ý NGHĨA NGHIÊN CỨU
Nghiên cứu về ứng dụng của các thuật toán như ID3, C4.5 và trong việc xây dựng cây quyết định cho chất lượng rượu vang trắng "Vĩinho Verde" của Bồ Đảo Nha
có ý nghĩa lớn trong lĩnh vực phân tích đữ liệu và quyết định Nghiên cứu này giúp hiểu rõ hơn về các yếu tố ảnh hưởng đến chất lượng rượu vang trắng Vĩnho Verde Ngoài ra, có thể so sánh khả năng của ID3, C4.5 và trone việc xây đựng cây quyết định cho mục tiêu phân loại chất lượng rượu vang
1.4 PHẠM VI NGHIÊN CỨU
Pham vi nghiên cứu của đề tài sẽ tập trung chủ yếu vào các thuật toán ID3, C4.5 và K — Means, đề phân loại đánh giá chất lượng rượu vang trắng Vinho Verde
Trang 8
CHUONG 2 TONG QUAN
2.1 GIGI THIEU VE DATA MINING
2.1.1 Quá trình phát hiện trĩ thức và khai phá dữ liệu
Hình 21- Quá trình phát hiện trí thức
Đề có thể tìm hiểu quá trình phát hiện tri thức trước tiên ta cần phải hiểu được các khái niệm về dữ liệu, thông tin, tri thức
Dữ liệu thường được cho bởi các giá trị mô tả các sự kiện, hiện tượng cụ thé
Thông tin là quan hệ giữa các dữ liệu Con trị thức (knowledse) là gì? Tri thức là một
khái niệm rất trừu tượng, không thê định nghĩa hình thức một cách chính xác So với
dữ liệu thì tri thức có số lượng ít hơn rất nhiều, ít hơn không chỉ đơn giản là một dấu nhỏ hơn bình thường mà là sự kết tỉnh hoặc cô đọng lại mày có thể hình dung dtr ligu
là những điểm trên mặt phẳng còn tri thức là phương trình của đường cong nói tất cả những điểm này lại, chỉ cần một phương trình đường cong có thế biểu diễn được vô số điểm
Chọn lọc đữ liệu (selection) đây là giai đoạn tập hợp các dữ liệu được khai thác
từ cơ sở dữ liệu Tiền xử lý dữ liệu (preprocessing) phân lớn các cơ sở dữ liệu đều ít nhiều mang tính không nhất quán vì vậy khi gom nhóm dữ liệu có thê mắc một số lỗi như đữ liệu không đầy đủ, không chặt chẽ, không logic do đó cần phải tiền xử lý dữ liệu
Trang 9Đánh giá kết quả mẫu đây là giai đoạn cuối cùng trong tiến trình, trong giai đoạn này các mẫu dữ liệu được chiết xuất bởi các phần mềm khai phá dữ liệu không phải bất kỳ mẫu nào cũng có ích, thậm chí còn bị sai lệch Chính vì điều đó cần phải xác định và lựa chọn những tiêu chuẩn đánh gia sau cho sẽ chiết xuất ra các tri thức cân thiết
2.1.2 Data Mining là gi?
Khai phá dữ liệu (data mining): là quá trình tính toán để tìm ra các mẫu trong các bộ dữ liệu lớn liên quan đến các phương pháp tại giao điểm của học máy, thống kê
và các hệ thống cơ sở dữ liệu Khai phá dữ liệu còn là một lĩnh vực liên ngành của khoa học máy tính Mục tiêu tổng thê của quá trình khai thác dữ liệu là trích xuất
thông tin từ bộ đữ liệu và chuyền nó thành một cầu trúc dễ hiểu va sử dụng tiếp Ngoài
ra, các bước phân tích bộ đữ liệu thô, nó còn liên quan tới cơ sở đữ liệu và các khía cạnh về quản lý dữ liệu, xử lý đữ liệu trước, suy xét mô hình và suy luận thông kê, các cân nhắc phức tạp, xuất kết quả về các cấu trúc được phát hiện Khai phá dữ liệu là
bước phân tích của quá trình “khám phá kiến thức trong cơ sở đữ liệu ”
Khai phá đữ liệu tre (data mining) có thể được sử dụng để giải quyết nhiều vấn
đề khác nhau bao gồm:
Phân loại đữ liệu: Khai phá đữ liệu (data mining) có thể được sử dụng để phân loại dữ liệu thành các nhóm khác nhau dựa trên các thuộc tính của chúng Để minh chứng cho việc này, data mining có thê được sử dụng để phân loại khách hàng thành các nhóm dựa trên hành vi mua sắm của họ
Dự đoán: Khai thác dữ liệu (data minine) có thể được sử dụng để dự đoán các kết qua trong tương lai dựa trên tập dữ liệu lịch sử Ví dụ, data mining có thể được sử dụng đề dự đoán đoanh số bán hàng trong tương lai hoặc xác định khách hàng có nguy
cơ cao rời bỏ công ty
Tìm kiếm thông tin: khai phá đữ liệu (data mining) có thê được sử dụng để tìm kiếm thông tin an trong tap dữ ligu Vi dy, data mining co thể được sử dụng để tìm kiếm các mẫu gian lận trong tập dữ liệu giao dich hoặc xác định các mối liên hệ piữa các dữ kiện khác nhau
2.1.3 Lợi ích của khai phá dữ liệu
Trang 10dịch vụ có thê bán được, tôi ưu hóa chuỗi cung ứng, phát hiện gian lận
Đưa ra quyết định kinh doanh: Khai phá dữ liệu có thê giúp các tô chức đưa ra quyết định kinh doanh sáng suốt hơn bằng cách cung cấp thông tin chỉ tiết về thị trường, khách hàng và hoạt động của công ty Ví dụ, khai phá đữ liệu có thê được sử dụng để: đự đoán nhu cầu của khách hàng, phát triển các sản phẩm và dịch vụ mới, ra quyết định về giá cả và khuyến mãi, tuyến dụng và đảo tạo nhân viên
Phát triển sản phẩm mới: Khai phá đữ liệu có thế giúp các tổ chức phát triển sản pham mới thành công hơn bằng cách cung cấp thông tin chí tiết về nhu cầu của khách hàng và thị trường Ví dụ, khai phá đữ liệu có thể được sử dụng để: Xác định nhu cầu của khách hàng chưa được đáp ứng, phát triển các sản phẩm mới đáp ứng nhu cầu của khách hàng, thử nghiệm các sản phẩm mới với khách hàng tiềm năng
Ngoài ra, khai phá dữ liệu (data mining) còn có thể mang lại các lợi ích khác như:
Tăng cường bảo mật: Khai phá dữ liệu có thể được sử dụng để phát hiện gian lận, tấn công mạng và các mối đe đọa bảo mật khác
Cải thiện chất lượng chăm sóc sức khỏe: Khai phá dữ liệu có thể được sử dụng
để chân đoán bệnh, phát triển phương pháp điều trị mới và cải thiện chất lượng chăm sóc sức khỏe
Thúc đây sự đổi mới: Khai phá dữ liệu có thế được sử dụng để khám phá các ý tướng mới và giải pháp sáng tạo cho các vấn đề phức tạp
2.2 CAC KY THUAT KHAI PHA DU LIEU
2.2.1, K¥ thuat phan lop
Phân lớp (classification): là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã được xếp lớp Tập dữ liệu học bao gồm tập đối tượng đã được xác định lớp sẽ được dùng để tạo mô hỉnh phân lớp dựa trên các đặc trưng của đối tượng trong tập dữ liệu học Các luật phân lớp được sử dụng để xây dựng các bộ, phân lớp dữ liệu có vai trò quan trọng trong tiến trình dự báo các khuynh hướng quy luật phát triển
2.2.2 Kỹ thuật phần cụm
Trang 11
Gom cụm (clustering): là tiến trình nhận diện các cụm tiềm ân trong tập các đối tượng chưa được xếp lớp tiến trình phân cấp dựa trên mức độ tương tự giữa các đối tượng các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm đấy là cực đại và mức độ tương tự giữa các đối tượng nằm trong cái cụm khác nhau là cực tiểu các cụm được đặc trưng bằng các tính chất chung của tất cả các đối tượng trong cụm
2.3 LUAT KET HOP
Trong linh vuc Data Mining, luat két hop (Association Rule - AR) la tim ra các
mỗi quan hệ giữa các đối tượng trong khối lượng lớn đữ liệu
Cho cơ sở đữ liệu giao dịch T gốm tập các giao dich ty, te, ts, ty ., te
T= ft, ty th ty 105 bef
Trong đó T là một tap dtr ligu giao dich (Transaction Database) Va mỗi giao dich t¡ bao gồm tập các đối tượng I (gọi là itemset)
T= fir, in, ., inj M6t itemset gồm k items gọi là k-itemset
Mục đích của luật kết hợp là tìm ra sự kết hợp (tương quan) giữa các items Những luật kết hợp này có đạng X — Y
Hai tiêu chí rất quan trọng trong việc đánh giá luật kết hợp đó là độ hỗ trợ (support) và độ tin cậy (confidence)
Công thức tính độ hỗ trợ và độ tin cậy của luật kết hợp X—Y:
Support| X ~YÌ=P|xuy|=" UY
Confidencel X ¬yl=Pyvx|==
Trong đó:
n(X): Số giao dịch chứa X N: Tổng số giao dịch Các luật kết hợp có độ hỗ trợ và độ tin cậy lớn hơn hoặc bằng độ hỗ trợ tối thiểu (min_sup) và độ tin cậy tối thiểu (min con?) gọi là các luật mạnh min sup và
mm conf gọi là các giá trị ngưỡng (threshold) được xác định trước khi sinh các luật kết hợp
2.4 ID3 - ITERATIVE DICHOTOMISER 3
2.4.1 Khái niệm về ID3
Trang 12
Hình 2.1- Mô hình cây quyết dinh (decision tree) Thuật toán ID3 là một thuật toán học máy phân loại Hoạt động bằng cách xây dựng một cây quyết định, trong đó mỗi nút đại diện cho một câu hỏi hoặc quy tắc Các nút lá đại diện cho các kết quả phân loại
Vậy cây quyết định là gì? Cây quyết định (decision tree): cấu trúc dạng hình cây là biểu thị cho các quyết định Các quyết định này sinh ra các quy tắc để phân lớp
và dự đoán (dự báo) tập dữ liệu mới chưa được phân lớp Tri thức được rút ra trong kỹ thuật nảy thường được mô tả đưới dạng từng minh, đơn giản, trực quan, dễ hiểu đối với người sử dụng Tuy nhiên, nó cũng đòi hỏi một không gian nhất định để mô tả trí thức trone phạm vi mà con người có thể hiểu được
Đề xây dựng cây quyết định, thuật toán ID3 sẽ bắt đầu với một nút gốc Sau đó, chọn thuộc tính có khả năng phân loại dữ liệu tốt nhất Tạo các nhánh mới cho cây quyết định, mỗi nhánh sẽ đại diện cho một gia tri cua thuộc tính đã chọn Lặp lại việc
“tạo các nhánh mới cho cây quyết định, môi nhánh đại điện cho một giả trị của thuộc tính đã chọn” cho các mẫu đữ liệu trong mỗi nhánh mới
Thuật toán ID3 sẽ sử dụng một số tiêu chí để chọn thuộc tính có khả năng phân loại dữ liệu tốt nhất Một trong những tiêu chí phố biến nhất là hàm số entropy 2.4.2 Hàm số Entropy
Entropy là một thước đo mức độ không chắc chăn trong một tập dữ liệu Một tập dữ liệu có entropy cao là một tập dữ liệu có nhiều mẫu dữ liệu có các giá trị khác nhau cho một thuộc tính
Cho một phân phối xác suất của một biến rời rạc x có thể nhận n giá trị khác nhau %¡,*%;, , Xạ Gia sử rằng xác suất để x nhận các gia tri nay la P; = p(x = %;) vol pi nam trong khoang [0, 1], È,p,=1 Ký hiệu phân phối nay la p = (P,, Po, Pn):
i=l
Entropy của phân phối này được định nghĩa lả:
Hip'=—Š” p.log,(pjÍ[1)
Trang 13Ham entropy sẽ được biếu diễn như sau:
1.0
0 0.5 1.0
Pr(X = 1) Hình 2.1- Biéu dién ham sé entropy Ham entropy đạt giá trị nhỏ nhất nếu có một gia tri P; = 1, va dat gia tri lon nhat nét tat cả các P¡ đều bằng nhau
2.4.3 Information Gain
Information Gain là một thước đo mức độ giảm entropy sây ra bởi việc phan vùng đữ liệu theo một thuộc tính Nói cách khác, một thuộc tính nhất định sẽ cung cấp bao nhiêu thông tin về một biến ngẫu nhiên Lượng thông tin cảng cao thì thuộc tính cảng phù hợp cho phân loại
Information Gain được tính theo công thức:
Gain|A]= H|p]~ Hạ[p,
Trong đó:
Hịp): là entropy tông của toàn bộ dữ liệu
H,(p): la entropy duoc tinh theo thuộc tính A
2.5 C4.5
Thuật toán C4.5 là một thuật toán học máy phân loại Nó là một phiên bản cải tiên của thuật toán ID3 Thuật toán C4.5 hoạt động băng cách xây dựng một cây quyết định, trong đó mỗi nút đại điện cho một câu hỏi hoặc quy tắc Các nút lá đại diện cho các kết quả phân loại
Thuật toán C4.5 sẽ sử dụng một số tiêu chí để chọn thuộc tính có khả nang phan loại dữ liệu tốt nhất Một trong những tiêu chí phổ biến nhất là lượng thông tin (information gain)
Thuật toán C4.5 có một số cải tiễn so với thuật toán ID3: