Thuật toán SLIQ phân lớp rất có hiệu quả đối với các tập dữ liệu lớn, nó làm việc không phù thuộc vào số lượng các lớp, các thuộc tính và số

Một phần của tài liệu Tài liệu khai phá dữ liệu (Trang 29 - 32)

làm việc không phù thuộc vào số lượng các lớp, các thuộc tính và số lượng bản ghi trong tập dữ liệu. SLIQ đã cải thiện được vẫn đề về bộ nhớ vì có 3 pha tiền xử lý phân loại, tại một thời điểm chỉ có 1 danh sách lớp thường trú trong bộ nhớ. SLIQ có kỹ thuật cắt tỉa cây mô tả độ dài tối thiêu MDL, rất hữu hiệu . Nó là thuật toán phân lớp nhanh, chính xác,

chi phí thấp. Tuy nhiên việc cài đặt phức tạp. áp dụng cho các cơ sở dữ

liệu lớn.

Mặc dù đã có nhiều cải tiến, nhiều thuật toán xây dựng cây quyết định ra đời, nhưng nói chung vẫn còn nhiều vấn đề khó khăn phức tạp và nhiễu ra đời, nhưng nói chung vẫn còn nhiều vấn đề khó khăn phức tạp và nhiễu thách thức trong KPDL băng cây quyết định. Như vấn đề dữ liệu bị thiếu giá trị đối với các thuộc tính trong CSDL. Vẫn đề các CSDL rất lớn về số

lượng các thuộc tính và về số lượng các bản phi, vẫn đề về bộ nhớ...

Những vấn đề này luôn làm đau đầu những nhà khoa học. Trên thực tế các thuật toán xây dựng cây quyết định vấn đang được cải tiễn, nghiên cứu và phát triển.

Chương 3: Xây dựng chương trình dêmo

Mô tả bài toán

Phương pháp khai phá dữ liệu trong những năm gân đây được ứng dụng trong nhiều lĩnh vực như: thương mại, giáo dục, y tế, bưu chính viễn thông... Tuy nhiên, ở Việt Nam phương pháp nảy còn chưa được áp dụng nhiều, nhất là trong lĩnh vực giáo

dục, đào tạo. Vì vậy trong nội dung nghiên cứu khoa học của mình, em đã tiễn hành

xây dựng chương trình ứng dụng khai phá dữ liệu trong giáo dục đào tạo. Cụ thể là ứng dụng khai phá dữ liệu Trường đại học sư phạm Hà Nội. Bài toán như sau: "Sử

dụng các thông tin: Khu vực sống, thành phần gia đình, học lực 4 năm đại học, điểm thi đầu vào của sinh viên để dự đoán xếp loại tốt nghiệp đại học của sinh viên."

Thu thập và tiền xử lý dữ liệu

Dũ liệu mà em thu thập được lấy kho dữ liệu của Trường đại học sư phạm Hà Nội. Sau khi đã có được toàn bộ các dữ liệu, em tiễn hành trích lọc ra những thông tin cần thiết cho bài toán ứng dụng của em. Dữ liệu thu thập được ở dạng file access như sau:

Microsoft Äccess - [sinhvien : Iahle]

¡| ElE ErH View Insert Fprmat Rerords Tnols Mindnw Hain Type aä qulestinn Fnr heln

Le ~|Ír 3| àÀ v |X* sa 3|2|2|2| 1⁄|| v7 vn ý |đải>: ›x |Œ3 ⁄3 - | @© l

Hoten | Mgaysinh | GiaHnh | Diach | khoa | Lop | _ Khuuc | BDCS TPBD_ +

LÈỊ| Lưu Thị Can 1/5/1882 Nu Xĩnh Lậc - Than 51 E MT Nh __J°001020 huyễn Ngạc Thạch ( 3/2/1882 Nam Đẳng =mn - Yấr 51 E VỆ CN ___JBH1038 Vũ Thị Thùy Giang 8/17/1881. Hu An Dương - Ấn 51 E k2 TR kH __ J5HU1045 Hùi Thanh Hải 8/3/1881 Ham Phú Lai - Yên T 51 E wC DT TT

_ JhHU1072 Dương hliạnh Hnäng 4/24/3873 Mam Mghĩa Đản - Mạl 5] E VỆ TB k ___J5ñÚ1118 Ngũ Quốc Minh 11/8182 Nam Thuận Thành - È 51 E MT TB TT __JÊ°001130 Nguyễn Thị Tuyết Nhị 11/12/1981 Nu Ba Vĩ - Hà Tây 51 E kàv2 TT __ JÊE001141 Nguyễn Huy Phương 3/8/1882 Nam Tứ kỷ - Hải Dự 5m1 E MT Nh

__JBHI1143 Phan Thị Phương 8/4/1882. Nu Chãu Giang - Hi ñ1 E k2 TB kH __ JhHU115L Hủi Thiện Qúy 7/2/1382 Nam Ghẩu Giang - Hi 8ñ} E kxvV2 Rh _ JhHU1184 Nguyễn Thị Haải Thu S/2B/1382. Nu Huảng Hồa - Th 51 E kv2 TB TT __J°IU118b Phan Thị Thuận 3/5/1588 Nu Nam Trực - Mar 51 E MT ND __JE0011227 Huảng Hãi Yên 8/7/1882. Nu Huảàng Than - hị 51 E MT TB Nh LÍ __J5102013 Trần Việt Cưởng 1/31/1983 Nam Tam Điệp - Mint 51 E KP CN _ Jh102014 Huảng Thị hnạc Diện 5/18/1882. Hu =an Đỏ - Chí Lir 51 E wC Chị _ Jh10201B Nguyễn Bá Đại B/18/1383 Nam Hữu Lũng - Lạn 51 E vi Rh _ Jh102017 Hủi Minh Đức 3/29/1382 Nam Hả Hội 51 E k3 TT __J>5102008 Lễ Đình Đức 1/21/1983 Nam Lễ Chân - Hãi 51 E k3 TT __J5102003 Nguyễn Thị Hả 3/3/1383 Nu Hậu Lậc - Than! 51 E kàv2 CN __J5102m0 Nguyễn Văn Hản 8/18/1381. Nam Tx Hàa Bình 51 E va KH _ J51U2011 Đi Tuần Hạnh 2/21/1883 Nam Hãi Hậu - hlam Ì 51 E k2 Chị _ Jh102112 Yũ Thị Thanh Hiễn 3/21/1382. Nu Thanh Thủy - FI 51 E vC CM _ J51113 Huảng Thị Hiểu 2/25/1382. Nu Cẩm Phả - Quã 51 E w CN __J5102016 Nguyễn Đức Hàa 8/2/1881. Nam Lục Nam- Bắc ( 51] E VỆ TT

__J5102018 Nguyễn Xuân Khuê 12/8/1981 Nam khai Thái - Phú 51 E MT TT _ J510218 Mnuyễn Thị Lan 1/25/1882 Mu Tiễn Hải - Thái F 51 E MT hh _ J5102120 vũ Linh 11/14/1983 Nam xuân Phương - 51 E k2 hh _ JB1020121 Huảng hlinh Luyện 12/13/1982 Nam Thanh Trì - Hà h 51 E kv2 KH __ J510122 Lễ Hùng hạnh 11/18/1882 Nam Bản Thẳng - Lắt 51 E w KH _ J5102023 huyễn Thị Thúy Mga 1/17/1884 Mu Mam Sơn - Thai 51 E MT TT __J5102024 vương Thị Thúy Nga 5/11/1383 Nu Chí Linh - Hải D 51 E va TT _ J510225 Nghiêm Khánh hinh 10/4/1383. Hu Phú Xuyên - Hả 51 E MT TR Chị

5120125 Hủi Thị Danh B/25/1382. Nu Cấm Giảng - Hễ 51 E MT Rh -

Rernrd; [H] [| 1 Lr JH ]#*] nF 48 ‹ | * "

l0Imnx u09 ñnhe Rea...

fr. Cũ Ha qui Iuật nhất...

Tiền xử lý dữ liệu: do một số lý do nào đó, trong bảng dữ liệu về sinh viên, có một số ô không có giá trị. Vì vậy, em tiến hành bước tiền xử lý dữ liệu: dùng giá

trị dữ liệu thông dụng nhất cho các thuộc tính mà có giá trỊ bị thiếu để điền vào các ô dữ liệu bị để trống đó.

Sau đó, do em dự tính dùng tool dtree (dtree làm việc với dữ liệu dạng file text

) để xây dựng cây quyết định, vì vậy em tiễn hành xử lý , export dữ liệu từ access ra file text.

Chương trình

- _ Đầu vào: dữ liệu phăng (dạng file text) chứa các thông tin được sử dụng trong mô tả bài toán.

- - Đâu ra: đâu ra của cây là file text chứa các luật dự đoán xêp loại tôt nghiệp của sinh viên dựa vào các thông tin đầu vào. .

Chương 4. KẾT LUẬN

4.1 Đánh Giá

Qua quá trình nghiên cứu và tìm hiệu về các vân đê liên quan tới data mining

và cơ bản hoàn thành đê tài và đạt được một sô kêt quả như sau:

4.1.1 Lý thuyết

- _ Tìm được nhiều tải liệu hay và bồ ích liên quan tới data mining

- - Nắm được một số kỹ thuật cơ bản để khai phá dữ liệu, các chức năng và ứng

dụng của khai phá dữ liệu.

Một phần của tài liệu Tài liệu khai phá dữ liệu (Trang 29 - 32)

Tải bản đầy đủ (DOC)

(33 trang)
w