Một số kết quả thử nghiệm

Một phần của tài liệu 27873 (Trang 65 - 72)

Từ bảng cơ sở dữ liệu (Hình 3.2), khai phá với chương trình được xây dựng ta thu kết quả như sau:

* Lần thứ 1

Đầu vào:

 Bảng cơ sở dữ liệu cần khai phá với số bản ghi là 310

 Độ hỗ trợ cực tiểu 15% = 0.15

Đầu ra:

 Các tập mục thường xuyên: 50 tập mục

 Các luật kết hợp được phát hiện: 81 luật

Bảng kết quả cụ thể như sau:

Hình 3.5. Kết quả khai phá lần thứ 1

Một số luật mà chương trình phát hiện đc ở lần khai phá thứ 1:

- 94,12% những sinh viên thường xuyên bỏ học, nghiện Game thì điểm tích lũy <2.

- 79,45% số sinh viên Nam, nghiện Game thì thường xuyên bỏ học - 64,34% sinh viên Nữ chọn ở trọ trong ký túc xá.

- 73,44% sinh viên hay tụ tập uông rượu thì có điểm tích lúy <2. - 85,88% số sinh viên nghiện Game là sinh viên Nam.

- 82.35% những sinh viên nghiện Game có điểm tích lũy <2. * Lần thứ 2

Đầu vào:

 Bảng cơ sở dữ liệu cần khai phá với số bản ghi là 310

 Độ hỗ trợ cực tiểu 20% = 0.2

 Độ tin cậy cự tiểu 60% = 0.6

Đầu ra:

 Các tập mục thường xuyên: 28 tập mục

 Các luật kết hợp được phát hiện: 21 luật

Bảng kết quả như sau:

Một số luật mà chương trình phát hiện trong lần khai phá thứ 2:

- 70,94% những sinh viên thuộc khu vự 2 nông thôn chọn ở trọ trong ký túc xá.

- 76,28% sinh viên ở trong ký túc xá có: 2điểm tích lũy <3. - 71,30% số sinh viên thường xuyên bỏ học là sinh viên Nam.

- 95,37% những sinh viên thường xuyên bỏ học có điểm tích lũy <2. - 62,96% sinh viên thường xuyên bỏ học là có nghiện chơi Game. * Lần thứ 3

Đầu vào:

 Bảng cơ sở dữ liệu cần khai phá với số bản ghi là 310

 Độ hỗ trợ cực tiểu 20% = 0.2

 Độ tin cậy cự tiểu 70% = 0.7

Đầu ra:

 Các tập mục thường xuyên: 28 tập mục

 Các luật kết hợp được phát hiện: 16 luật

Bảng kết quả chi tiết như sau:

Một số luật chương trình phát hiện được trong lần khai phá thứ 3:

- 70,35% số sinh viên có điểm tích lũy <2 là sinh viên Nam. - 80% những sinh viên nghiện Game thì thường xuyên bỏ học.

- 94,81% những sinh viên thường xuyên bỏ học và nghiện Game thì có điểm tích lũy <2

Phân tích một số luật do chương trình phát hiện:

Với các luật được phát hiện, đã khẳng định tính khả thi của việc áp dụng kỹ thuật khai phá dữ liệu trong công tác quản lý sinh viên. Với cơ sở dữ liệu đầu vào chạy thử nghiệm là 310 bản ghi thông tin sinh viên, chương trình đã đưa ra được có luật có ý nghĩa trong việc quản lý sinh viên. Tuy nhiên để hệ thống hoạt động có tính hiệu quả và chính xác hơn thì kho dữ liệu càng lớn thì tính chính xác càng cao, dữ liệu khai phá có thể lên đến hàng terabyte.

Từ các luật được phát hiện ta suy ra được một số vấn đề như sau:

- Những sinh viên ở trong ký túc xá thì có kết quả học tập khả quan hơn, cụ thể là 76,77% những sinh viên này có 2 điểm tích lũy<3.

- Những sinh viên là Nữ thì ở trong ký túc xá nhiều hơn (độ tin cậy là 64,34%) còn các sinh viên Nam thì chủ yếu chọn ở ngoại trú.

- 73,08% những sinh viên Nam ở trong ký túc xá thì có kết quả học tập là: 2 điểm tích lũy < 3.

- 95,37% sinh viên thường xuyên bỏ học thì có điểm tích lũy < 2

- 94,12% Những sinh viên thường xuyên bỏ học và nghiện Game thì có điểm tích lũy < 2.

- 85,88% sinh viên nghiện Game là sinh viên Nam

- Sinh viên là Nam, nghiện Game thì điểm tích lũy<2 và thường xuyên bỏ học (Độ tin cậy là 80,88%).

- 80% sinh viên nghiện Game thì thường xuyên bỏ học

- Những sinh viên có tham gia Lô đề-Cờ bạc thì điểm tích lũy<2 do thường xuyên bỏ học.

Từ các luật mà chương trình sinh ra cho ta thấy lợi ích to lớn của khai phá dữ liệu. Các kho dữ liệu quản lý sinh viên bao gồm tất nhiều các thông tin phức tạp, sau khi được khai phá sẽ phát hiện được các tri thức. Tùy theo mức độ tin cậy và ý nghĩa của các luật được sinh ra mà những người quản lý có thể đưa ra những quyết định phù hợp nhất trong việc quản lý sinh viên trường mình.

Ví dụ:

Từ một số luật được phát hiện cho ta thấy việc sinh viên ở trong ký túc xá sẽ thuận lợi hơn cho việc quản lý và các sinh viên ở trong ký túc xá cũng có kết quả học tập tốt hơn so với các em sinh viên ngoại trú. Đặc biệt từ thực tế cho thấy các sinh viên Nam ở ngoại trú thường dễ tham gia vào các hoạt động xã hội không lành mạnh như: Tụ tập uống rượu, Lô đề-Cờ bạc, nghiện Game, sử dụng chất kích thích,.. Từ đó những người quản lý sinh viên có kế hoạch đề nghị nhà trường có kế hoạch xây dựng ký túc xá đủ chỗ ở cho 100% sinh viên của trường.

Có biện pháp ngăn chặn việc sinh viên chơi Game online quá nhiều, vì những sinh viên nghiện game thì thường xuyên bỏ học và kết quả học tập kém.

Mặt khác, từ một số luật với độ tin cậy cao cũng đưa ra những nhận định như sau: Những sinh viên Nam tham gia Lô đề-Cờ bạc và hay tụ tập uống rượu thì thường xuyên bỏ học, gây gổ đánh nhau và điểm tích lũy < 2. Hay những sinh viên mải chơi Game thì thường xuyên bỏ học và đẫn đến kết quả học tập kém. Từ đó người quản lý sinh viên cũng có những biện pháp phối hợp với gia đình để giáo dục, ngăn chặn kịp thời.

KẾT LUẬN

Mặc dù còn rất nhiều vấn đề mà khai phá dữ liệu cần phải tiếp tục nghiên cứu để giải quyết nhưng tiềm năng của nó đã được khẳng định bằng sự ra đời của rất nhiều ứng dụng.

Sau một thời gian thực hiện, tôi đã hoàn thành luận văn và đạt được một số kết quả nhất định. Luận văn đã thể hiện được tính thực tiễn và cấp bách của việc nghiên cứu phát triển các phương pháp, kỹ thuật khai phá dữ liệu, phát hiện luật kết hợp.

Những kết quả chính của luận văn đã đạt được:

- Trình bày những khái niệm về cơ sở dữ liệu, hệ quản trị cơ sở dữ liệu, kho dữ liệu và tầm quan trọng của việc xây dựng kho dữ liệu.

- Giới thiệu khái quát về khai phá dữ liệu, nhiệm vụ chính của khai phá dữ liệu, một số phương pháp khai phá dữ liệu và những khó khăn trong khai phá dữ liệu.

- Giới thiệu luật kết hợp, các khái niệm, một số hướng tiếp cận và các thuật toán khai phá dữ liệu như: AIS, SETM, Apriori, Apriori-TID, Apriori- Hybrid, FP_growth, Partition và các thuật toán sinh luật kết hợp.

- Xây dựng chương trình demo áp dụng thuật toán Apriori áp dụng vào bài toán “Phát hiện luật kết hợp và ứng dụng trong cơ sở dữ liệu quản lý sinh viên”.

Hướng phát triển của luận văn:

Nghiên cứu sâu hơn các thuật toán phai phá dữ liệu, tiếp tục hoàn thiện và mở rộng chương trình demo trở thành một chương trình hỗ trợ quản lý sinh viên có thể áp dụng vào thực tế.

Nghiên cứu một số thuật toán khác như: Luật kết hợp mờ, luật kết hợp song song và xây dựng các phần mềm ứng dụng trong nhiều lĩnh vực khác.

TÀI LIỆU THAM KHẢO Tiếng Việt:

[1] Phan Hoàng, Anh Quang (2007), Giáo trình tự học lập trình C#, NXB Văn hóa Thông tin.

[2] Vũ Đức Thi (1997), Cơ sở dữ liệu: Kiến thức và thực hành, NXB Thống kê. [3] Nguyễn Bá Tường (2005), Nhập môn cơ sở dữ liệu phân tán, NXB

KHKT.

[4] Đinh Thị Lân (2009), Khai phá dữ liệu và phát hiện luật kết hợp trong

các cơ sở dữ liệu, luận văn thạc sĩ ngành Khoa học máy tính - Đại học

Sư phạm Hà Nội.

[5] Lê Thu Hà (2009), Phương pháp luật kết hợp và ứng dụng, luận văn thạc sĩ ngành khoa học máy tính - Đại học CNTT và Truyền thông Thái Nguyên.

Tiếng Anh:

[6] Agrawal R., Imielinski T. and Swami A.(1993), Mining Association

Rules Between Sets of Items in Large Databases, SIGMOD.

[7] Agrawal R., Srikantt R. (1994), Fast Algorithms for mining association

rules, VLDB-94.

[8] Bao Ho Tu (1998), Introduction to Knowledge Discovery and Data mining, Indtitute of Information Technology National Center for Natural Science and Technology.

[9] D.Phuc, H. Kiem (2000), Discovering the binary and fuzzy association

rules from database, In proc of Int’l ConfAfss 2000, Tsukuba, Japan.

[10] Jiawei Han and Micheline Kamber (2002), Data Mining: Concepts and

Một phần của tài liệu 27873 (Trang 65 - 72)

Tải bản đầy đủ (PDF)

(72 trang)