1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ

102 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ
Tác giả Hoàng Thị Hồng Vân
Người hướng dẫn TS. Nguyễn Hứa Phùng, TS. Võ Thị Ngọc Châu
Trường học Đại học Quốc gia TP.HCM, Trường Đại học Bách Khoa
Chuyên ngành Khoa học Máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2014
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 102
Dung lượng 0,93 MB

Cấu trúc

  • Chương 1: GIỚI THIỆU (0)
    • 1.1 Giới thiệu đề tài 1 (14)
    • 1.2 Mục tiêu và phạm vi nghiên cứu của đề tài 2 (15)
    • 1.3 Ý nghĩa của đề tài. 3 .1. Ý nghĩa khoa học (16)
      • 1.3.2. Ý nghĩa thực tiễn của đề tài (17)
    • 1.4 Phương pháp nghiên cứu 5 Chương 2: CƠ SỞ LÝ THUYẾT (18)
    • 2.1 Các khái niệm cơ bản của luật kết hợp 8 .1. Khai phá dãy phổ biến (21)
      • 2.1.2. Thuật toán GSP – khai phá dãy phổ biến dựa trên Apriori (23)
      • 2.1.3. Thuật toán PrefixSpan – khai phá dãy phổ biến dựa trên phép chiếu (23)
      • 2.1.4. Khai phá luật kết hợp định lượng (25)
      • 2.1.5. Khai phá luật kết hợp hướng thời gian (26)
      • 2.1.6. Khai phá luật kết hợp trên CSDL gia tăng (28)
      • 2.1.7. Đánh giá luật kết hợp dựa trên các độ đo (29)
  • Chương 3: TỔNG QUAN VỀ CÁC CÔNG TRÌNH LIÊN QUAN (0)
    • 3.1 Các công trình khai phá luật kết hợp trong giáo dục 20 .1. “Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường cao đẳng kinh tế kỹ thuật Quảng Nam” - Phạm Cẩm Vân (33)
      • 3.1.8. Tổng kết và nhận xét (42)
    • 3.2 Các công trình liên quan đến thuật toán của đề tài 32 .1. Thuật toán của Hirate & Yamana (45)
      • 3.2.2. Thuật toán CISpan (46)
      • 3.2.3. Nhận xét (48)
  • CHƯƠNG 4: PHÁT BIỂU BÀI TOÁN (0)
    • 4.1 Các định nghĩa, các khái niệm cơ bản. 37 (50)
    • 4.2 Bài toán. 38 (51)
    • 4.3 Các bước giải quyết bài toán 38 .1. Tiền xử lý dữ liệu (51)
      • 4.3.2. Tìm tập phổ biến (53)
      • 4.3.3. Sinh các luật kết hợp (54)
  • Chương 5: ĐỀ XUẤT THUẬT TOÁN (0)
    • 5.1 Các định nghĩa cơ bản 43 (56)
    • 5.2 Khai phá tập mẫu định lượng hướng thời gian -Thuật toán TCISpan 46 .1. Các kí hiệu sử dụng trong thuật toán (59)
      • 5.2.2. Thuật toán (60)
      • 5.2.3. Ví dụ (63)
      • 5.2.4. So sánh thuật toán TCISpan và Hirate & Yamana (67)
    • 5.3 Tìm tập luật từ tập phổ biến đã khai phá 54 .1. Thủ tục Mining from list (67)
      • 5.3.2. Thủ tục Mining from tree (69)
      • 5.3.3. Ví dụ (70)
      • 5.3.4. So sánh thủ tục Mining from list và thủ tục Mining from tree (71)
    • 5.4 Lọc luật sử dụng độ đo 58 (71)
    • 5.5 Minh họa về tập dữ liệu, tập mẫu, tập luật của đề tài 59 .1. Ví dụ về tập dữ liệu (72)
      • 5.5.2. Ví dụ về tập mẫu (0)
      • 5.5.3. Ví dụ về tập luật (73)
  • Chương 6: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ (0)
    • 6.1 Quy trình thực nghiệm 63 (76)
    • 6.2 Chuẩn bị dữ liệu cho thực nghiệm 64 .1. Định dạng dữ liệu điểm sinh viên ban đầu (77)
      • 6.2.2. Định dạng dữ liệu đầu vào của thuật toán (78)
      • 6.2.3. Tiền xử lý dữ liệu sử dụng cho thuật toán (78)
    • 6.3 Chuẩn bị thực nghiệm 66 .1. Môi trường thực nghiệm (79)
      • 6.3.2. Tập dữ liệu (79)
    • 6.4 Kết quả thực nghiệm và đánh giá 68 .1. Thực nghiệm lựa chọn giá trị min_sup, min_conf (81)
      • 6.4.2. Thực nghiệm so sánh hai giải pháp của đề tài trên tập dữ liệu thực (88)
    • 6.5 Kết luận 84 Chương 7: TỔNG KẾT (97)
    • 7.1 Những công việc đã thực hiện 85 (98)
    • 7.2 Hướng phát triển tiếp theo 86 TÀI LIỆU THAM KHẢO (99)

Nội dung

Để hỗ trợ các bạn sinh viên trong việc ra quyết định lựa chọn môn học trong những năm học then chốt tại đại học, chúng tôi nghiên cứu các kỹ thuật khai phá luật kết hợp áp dụng vào dữ li

GIỚI THIỆU

Giới thiệu đề tài 1

Lĩnh vực giáo dục và đào tạo cung cấp nhiều ứng dụng lý thú và đầy thách thức cho khai phá dữ liệu Khai phá dữ liệu trong giáo dục (EDM) là một ngành đang phát triển, liên quan đến việc phát triển các phương thức để khám phá các kiểu tri thức riêng biệt trong môi trường giáo dục, và sử dụng các phương thức đó để nâng cao chất lượng giáo dục cũng như hỗ trợ các hoạt động quản lý giáo dục Với lượng thông tin rất nhiều và những nhu cầu rất khác nhau, hệ thống khai phá dữ liệu tích hợp có khả năng phục vụ những nhu cầu đặc biệt riêng rẽ cho các cơ sở giáo dục khác nhau là nhu cầu lớn trong ngành giáo dục

Hiện nay, mô hình đào tạo tín chỉ được áp dụng rộng rãi tại các trường đại học, góp phần phát huy năng lực của sinh viên và tạo điều kiện cho họ tự chủ trong việc lập kế hoạch học tập Để nâng cao chất lượng đào tạo và quản lý giáo dục, cần nắm bắt dữ liệu giáo dục và nghiên cứu các yếu tố ảnh hưởng đến thành tích học tập của sinh viên Từ đó, đưa ra các quyết định hợp lý và hiệu quả cho các nhà hoạch định chính sách giáo dục nhằm cải thiện thành tích của sinh viên tại các cơ sở giáo dục đại học.

Khám phá luật kết hợp là kỹ thuật quan trọng trong khai thác dữ liệu, giúp phát hiện mối tương quan giữa các mẫu dữ liệu Bằng cách tìm ra các luật kết hợp giữa các thành phần dữ liệu, ta có thể cải thiện hiệu quả ra quyết định Mẫu đầu ra của giải thuật khám phá luật kết hợp là tập luật kết hợp tìm được, giúp chúng ta hiểu được các mẫu dữ liệu có liên quan với nhau như thế nào.

A trong bản ghi kéo theo sự xuất hiện của B trong cùng bản ghi đó: A  B Các vấn đề về thời gian, trình tự, và bối cảnh cũng đóng vai trò quan trọng trong việc nghiên cứu các dữ liệu giáo dục

Theo tìm hiểu, đã có nhiều công trình nghiên cứu về khám phá luật kết hợp trong lĩnh vực giáo dục[3,4,5,6,7,8,9] cả trong nước và ngoài nước nhưng số công trình áp dụng cho môi trường giáo dục học chế tín chỉ không nhiều và hầu hết đều chỉ mới tập trung vào tìm kiếm các luật kết hợp logic trong CSDL, chứ không khám phá ra các luật kết hợp có yếu tố về thời gian, trình tự thời gian giữa vế trái và vế phải của luật

Từ các lý do đã nêu trên chúng tôi chọn đề tài: “Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ”.

Mục tiêu và phạm vi nghiên cứu của đề tài 2

Dựa trên nghiên cứu về đặc điểm của dữ liệu giáo dục, đặc điểm thời gian trong dữ liệu quản lý điểm môn học của sinh viên trong các trường đại học chính quy theo hệ giáo dục tín chỉ, mục tiêu của đề tài là đề xuất được thuật toán khai phá luật kết hợp định lượng, hướng thời gian có hỗ trợ khai phá gia tăng trên CSDL điểm của sinh viên tăng theo từng học kì Cụ thể, đề tài cần đạt được những mục tiêu sau:

 Có khả năng giải quyết các thuộc tính định lượng

 Khám phá ra sự kết hợp giữa các phần tử/thuộc tính định lượng có ràng buộc về thời gian giữa các phần tử/thuộc tính này

 Thuật toán có hỗ trợ khai phá gia tăng phù hợp với sự gia tăng của dữ liệu theo từng kì

 Tập luật đầu ra đúng và đủ

Thông tin khai phá từ CSDL điểm của sinh viên phải đảm bảo tính trực quan, dễ hiểu và hữu ích Đặc biệt, dữ liệu được lọc ra phải là những quy luật giá trị, có thể áp dụng cho sinh viên đại học theo mô hình đào tạo tín chỉ Với đặc điểm này, sinh viên có thể chủ động đăng ký môn học phù hợp với chương trình đào tạo và khả năng cá nhân để đạt kết quả học tập tốt nhất Quyết định lựa chọn môn học được đưa ra trước mỗi học kỳ, dựa trên thông tin và tri thức khám phá từ CSDL điểm Ví dụ, nếu xác suất trượt môn A ở học kỳ này cao hơn ngưỡng nhất định và có liên quan đến việc trượt môn B học kỳ sau, thì sinh viên cần cân nhắc kỹ lưỡng kiến thức môn A trước khi đăng ký học môn B.

Phạm vi nghiên cứu: Đề tài tập trung vào kỹ thuật khai phá luật kết hợp, không xây dựng hệ thống khai phá dữ liệu hoàn chỉnh Do đó, dữ liệu đầu vào được giả định là đã được làm sạch (loại bỏ nhiễu) và được xử lý việc thiếu dữ liệu Đề tài chỉ thực hiện việc rời rạc hóa dữ liệu đối với các thuộc tính số sao cho phù hợp với thuật toán khám phá luật kết hợp, đề xuất thuật toán khai phá luật kết hợp định lượng hướng thời gian để tìm tập luật đầu ra đúng và đủ theo yêu cầu đề tài, xử lý tập luật đầu ra để hỗ trợ quá trình ra quyết định đăng ký môn học cho sinh viên trước mỗi học kỳ.

Ý nghĩa của đề tài 3 1 Ý nghĩa khoa học

Xét trong lĩnh vực giáo dục, đề tài có ý nghĩa trong việc khám phá các tri thức hữu ích đối với hệ giáo dục theo quy chế tín chỉ vì dạng luật kết hợp hướng thời gian ngoài việc khám phá mối quan hệ giữa các thành phần trong CSDL còn thể hiện mối liên kết về mặt thời gian giữa các thành phần này Trong lĩnh vực khai phá dữ liệu, đề tài đề xuất một thuật toán khai phá mẫu định lượng hướng thời gian phổ biến từ CSDL gia tăng theo thời gian – TCISpan dựa trên công trình [27] và công trình [29] Từ tập mẫu khai phá lưu trong cấu trúc cây tiền tố, thực hiện bước khai phá luật định lượng hướng thời gian hiệu quả Dạng luật khai phá được ngoài diễn tả sự liên hệ giữa các thuộc tính định lượng còn có thêm các ràng buộc về thời gian giữa các thuộc tính ở vế trái và vế phải luật Ràng buộc về thời gian ở đây là thời gian của các sự kiện ở vế trái luật phải xảy ra đồng thời hoặc trước thời gian của các sự kiện ở vế phải luật và xảy ra trước bao nhiêu đơn vị thời gian Dạng luật của đề tài sẽ là (A t1 B t2 ) (t1≤t2), nhãn thời gian được gắn với từng sự kiện cụ thể trong cả vế trái và vế phải luật Hiện nay, một số thuật toán khai phá luật kết hợp hướng thời gian tập trung vào khai phá mối quan hệ giữa các sự kiện xảy ra trong một khoảng thời gian nào đó như: Luật kết hợp theo lịch (calendar association rules)[10] khai phá sự kết hợp giữa các sự kiện xảy ra theo một lược đồ về thời gian ví dụ như (năm, tháng, ngày), luật kết hợp hướng thời gian định kỳ (periodic temporal association rules)[11] và luật kết hợp hướng thời gian phổ biến (general temporal association rule)[12] khai phá sự kết hợp của các sự kiện trong một khoảng thời gian cụ thể mà sự kiện đó xảy ra Trong các bài toán này, nhãn thời gian được gắn với từng giao tác và luật kết hợp có dạng (A B) [t1,t2] Luật kết hợp tuần tự (sequence association rules)[13]lại không có nhãn thời gian cụ thể của mỗi giao dịch cũng như của mỗi sự kiện mà chỉ nêu mối quan hệ trước sau giữa các sự kiện trong vế trái và vế phải luật

1.3.2 Ý nghĩa thực tiễn của đề tài Đề tài tập trung vào khám phá luật kết hợp định lượng hướng thời gian trong dữ liệu giáo dục học chế tín chỉ, từ đó thấy được ý nghĩa của việc lựa chọn các môn học trong mỗi học kỳ để sinh viên có đủ kiến thức tích lũy được trong các học kỳ trước có thể sử dụng để đạt được kết quả học tập tốt nhất trong các học kỳ tới

Hiện nay ở nước ta các trường đại học hầu hết áp dụng mô hình đào tạo theo tín chỉ Đặc điểm đào tạo theo tín chỉ:

 Người học là trung tâm của quá trình đào tạo

 Chương trình học linh hoạt hơn, sinh viên có thể chủ động trong việc sắp thời gian, tự đăng ký lịch học và số môn học cho một kỳ sao cho phù hợp với sức học, tài chính của mình

 Sinh viên phải chủ động nghiên cứu kỹ, nắm chắc các tài liệu của nhà trường, nắm vững chương trình đào tạo, các học phần phải học trước, các học phần học song hành, phần kiến thức giáo dục đại cương, phần kiến thức giáo dục chuyên nghiệp

 Sinh viên sẽ tốt nghiệp sau khi hoàn thành khối lượng kiến thức theo yêu cầu của chương trình đào tạo

 Dễ liên thông và chuyển đổi trường, ngành khác nhau từ tín chỉ đã tích lũy (được bảo lưu các điểm tương ứng)

 Sinh viên có thể học lại, thi lại các môn với các lớp sau mà không cần tổ chức thi lại

Do đặc điểm riêng của hệ đào tạo theo quy chế tín chỉ, việc xây dựng một hệ thống hỗ trợ ra quyết định về lựa chọn môn học cho sinh viên ở mỗi học kỳ dựa trên những khám phá về luật kết hợp định lượng hướng thời gian trong hệ giáo dục tín chỉ là yêu cầu cấp thiết nhìn từ góc độ sinh viên và các nhà quản lý giáo dục.

Phương pháp nghiên cứu 5 Chương 2: CƠ SỞ LÝ THUYẾT

Nghiên cứu quy trình khai phá luật kết hợp đối với bài toán khai phá luật kết hợp tổng quát để áp dụng các bước thực hiện của quy trình này vào bài toán của đề tài, có thêm bước định lượng cho thuộc tính điểm môn học trong CSDL quản lý điểm sinh viên của đề tài, quá trình khai phá phải đảm bảo các mẫu và các luật đầu ra thỏa điều kiện ràng buộc về thời gian của các sự kiện trong mẫu, trong luật (nhãn thời gian gắn với từng sự kiện trong mẫu và trong luật) để đảm bảo tập luật đầu ra là các luật định lượng, hướng thời gian

Bài toán khai phá luật kết hợp tổng quát: Cho một tập các phần tử I, một cơ sở dữ liệu giao tác D, ngưỡng phổ biến tối thiểu min_sup, ngưỡng tin cậy tối thiểu min_conf, tìm tất cả các luật kết hợp XY trên D sao cho: support(XY) ≥ min_sup và confidence(X Y) ≥ min_conf Trong đó, support(X Y) là tỷ lệ số giao tác hỗ trợ đồng thời cả X và Y trong D chia cho tổng số giao tác có trong D, confidence(X Y) là tỷ lệ số giao tác hỗ trợ đồng thời cả X và Y trong D chia cho số giao tác hỗ trợ X trong D

Bài toán của đề tài:Cho D là CSDL điểm các môn học đã tích lũy được của sinh viên thuộc trường đại học chính quy học chế tín chỉ, ngưỡng phổ biến tối thiểu min_sup, ngưỡng tin cậy tối thiểu min_conf, tìm tất cả các luật kết hợp định lượng hướng thời gian R trên D thỏa mãn support(R) ≥ min_sup và confidence(R) ≥ min_conf Đặc điểm của D và R sẽ được trình bày chi tiết trong Chương 4

Luật kết hợp định lượng hướng thời gian: mô tả sự kết hợp giữa các phần tử/thuộc tính định lượng có ràng buộc về thời gian giữa các phần tử/thuộc tính này Điều kiện ràng buộc về thời gian khác nhau sẽ cho các dạng luật kết hợp hướng thời gian khác nhau Đối với đề tài, nhãn thời gian được gắn với từng sự kiện xảy ra, điều kiện về thời gian trong dạng luật của đề tài là, nhãn thời gian của các sự kiện ở vế trái luật nhỏ hơn nhãn thời gian của các sự kiện ở vế phải luật và có thể xác định được các sự kiện này xảy ra cách nhau bao nhiêu đơn vị thời gian Ví dụ về luật kết hợp định lượng hướng thời gian: rớt_A(X,“0 4”, 0) rớt_B(X, “4 5”, t1)  rớt_C(X, “0 4”, t2) (t1 (α⊆β) khi và chỉ khi tồn tại i1, i2, im sao cho 1≤ i1 < i2 < < i m ≤ n và a 1 ⊆ b i1 , a 2 ⊆ b i2 , a m ⊆ b im Khi đó, β được gọi là dãy chứa (bao) α

Cho CSDL dãy, S = { s1, s2, ,sn } Độ phổ biến của dãy α trong S là số dãy trong S chứa α, support (α) = |{s|s  S và α ⊆s}| Cho ngưỡng phổ biến tối thiểu min_sup, α là dãy phổ biến nếu support (α) ≥ min_sup

2.1.2 Thuật toán GSP – khai phá dãy phổ biến dựa trên Apriori

GSP[15] là thuật toán khai phá dãy phổ biến dựa trên tính chất Apriori: Nếu s là dãy không phổ biến thì không có dãy bao nào của s là phổ biến

Các bước thực hiện của thuật toán GSP:

1 Duyệt CSDL để tìm các dãy phổ biến 1 phần tử

2 Với mỗi tập dãy phổ biến độ dài k

 Tạo các dãy ứng viên có độ dài (k+1) từ các dãy phổ biến chiều dài k (sử dụng Apriori)

 Duyệt CSDL để đếm độ phổ biến của từng dãy ứng viên và loại các ứng viên không thỏa mãn ngưỡng phổ biến tối thiểu min_sup

3 Lặp lại đến khi không còn dãy phổ biến hoặc không còn ứng viên

2.1.3 Thuật toán PrefixSpan – khai phá dãy phổ biến dựa trên phép chiếu

Thuật toán GSP dựa trên Apriori có nhược điểm là tạo ra quá nhiều tập ứng viên, dẫn đến chi phí kiểm tra lớn khi kích thước dãy dữ liệu tăng lên Hơn nữa, GSP phải quét qua cơ sở dữ liệu để tính độ phổ biến của các ứng viên sau khi sinh các tập ứng viên, gây ra việc kiểm tra tập dữ liệu nhiều lần.

PrefixSpan[28] khai phá dãy phổ biến dựa trên việc thực hiện phép chiếu đệ quy các dữ liệu dãy thành các CSDL nhỏ hơn theo các tiền tố phổ biến trong CSDL

CSDL chiếu là tập các hậu tố của dữ liệu dãy từ CSDL gốc, được nhóm theo các tiền tố Định nghĩa 2.1 (Tiền tố, phép chiếu và hậu tố) - Giả sử các phần tử trong một tập phần tử của dãy được sắp xếp theo thứ tự tăng dần Cho trước dãy α = < e1, e2, ,en >, một dãy β = < e’1, e’2, ,e’m > được gọi là tiền tố của s nếu và chỉ nếu:

(3) mọi phần tử trong (e m - e’ m ) có thứ tự tăng dần sau các phần tử trong e’ m

Cho dãy α và β sao cho β là dãy con của α (α⊆β) Một dãy con α’ của dãy α (α’⊆α) được gọi là một phép chiếu của α với tiền tố β nếu và chỉ nếu

(1) α’ có tiền tố là β (2) không tồn tại dãy bao α’’ của α’ (α’⊆α’’ và α’≠α’’) sao cho α’’ là dãy con của α và cũng có tiền tố β

Gọi α’ = là phép chiếu của α với tiền tố β = (m ≤ n) Dãy γ = được gọi là hậu tố của α với tiền tố β, kí hiệu là γ = α| β, trong đó e’’m = (em – e’m) Nếu β không là dãy con của α, cả phép chiếu và hậu tố của α theo β là rỗng

Thuật toán PrefixSpan Đầu vào: CSDL dãy S, ngưỡng phổ biến tối thiểu min_sup Đầu ra: Tập các dãy phổ biến

Thực hiện: Gọi hàm PrefixSpan(, 0, S) Thủ tục con PrefixSpan(α, l, S| α )

Các tham số: α: một dãy phổ biến; l: độ dài của α; S| α : CSDL chiếu theo α, nếu α ≠; trường hợp khác là S

Các bước thực hiện 1 Quét S|α một lần, tìm tập các phần tử phổ biến bsao cho i b có thể kết hợp với tập phần tử cuối cùng của α để tạo thành một dãy phổ biến; hoặc ii có thể thêm vào cuối α để tạo thành một dãy phổ biến

2 Với mỗi phần tử phổ biến b, thêm vào cuối α để tạo thành dãy phổ biến α’, xuất ra dãy α’

3 Với mỗi dãy α’, xây dựng CSDL chiếu theo α’ S| α’ và gọi thủ tục

Tính hiệu quả của thuật toán: So với thuật toán GSP, PrefixSpan hiệu quả hơn do không cần sinh các dãy ứng cử viên và quét qua CSDL để kiểm tra các dãy ứng cử viên này có phổ biến hay không

Chi phí chính của thuật toán PrefixSpan chính là việc xây dựng các CSDL chiếu Để cải thiện hiệu suất của thuật toán, nhóm tác giả của [28] đề xuất kỹ thuật chiếu giả (pseudo-projection) khi CSDL ban đầu có thể lưu trong bộ nhớ chính

TỔNG QUAN VỀ CÁC CÔNG TRÌNH LIÊN QUAN

Các công trình khai phá luật kết hợp trong giáo dục 20 1 “Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường cao đẳng kinh tế kỹ thuật Quảng Nam” - Phạm Cẩm Vân

3.1.1 “Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường Cao Đẳng

Kinh Tế Kỹ Thuật Quảng Nam” - Phạm Cẩm Vân

Trường Cao Đẳng Kinh Tế Kỹ Thuật Quảng Nam đang thực hiện việc ứng dụng CNTT vào công tác dạy và học Việc xây dựng ứng dụng dự đoán kết quả học tập sẽ hỗ trợ cho sinh viên trong việc lựa chọn phương pháp học và môn học (theo hình thức tín chỉ) để đạt kết quả tốt trong các học kỳ kế tiếp Dựa trên kho dữ liệu lưu giữ các thông tin về kết quả học tập của sinh viên đã tốt nghiệp, [3] xây dựng hệ thống thực hiện chức năng: tìm ra những quy luật dựa trên những mô hình đã được xây dựng để dự đoán kết quả học tập cuối khóa cho sinh viên Bên cạnh đó, từ dữ liệu đã thu thập cần liệt kê lộ trình học cho từng sinh viên và từ đó suy ra lộ trình học cho từng ngành Với thuộc tính lộ trình học đã được liệt kê sẽ hỗ trợ cho kết quả dự đoán tốt hơn

Dữ liệu đầu vào: Dữ liệu được thu thập từ các hồ sơ tuyển sinh hàng năm và kết quả học tập đã được thu thập của sinh viên trường cao đẳng kinh tế kỹ thuật Quảng Nam Tập dữ liệu được dùng để xây dựng mô hình gồm 2000 sinh viên của trường Cao Đẳng Kinh tế - Kỹ thuật Quảng Nam, có 12 thuộc tính gồm: MASV, PHAI, KHOITHI, DANTOC, TINH, MAHUYEN, KHUVUC, DIEMTHI, SODIEMUT, MANGANH, LOTRINH, KETQUA

Mỗi thuộc tính được coi là một thuộc tính kiểu phân loại (category) và thuộc tính phân loại này được chuyển sang thuộc tính nhị phân bằng cách mỗi một giá trị của thuộc tính phân loại được chuyển thành một thuộc tính nhị phân Ví dụ thuộc tính DANTOC có 2 giá trị Lao và Kinh sẽ được chuyển thành 2 thuộc tính nhị phân là (DANTOC = Lao) và (DANTOC = Kinh) Hai thuộc tính này có thể nhận giá trị =0 hoặc 1

Thuật toán: sử dụng thuật toán Apriori của công cụ của Microsoft SQL Server 2008 R2 Analysis Services

Dạng luật khám phá: các luật định lượng đa chiều Ví dụ: DIEMTHI;

3.1.2 “Khai phá dữ liệu cho tư vấn lựa chọn môn học” - Phạm Thị Phúc

Mục đích của [4] nhằm tìm hiểu kỹ thuật khai phá dữ liệu, xem xét và sử dụng kỹ thuật khai phá luật kết hợp trong tư vấn môn học cho sinh viên Một ví dụ áp dụng được thể hiện trong xây dựng hệ tư vấn tại trường Đại học Thăng Long Hệ thống được chia làm 2 giai đoạn:

 Giai đoạn 1 (khai phá dữ liệu): Trong giai đoạn này phần mềm mã nguồn mở Weka được sử dụng để sinh các luật kết hợp với thuật toán Apriori, ta thu được một tập luật kết hợp lưu dưới dạng tập tin văn bản

 Giai đoạn 2 (tư vấn): sử dụng các luật nhận được từ giai đoạn 1 để đưa ra những tư vấn cho người dùng

Dữ liệu đầu vào: CSDL điểm của sinh viên, bảng điểm của sinh viên có dạng (TID, M, Đ, XL) trong đó TID là mã môn học, M là tên môn học, Đ là điểm của môn học, XL là xếp loại điểm môn học XL là thuộc tính phân loại có các giá trị: G, K, TB, Y Điểm môn học là thuộc tính liên tục nhận giá trị từ 0 đến 10

Thuật toán: Sử dụng thuật toán Apriori của phần mềm mã nguồn mở Weka

Dạng luật đầu ra: CSDL luật lưu trong máy Ví dụ: luật về định hướng lựa chọn môn học: Cơ sở Toán = TB  Tiếng việt thực hành = TB (độ tin cậy=0.88) Luật về định hướng chuyên ngành: Cơ sở Toán = TB  Tốt nghiệp CN Ngân hàng = TB (độ tin cậy=0.77)

3.1.3 “Discovery of Association Rules from University Admission System

Data” - Abdul Fattah Mashat et al

Bài báo [5] trình bày mô hình khai phái luật kết hợp từ hệ thống dữ liệu nhập học của Đại học King Abdulaziz (Kau) Mục tiêu chính của công trình này là để trích xuất các luật và mối tương quan giữa các thuộc tính trong hệ thống nhập học, giúp văn phòng nhập học tìm được những tri thức tiềm ẩn, các thông số ảnh hưởng đến việc ra quyết định cho việc chấp nhận hoặc từ chối đơn nhập học của sinh viên Hệ thống hiện tại được mô hình hóa như sau: từ CSDL quan hệ đầu vào qua bước tiền xử lý dữ liệu để phù hợp với các thuật toán khai phá luật kết hợp, cho kết quả ra là các luật chứa những tri thức đáng quan tâm

Dữ liệu đầu vào: cơ sở dữ liệu hệ thống của Kau, thể hiện thông tin sinh viên nộp đơn và trạng thái của sinh viên đó bị từ chối hoặc được chấp nhận để được ghi danh vào trường đại học trong ba năm liên tiếp (2010, 2011 và 2012) CSDL chứa khoảng 83K bản ghi, trong đó mỗi bản ghi là một thể hiện với 4 thuộc tính và một thuộc tính phân lớp biểu diễn trạng thái ứng dụng Các thuộc tính hầu hết là thuộc tính phân loại (G, HT, A, S) Thuộc tính HG là thuộc tính liên tục, được rời rạc hóa thành 4 khoảng tương ứng là A, B, C, D

Chuyển từ CSDL quan hệ:

Bảng 3 - 1: Cơ sở dữ liệu quan hệ của Kau

Chuyển sang CSDL giao tác:

Bảng 3 - 2: Cơ sở giao tác của Kau

1 GM, HS, HA, A1007, SA 2 GF, HL, HB, A1004, SR 3 GF, HS, HD, A1004, SA 4 GM, HU, HB, A1005, SR Thuật toán: Apriori

Dạng luật đầu ra: 2 lớp luật kết hợp: các luật dành cho lớp “bị từ chối” và các luật dành cho lớp “được chấp nhận”

Bảng 3 - 3: Bảng các luật lớp “bị từ chối”

1 62.7% sinh viên bị từ chối là nữ và đã học văn ở bậc phổ thông trung học

2 70.8% sinh viên bị từ chối là nữ

Bảng 3 - 4: Bảng các luật lớp “được chấp nhận”

1 60.1% sinh viên được chấp nhận đến từ Jeddah và đạt loại A ở bậc phổ thông trung học

2 67.8% sinh viên được chấp nhận đến từ Jeddah

3.1.4 “Mining Educational Data to Improve Students’ Performance: A

Case Study” - Mohammed M Abu Tair, Alaa M El-Halees

Khai phá dữ liệu giáo dục liên quan đến các phương pháp phát triển để khám phá tri thức từ lĩnh vực giáo dục Trong hệ thống[6] này, nhóm tác giả sử dụng khai phá dữ liệu giáo dục để cải thiện thành tích của sinh viên tốt nghiệp, giải quyết vấn đề điểm thấp của sinh viên tốt nghiệp Hệ thống cố gắng trích xuất thông tin hữu ích từ dữ liệu sinh viên tốt nghiệp được thu thập từ trường đại học Khoa học và Công nghệ - Khanyounis Dữ liệu của sinh viên trong khoảng thời gian [1993- 2007], sau khi tiền xử lý dữ liệu, áp dụng các kỹ thuật khai phá dữ liệu để khám phá các luật kết hợp, phân lớp, gom cụm và phát hiện bất thường, thu được những tri thức tiềm ẩn, quan trọng trong lĩnh vực giáo dục

Dữ liệu đầu vào: dữ liệu về sinh viên tốt nghiệp thu thập từ trường đại học Khoa học và Công nghệ Khanyounis Dữ liệu thu thập trong khoảng thời gian mười lăm năm [1993-2007] bao gồm 3360 bản ghi và 18 thuộc tính Bước tiền xử lý dữ liệu loại bỏ những thuộc tính không thích hợp cho thuật toán khai phá dữ liệu, những thuộc tính không mang lại tri thức mới cho người dùng Lựa chọn 6 thuộc tính, trong đó thuộc tính điểm đầu vào GPA trong tập dữ liệu là thuộc tính số, được rời rạc hóa thành thuộc tính phân loại thành 5 giá trị: Xuất sắc, Giỏi, Khá, Trung bình, và Yếu

Thuật toán: Sử dụng thuật toán FP – Growth của phần mềm Rapid Miner

R1: [M_GPA = Poor, City = Khanyounis, Secondary_School_Type = Adabi]

 [Grade = Average] (support:0.195, confidence: 0.757, lift: 1.396)

R2: [City = Khanyounis, Secondary_School_Type = Adabi, Gender = Male]

[Grade = Average] (support:0.101, confidence: 0.754, lift: 1.391)

3.1.5 “Association Rule Mining in Learning Management Systems” -

Dữ liệu đầu vào: Dữ liệu quản lý sinh viên của hệ thống Moodle - là một hệ thống quản lý học miễn phí cho phép tạo ra các khóa học trực tuyến linh hoạt, mạnh mẽ, thu hút Thông tin được lưu trữ trong CSDL quan hệ, có thể sử dụng bất kỳ hệ quản trị CSDL quan hệ nào Một số thuộc tính được liệt kê trong Bảng 3 - 5:

Bảng 3 - 5: Các thuộc tính dữ liệu quản lý sinh viên hệ thống Moodle

Course Số định danh khóa học n_assigment Số các bài tập thực hành n_quiz Số bài thi vấn đáp thực tế n_quiz_a Số bài thi vấn đáp đạt n_quiz_s Số bài thi vấn đáp trượt n_messages Số tin nhắn gửi tới chat n_messages_ap Số tin nhắn gửi tới giáo viên n_posts Số tin nhắn gửi tới diễn đàn n_read Số tin nhắn đã đọc của diễn đàn total_time_assignment Tổng thời gian sử dụng cho bài tập total_time_quiz Tổng thời gian sử dụng cho vấn đáp total_time_forum Tổng thời gian sử dụng trong diễn đàn mark Điểm khóa học

Quá trình tiền xử lý dữ liệu:

 Lựa chọn dữ liệu: Lựa chọn những khóa học của Moodle cần quan tâm để khai phá

- Phát triển các bảng tổng hợp: Dựa trên các khóa học đã chọn, nhóm tác giả tạo ra các bảng tổng hợp thông tin ở mức cần thiết (vì dữ liệu về sinh viên nằm rải rác ở các bảng khác nhau) Để tạo ra những bảng này, một số truy vấn CSDL được sử dụng.

 Rời rạc hóa dữ liệu: Rời rạc hóa các giá trị số, thành các phân lớp để làm đầu vào cho thuật toán khai phá dữ liệu

 Chuyển đổi dữ liệu: Chuyển đổi dữ liệu sang khuôn dạng yêu cầu của thuật toán khai phá dữ liệu, ví dụ sang khuôn dạng tập tin ARFF (Attribute-Relation File Format) trong Weka

Thuật toán: sử dụng thuật toán Apriori trong Weka với độ hỗ trợ tối thiểu là 0.3 và độ tin cậy là 0.9

R1: total_time_assigment=LOW n_read=LOW (confidence:100%) R2: n_post=LOW n_read=LOW (confidence:100%)

Các công trình liên quan đến thuật toán của đề tài 32 1 Thuật toán của Hirate & Yamana

Thuật toán khai phá dạng luật đầu ra được phát triển dựa trên kỹ thuật khai phá dãy (Sequential Mining), cho phép xét đến thứ tự xuất hiện của các sự kiện theo nhãn thời gian cụ thể để xác định khoảng cách thời gian giữa các sự kiện.

3.2.1 Thuật toán của Hirate & Yamana

Thuật toán của nhóm tác giả Hirate & Yamana [27] là thuật toán khai phá mẫu tuần tự tổng quát hóa, cho ra các mẫu tuần tự có các ràng buộc cụ thể về thời gian như:

 min_time_interval: Khoảng thời gian tối thiểu cho phép giữa 2 tập phần tử liền nhau

 max_time_interval: Khoảng thời gian tối đa cho phép giữa 2 tập phần tử liền nhau

 min_whole_interval: Khoảng thời gian tối thiểu cho phép giữa tập phần tử đầu và tập phần tử cuối của dãy

 max_whole_interval : Khoảng thời gian tối đa cho phép giữa tập phần tử đầu và tập phần tử cuối của dãy

Thuật toán khai phá mẫu kết hợp PrefixSpan sử dụng phép chiếu để tạo cơ sở dữ liệu chiếu chứa các hậu tố của dữ liệu gốc, đảm bảo thứ tự của các sự kiện Quá trình này được lặp lại cho đến khi không tìm thấy phần tử phổ biến nào trong cơ sở dữ liệu chiếu Mẫu phổ biến tương ứng với đường đi của các phần tử phổ biến đến cơ sở dữ liệu chiếu đó.

Thuật toán Hirate & Yamana có gán nhãn thời gian đối với từng sự kiện trong dãy, các sự kiện có cùng nhãn thời gian được nhóm lại thành một tập phần tử Dữ liệu đầu vào là CSDL dãy mở rộng nhãn thời gian có dạng như sau:

Bảng 3 - 11: Minh họa CSDL dãy mở rộng nhãn thời gian

Các phép chiếu trong thuật toán Hirate & Yamana không thực hiện theo các phần tử phổ biến, mà thực hiện theo các cặp (item,timestamp), trong đó item là phần tử phổ biến, timestamp là nhãn thời gian tương ứng của phần tử đó Nhãn thời gian ở đây mang ý nghĩa tương đối, nghĩa là phép chiếu đầu tiên timestamp được gán bằng 0, thể hiện sự kiện xảy ra tại thời điểm nào đó Các phép chiếu sau đó timestamp là nhãn thời gian của sự kiện được so với mốc thời gian 0 của phép chiếu đầu tiên Như vậy, mẫu khai phá được của thuật toán Hirate &Yamana như sau: …

Thuật toán CISpan [29] được đề xuất để giải quyết bài toán khai phá tập các mẫu tuần tự đóng (có thể khai phá tập mẫu tuần tự đầy đủ) trong CSDL gia tăng, có hỗ trợ đầy đủ các thao tác cập nhật CSDL như thêm mới, cập nhật và xóa bản ghi Điểm hạn chế của CISpan là sử dụng tham số min_count (số lượng giao dịch tối thiểu chứa mẫu) thay cho min_sup (số phần trăm giao dịch tối thiểu chứa mẫu) khi khai phá mẫu

CISpan sử dụng dữ liệu đầu vào là CSDL dãy, có dạng như sau:

Bảng 3 - 12: Minh họa CSDL dãy

Bất kỳ thao tác cập nhật CSDL nào cũng có thể được mô hình hóa thành việc xóa bản ghi và thêm bản ghi vào CSDL Nếu một dãy α trong CSDL cũ được cập nhật thành dãy α’ trong CSDL mới, thì sẽ được coi là thao tác gỡ bỏ dãy α trong CSDL cũ

Do mọi thao tác cập nhật CSDL đều được coi là thêm mới và xóa bản ghi, ta thêm dãy 2 < (AB, 0)(CE, 1)(F, 3) > vào dãy α’ trong CSDL mới để đơn giản hóa quá trình.

 Đối với thao tác xóa bản ghi: Tập phổ biến phải cập nhật lại độ hỗ trợ, nếu độ hỗ trợ sau khi cập nhật nhỏ hơn ngưỡng phổ biến tối thiểu thì tập phổ biến đó sẽ trở thành tập không phổ biến

 Đối với thao tác thêm mới bản ghi: Việc tìm các tập phổ biến sau khi thêm mới bản ghi sẽ phức tạp hơn so với xóa bản ghi Một số tập không phổ biến trong CSDL cũ có thể sẽ thành tập phổ biến trong CSDL mới, mà không có thông tin về các tập phổ biến này từ kết quả khai phá trước đó hoặc trong các cấu trúc dữ liệu trung gian như cây tiền tố (prefix tree) để tính độ hỗ trợ cho các tập phổ biến này

Cho CSDL ban đầu D và CSDL được cập nhật D’ CISpan coi các thao tác cập nhật là việc gỡ bỏ các bản ghi khỏi D và thêm các bản ghi mới vào D’ Các mẫu phổ biến được lưu trong cấu trúc dữ liệu trung gian, được gọi là dàn tiền tố Dàn tiền tố - Lattice - là cấu trúc cải tiến của cây tiền tố - PrefixTree Dàn tiền tố chia sẻ cây con chung của 2 nút nhằm tiết kiệm chi phí bộ nhớ

Hình 3 - 1: Tổng quan về CISpan

Các bước khai phá mẫu tuần tự đóng của thuật toán CISpan

 Bước 1: Tìm L – dàn tiền tố biểu diễn các mẫu  I phổ biến trong D’ Đầu ra Xây dựng dàn gia tăng

Xử lý các dãy gỡ bỏ

Loại bỏ các mẫu không đóng

 Bước 2: Tìm L o – dàn tiền tố biểu diễn các mẫu phổ biến trong D bằng thuật toán Clospan[30]

 Bước 3: Tìm L’ 0 - dàn tiền tố của D sau khi gỡ bỏ R, bằng cách duyệt Lo, cập nhật lại giá trị support khi gỡ bỏ đi các giao tác trong R, nếu một nút có support < min_sup thì xóa nút đó và các con của nó khỏi Lo

 Bước 4: Trộn L i và L’0 để thu được L’

 Bước 5: Duyệt theo L’, thu được các mẫu tuần tự phổ biến trong D’

Li Dàn tiền tố của I trong D’

L0 Dàn tiền tố của D L’ 0 Dàn tiền tố của D sau khi gỡ bỏ R L’ Dàn tiền tố của D’

Thuật toán Hirate & Yamana hỗ trợ trích xuất các chuỗi phổ biến có gắn nhãn thời gian cho từng sự kiện trong chuỗi, phù hợp với nhu cầu khai phá luật của đề tài nhưng không hỗ trợ khai phá trên dữ liệu gia tăng Trong khi đó, thuật toán CISpan hỗ trợ khai phá trên dữ liệu gia tăng nhưng chỉ trích xuất các chuỗi phổ biến đơn giản Để khắc phục hạn chế này, chúng tôi đề xuất kết hợp cả hai thuật toán để trích xuất các chuỗi phổ biến có gắn nhãn thời gian mở rộng trên dữ liệu gia tăng, đáp ứng nhu cầu khai phá luật của đề tài và tạo cơ sở cho việc khai phá luật từ tập phổ biến hiệu quả.

Mặt khác, cả hai thuật toán trên đều chỉ thực hiện trên dữ liệu nhị phân, nghĩa là có hoặc không xảy ra sự kiện Do đó, chúng tôi phải thực hiện bước tiền xử lý dữ liệu để chuyển dữ liệu dạng định lượng của đề tài sang dạng dữ liệu nhị phân sử dụng cho thuật toán

Hơn nữa, cả hai thuật toán trên chỉ khai thác được các mẫu mà chưa khai thác được luật Chúng tôi sẽ thực hiện bước tiếp theo là khai thác luật từ các mẫu phổ biến được khai thác.

PHÁT BIỂU BÀI TOÁN

Các định nghĩa, các khái niệm cơ bản 37

Định nghĩa 1: (dãy sự kiện mở rộng nhãn thời gian) Cho tập phần tử I {i1,i2, ,ik}, dãy ts = được gọi là dãy mở rộng nhãn thời gian, trong đó Xi⊆I, ti N và i  {1, ,n}, ti< ti+1, ti là nhãn thời gian của tập phần tử Xi Khi đó t1 được gọi là thời điểm bắt đầu của dãy ts và kí hiệu là start(ts) và tn được gọi là thời điểm kết thúc của dãy ts và kí hiệu là end(ts)

Gọi tα,β là khoảng thời gian giữa 2 tập phần tử Xα và Xβ và được tính theo công thức: t α,β = t β - t α (4.1)

Với tα, tβ lần lượt là nhãn thời gian của 2 tập phần tử Xα và Xβ Định nghĩa 2: (dãy sự kiện chuẩn hóa nhãn thời gian) Dãy sự kiện mở rộng nhãn thời gian α = là dãy chưa chuẩn hóa nhãn thời gian nếu t1>0 Dãy chuẩn hóa nhãn thời gian của dãy α kí hiệu là |α| và |α| = Định nghĩa 3: (toán tử ⊆) Cho hai dãy sự kiện mở rộng nhãn thời gian là s, α và hàm I(t) cho trước với s = , α = (m≤n), α được gọi là dãy con của s (α⊆s) khi và chỉ khi tồn tại j ≤ (n-m) sao cho: X’i ⊆ Xi+j với i  {1, ,n} và t’i = I(ti+j) hoặc tồn tại giá trị c sao cho t’ i = t i+j –c với i  {1, ,n} Hàm I(t) được coi là hàm chuyển đổi đơn vị thời gian

Hệ quả: Nếu α⊆s thì |α| ⊆s vì |α| =

=> |α| ⊆s do tồn tại j ≤ (n-m) sao cho X’ i ⊆ X i+j với i  {1, ,n}, t’ i = t i+j –c – t 1 với

Ví dụ: Cho dãy: s = , hàm I(t) = t/30

Dãy α = , α⊆s vì tồn tại giá trị c = 30, (e) ⊆(e,f) và 0 = 30-30, (g) ⊆(g,h) và 30 = 60-30

Dãy α’ = , α’⊆s vì (e) ⊆(e,f) và 1 = 30/30, (g) ⊆(g,h) và 2 60/30 Định nghĩa 4: (toán tử ++) Cho hai dãy sự kiện mở rộng nhãn thời gian là α và β = (tn(C2,1) 2/4 2/2 5 (C2,0) => (D2,2) 2/4 2/4 6 (A1,0)=> (D2, 3) 2/4 2/3 7 (A1B1,0) => (C2,1) 2/4 2/2 8 (A1,0) =>(C2,1) (D2, 3) 2/4 2/3 9 (A 1 ,0) (C 2 ,1) => (D 2 , 3) 2/4 2/3 Ý nghĩa cụ thể một số luật trong bảng trên

 Luật 1: Trong số 50% sinh viên vừa rớt môn A điểm từ [0 4) vửa rớt môn B điểm từ [0 4) trong cùng học kỳ, có 67% sinh viên sẽ rớt môn B[0 4) khi đã rớt môn A[0 4)

 Luật 2: Trong số 50% sinh viên vừa rớt môn A điểm từ [0 4) vửa rớt môn B điểm từ [0 4) trong cùng học kỳ, 100% sinh viên sẽ rớt môn A[0 4) khi đã rớt môn B[0 4)

 Luật 3: Trong số 75% sinh viên rớt môn A điểm từ [0 4) ở học kỳ nào đó và rớt môn C điểm từ [4 5) ở học kỳ tiếp theo, 100% sinh viên sẽ rớt môn C[4 5) ở kỳ tiếp theo khi đã rớt môn A[0 4) ở kỳ nào đó.

ĐỀ XUẤT THUẬT TOÁN

Các định nghĩa cơ bản 43

Định nghĩa 1: Tiền tố (Prefix) và Hậu tố (Postfix) của dãy mở rộng nhãn thời gian theo dãy chiếu Gọi α = với (n ≥ 1), (t i < t i+1 ), và Xβ là tập phần tử bất kì Khi tồn tại số nguyên j (1 ≤ j ≤ m) thỏa mãn Xβ ⊆Xj và tβ = tj

(tβ,tj lần lượt là nhãn thời gian của Xβ, Xj), chúng ta định nghĩa tiền tố của α theo (Xβ,tβ) như sau:

Prefix(α, X β ,t β ) = (5.1) Hậu tố của α theo Xβ,tβ cũng được định nghĩa như sau:

Trong đó X j ’ là tập con của X j X j ’

= ∅, Postfix(α, X β ,t β ) =< (X j+1 , t j+1 ), , (X m , t m )> (5.3) Khi không tồn tại số nguyên dương j thì:

Postfix(α, X β ,t β )=∅ (5.5) Định nghĩa 2 - Phép chiếu của CSDL mở rộng nhãn thời gian: CSDL mở rộng nhãn thời gian (TSDB) được chiếu theo dãy mở rộng nhãn thời gian α bất kỳ, xuất hiện ít nhất một lần trong CSDL đó, được gọi là CSDL chiếu theo α (α-Projected):

TSDB| α = tập các hậu tố của TSDB theo α Khi đó, α được gọi là dãy chiếu Định nghĩa 3 - Mức chiếu: là số các phần tử trong dãy chiếu Nếu α có l phần tử thì phép chiếu TSDB|α là phép chiếu mức l

Phép chiếu mức một tìm tập các phần tử phổ biến trong cơ sở dữ liệu thời gian có siêu biên (TSDB), tạo dãy có nhãn thời gian để thực hiện phép chiếu và tạo ra nhiều cơ sở dữ liệu chiếu thay vì một như phương pháp PrefixSpan.

Phép chiếu mức 2 hoặc cao hơn: Từ các CSDL chiếu ở mức 1 - TSDB|α, tìm mọi cặp (I(ti), a) với a Xi trong TSDB|α thỏa mãn ngưỡng phổ biến tối thiểu, gọi β (α,a, I(ti)) Khi đó TSDB|β được định nghĩa như sau:

TSDB| β = {ts/ts ∅ ts=Postfix(,a, I(t i )) sup TSDB|α ((I(t i ), a)) ≥ min_sup} (5.6) trong đó  TSDB|α và a Xi

Hình 5 - 1: Minh họa phép chiếu Định nghĩa 4 - Cây tiền tố T: là cây biểu diễn tập các dãy con phổ biến trong một CSDL Mỗi nút p trong T tương ứng với một phần tử của dãy khi duyệt cây qua nút đó Nút có thể là nút loại s hoặc nút loại i Nút loại s chỉ ra nút đó là phần tử bắt đầu của một tập phần tử mới khi dãy duyệt qua nút đó Nút loại i chỉ ra nút đó là phần

TSDB|: Phép chiếu mức 2 tử được mở rộng thêm vào sau tập phần tử cuối cùng của dãy trước, sau khi duyệt qua nút đó Mỗi nút được biểu diễn theo mẫu: : support, trong đó item là phần tử (thuộc tính), timestamp là nhãn thời gian của phần tử trong dãy và support là độ hỗ trợ của dãy con bắt đầu từ nút gốc của T và kết thúc tại nút p

Hình 5 - 2: Cây tiền tố của CSDL TSDB với min_count =2

Cấu trúc cây tiền tố: Nút gốc ở mức 0 được gán nhãn null Các nút ở mức k được gán nhãn bởi các phần tử chiếu mức k Một nút ở mức k biểu diễn cho dãy k phần tử khi duyệt từ nút gốc đến nút mức k Dãy (k+1) phần tử có thể mở rộng từ dãy k phần tử theo hai cách: mở rộng dãy (sequence extension) hoặc mở rộng tập phần tử (itemset extension) Mở rộng dãy: phần tử mở rộng được thêm vào dãy như là một tập phần tử mới Mở rộng tập phần tử: phần tử mở rộng được thêm vào sau tập phần tử cuối của dãy

Lưu ý 1: Theo cách mở rộng dãy, dãy α, k phần tử là tiền tố của mọi dãy mở rộng từ α

Lưu ý 2: Theo cách mở rộng tập phần tử, α là tiền tố không đầy đủ của mọi dãy mở rộng từ α root

Khai phá tập mẫu định lượng hướng thời gian -Thuật toán TCISpan 46 1 Các kí hiệu sử dụng trong thuật toán

Yêu cầu: Tìm mọi dãy phổ biến s thỏa mãn s là một dãy sự kiện chuẩn hóa nhãn thời gian, s ts, support (s) ≥ min_sup Kí hiệu support(s) là tỷ lệ phần trăm của các giao dịch hỗ trợ s (chứa) trên tổng các giao dịch trong R, nghĩa là: support(s) ( ), với N(s) là số giao tác hỗ trợ s trong R và N là tổng số giao tác trong R

Thuật toán TCISpan được xây dựng dựa trên thuật toán Hirate & Yamana và CISpan TCISpan kết hợp khai phá dãy mở rộng nhãn thời gian phổ biến của thuật toán Hirate & Yamana với nguyên lý khai phá gia tăng dãy phổ biến của CISpan Điểm khác biệt chính là TCISpan sử dụng cấu trúc cây tiền tố thay vì dàn để giảm chi phí tách, nhập các cây con chung khi trộn giữa 2 cấu trúc dữ liệu.

5.2.1 Các kí hiệu sử dụng trong thuật toán

Bảng 5 - 1: Các kí hiệu sử dụng trong thuật toán

Kí hiệu Ý nghĩa TSDB CSDL mở rộng nhãn thời gian gốc TSDB’ CSDL mở rộng nhãn thời gian cập nhật I CSDL mở rộng nhãn thời gian thêm vào R CSDL mở rộng nhãn thời gian gỡ bỏ U CSDL mở rộng nhãn thời gian không đổi Li Cây tiền tố của I trong TSDB’

L0 Cây tiền tố của TSDB L’0 Cây tiền tố của TSDB sau khi gỡ bỏ R L’ Cây tiền tố của TSDB’ min_sup Ngưỡng phổ biến tối thiểu

Giả sử có CSDL gốc là TSDB, CSDL cập nhật TSDB’ (I+U) Kết quả khai phá tập mẫu từ TSDB được thực hiện theo thuật toán Hirate & Yamana để khai phá các mẫu phổ biến hướng thời gian Các mẫu này sẽ được lưu vào cây L0 để thực hiện khai phá tập mẫu từ TSDB’theo cách khai phá gia tăng của thuật toán CISpan mà không cần phải khai phá lại từ đầu theo thuật toán Hirate & Yamana

1 Bước 1: Tìm Li – gọi thủ tục Cross Module Mining

2 Bước 2: Duyệt qua L0, tìm L0’ – gọi thủ tục Retrieval

5.2.2.1 Thủ tục Cross Module Mining

Thủ tục Cross Module Mining xây dựng cây Li, lưu các dãy thuộc phần CSDL thêm vào I vào cây nhưng lại phổ biến trong TSDB Các dãy lưu trong Li là những dãy không phổ biến trong TSDB nhưng phổ biến trong TSDB' hoặc những dãy phổ biến trong TSDB và vẫn phổ biến trong TSDB' nhưng có sự thay đổi độ hỗ trợ do tập các giao dịch thêm mới I.

Output: R(tập phổ biến), L i Thực hiện:

1 ts = ∅; 1 R= ∅; 2 Quét TSDB’, tìm mọi phần tử phổ biến (độ hỗ trợ lớn hơn ngưỡng phổ biến tối thiểu min_sup) Với mọi phần tử phổ biến i, 3 Kiểm tra nếu i I:

4 Định nghĩa: ts = , R = {R,ts} Thêm ts vào Li

5 Thực hiện R = Projection(TSDB|ts,R,(I(t),min_sup)) 6 Output:R , Li a) Thủ tục Projection Thủ tục Projection được thực hiện như trong [27]

Input: TSDB’|ts, I, R, min_sup, I(t)

Output: R(tập phổ biến), L i Thực hiện:

1 Quét TSDB’|ts, tìm mọi cặp (item, timestamp)– (i, t), thỏa mãn min_sup

3 Kiểm tra nếu ts I, 4 Thêm (i,t ) vào Li

5 Thực hiện R = Projection(TSDB|ts,R,(I(t),min_sup)) 6 R = {R,ts}

Trong đó TSDB’|(i,t) là CSDL chiếu theo cặp (item - i, timestamp - t) TSDB’|(i,t) được tính như [27]:

2 FOR mỗi dãy ts = Giải tích 2[4 5) -1 sup= 2 conf= 0.4 cosine= 0.63 Luật (4) Vật lý 1[4 5) -1 ==> Giải tích 2[0 4) -1 sup= 2 conf= 0.4 cosine= 0.52 Luật (1) s006002[0 4) -1 ==> s006001[0 4) -1 sup= 2 conf= 0.67 cosine= 0.67

Luật (2) s006001[0 4) -1 ==> s006002[0 4) -1 sup= 2 conf= 0.67 cosine= 0.67 Luật (3) s007001[4 5) -1 ==> s006002[4 5) -1 sup= 2 conf= 0.4 cosine= 0.63 Luật (4) s007001[4 5) -1 ==> s006002[0 4) -1 sup= 2 conf= 0.4 cosine= 0.52

 Ý nghĩa của độ đo cosine: cosine có giá trị trong khoảng từ 0 đến 1 Giá trị cosine gần 1 chỉ ra mỗi tương quan mạnh giữa X và Y Giá trị này càng tiến gần tới 1 thì số giao tác chứa X đồng thời chứa Y càng nhiều và ngược lại Nói cách khác, giá trị này càng gần tới 0, số giao tác chứa X không chứa Y càng nhiều và ngược lại.

KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

Quy trình thực nghiệm 63

Theo quy trình nghiên cứu khoa học, quy trình thực nghiệm của đề tài thực hiện các bước khai phá luật kết hợp định lượng, hướng thời gian Các bước thực nghiệm cụ thể tuân theo lưu đồ trình bày sau:

Hình 6 - 1: Các bước chính của quá trình thực nghiệm

Bước 1: Tiền xử lý dữ liệu, tạo CSDL theo định dạng của thuật toán

Bước 2: Chạy thực nghiệm tập dữ liệu ở Bước 1 trên thuật toán Hirate Yamana với các giá trị min_sup, min_conf thay đổi để tìm giá trị min_sup, min_conf phù hợp cho ra tập luật với số lượng mong muốn.

Bước 3: Chạy thực nghiệm tập dữ liệu thực với cả hai thuật toán:

Hirate Yamana và thuật toán của đề tài – TCispan với giá trị min_sup lựa chọn ở bước 2, so sánh kết quả đạt được về thời gian thực thi và hiệu suất sử dụng bộ nhớ

Bước 4: Nhận xét và đánh giá kết quả đạt được

Phần thực nghiệm, đo đạc thời gian sẽ không bao gồm chi phí tính độ đo tương quan luật mà đề tài đã lựa chọn (độ đo cosine).

Chuẩn bị dữ liệu cho thực nghiệm 64 1 Định dạng dữ liệu điểm sinh viên ban đầu

6.2.1 Định dạng dữ liệu điểm sinh viên ban đầu

Tập dữ liệu thực nghiệm là tập dữ liệu điểm của sinh viên khoa Khoa học và Kỹ thuật Máy tính, Đại học Bách Khoa TP HCM từ kỳ 1 đến kỳ 6 các khóa 2005, 2006, 2007 và 2008 Tập dữ liệu này được lưu trong các tập tin Excel Dòng đầu tiên của tập tin là mã các môn học Các dòng sau, mỗi dòng là điểm môn học tương ứng của một sinh viên Môn học chưa có điểm sẽ có giá trị là NULL Tập tin có khuôn dạng như sau:

Bảng 6 - 1: Tập dữ liệu ban đầu ee2 s001001 s001004 … ea4 ea5

Dữ liệu trên được trích rút từ CSDL quản lý điểm của sinh viên, đã được tiền xử lý và chuẩn hóa theo chương trình đào tạo Phần này không nằm trong khuôn khổ luận văn nên chúng tôi không nêu chi tiết ra ở đây mà chỉ trình bày ngắn gọn về chúng Vì dữ liệu dùng để khai phá được thu thập từ kết quả học tập của sinh viên nhiều khóa khác nhau, nhưng chương trình đào tạo của các khóa không giống nhau, nên xảy ra vấn đề không đồng nhất môn học giữa các khóa (chỉ từ năm 2008 về sau, chương trình đào tạo mới thống nhất) Do đó, để tạo sự đồng nhất trong dữ liệu, phải tiến hành quy đổi sang các môn học tương đương giữa các khóa để đặt điểm của các môn khóa trước vào đúng cột điểm của môn tương đương của chương trình chuẩn 2008 Ngoài ra việc xử lý các điểm đặc biệt (điểm ngoài thang 10, ví dụ điểm 16 là miễn học, điểm 17 là rút môn học …) cũng đã được quy đổi

Mỗi cột trong tập tin Excel là một môn học (ký hiệu bằng mã môn học) có học thuộc một khóa học của ngành Khoa Học Máy Tính.Môn học nào sinh viên chưa học thì điểm sẽ được gán giá trị NULL, môn học nào sinh viên đã học rồi thì điểm số chính là điểm tổng kết của môn học đó

6.2.2 Định dạng dữ liệu đầu vào của thuật toán

Dữ liệu đầu vào của thuật toán được lưu trong tập tin văn bản (*.txt) với định dạng như sau:

Bảng 6 - 2: Dữ liệu đầu vào thuật toán

Mỗi dòng trong tập tin tương ứng với dữ liệu điểm của một sinh viên Trong đó, a1 tương ứng với việc sinh viên rớt môn a trong khoảng điểm từ [0 4) và a2 tương ứng với sinh viên rớt môn a trong khoảng điểm từ [4 5) (a, b là mã của một môn học) Mỗi học kỳ tương ứng với một nhãn thời gian trong tập tin dữ liệu và được đặt giữa hai dấu “” Giữa các học kỳ được ngăn cách bằng ký hiệu “-1”, và kết thúc một dòng dùng kí hiệu “-2” để thuận tiện cho quá trình đọc dữ liệu Việc sử dụng khuôn dạng dữ liệu như trên sẽ làm giảm số lượng thuộc tính sử dụng cho thuật toán, do những môn học có giá trị NULL với mọi sinh viên tại mỗi học kỳ sẽ bị loại bỏ

6.2.3 Tiền xử lý dữ liệu sử dụng cho thuật toán

Việc chuyển từ tập dữ liệu ban đầu sang tập dữ liệu sử dụng cho thuật toán được thực hiện thông qua lớp PreProcessing Lớp này sẽ tiến hành đọc các tập tin Excel dữ liệu ban đầu, lọc ra những điểm rớt của sinh viên, thực hiện rời rạc hóa điểm rớt thành hai thuộc tính tương ứng và ghi vào tập tin văn bản theo khuôn dạng tập tin sử dụng cho thuật toán Nhãn thời gian bắt đầu gán từ 0 (tương ứng với học kỳ 1) cho đến 5 (tương ứng với học kỳ 6) Dữ liệu sẽ được chuyển đổi theo từng kỳ học cho mỗi khóa học Sau đó, dữ liệu sẽ được tổng hợp lại theo từng kì giữa các khóa để phục vụ cho quá trình thực nghiệm so sánh giữa thuật toán Hirate & Yamana (không gia tăng) và TCISpan (gia tăng) Để tiện cho việc trình bày của các phần sau và tạo bảng thống kê, các tập dữ liệu được ký hiệu theo quy tắc sau: khóa_học kỳ Ví dụ: 5_1 là dữ liệu khóa 2005 ở học kỳ 1 và 56_1 là dữ liệu khóa 2005 và 2006 ở học kỳ 1 Điều này cũng có nghĩa là bài toán khai phá các luật kết hợp từ dữ liệu của sinh viên ở học kỳ đầu tiên Sau mỗi năm, dữ liệu của sinh viên ở học kỳ đầu tiên được gia tăng với dữ liệu của sinh viên khóa mới sau đó

Từ các tập dữ liệu này chúng tôi tiến hành gộp các khóa để tạo tập dữ liệu phục vụ cho khai phá gia tăng Cách gộp như sau: dữ liệu được gộp theo từng học kỳ, khóa sau gộp vào các khóa trước đó Ví dụ: với học kỳ 1 cho các khóa 2005, 2006, 2007, và 2008, lần lượt các tập dữ liệu sau được tạo ra: 5_1, 56_1, 567_1, 5678_1

Tập dữ liệu thực nghiệm đã được chuẩn bị bao gồm:

 Dữ liệu điểm kì 1: các tập dữ liệu 5_1.txt, 56_1.txt, 567_1.txt, 5678_1.txt

 Dữ liệu điểm kì 2: các tập dữ liệu 5_2.txt, 56_2.txt, 567_2.txt, 5678_2.txt

 Dữ liệu điểm kì 3: các tập dữ liệu 5_3.txt, 56_3.txt, 567_3.txt, 5678_3.txt

 Dữ liệu điểm kì 4: các tập dữ liệu 5_4.txt, 56_4.txt, 567_4.txt, 5678_4.txt

 Dữ liệu điểm kì 5: các tập dữ liệu 5_5.txt, 56_5.txt, 567_5.txt, 5678_5.txt

 Dữ liệu điểm kì 6: các tập dữ liệu 5_6.txt, 56_6.txt, 567_6.txt, 5678_6.txt.

Chuẩn bị thực nghiệm 66 1 Môi trường thực nghiệm

Thực nghiệm được tiến hành trên máy PC, bộ xử lý Intel(R) Core(TM) i3 CPU M380 @2.53GHz, 4GB bộ nhớ RAM, hệ điều hành Microsoft Windows 7 64-bit Home Premium

Tập dữ liệu điểm của sinh viên khoa Khoa học và Kỹ thuật Máy tính, Đại học Bách Khoa TP HCM từ kỳ 1 đến kỳ 6 các khóa 2005, 2006, 2007 và 2008 Số lượng thuộc tính và số lượng giao dịch được liệt kê chi tiết trong Bảng 6 - 3, SL là viết tắt của số lượng

Bảng 6 - 3: Đặc điểm tập dữ liệu

Tập dữ liệu SL sinh viên SL giao dịch SL môn học SL thuộc tính

Trong những học kỳ đầu, tập dữ liệu có số lượng thuộc tính ít, do sinh viên chỉ tập trung vào các môn học bắt buộc Từ học kỳ 6 trở đi, số lượng thuộc tính tăng dần, vì đây là giai đoạn sinh viên lựa chọn các môn học tự chọn, dẫn đến sự đa dạng trong các môn học được lựa chọn và số lượng thuộc tính tăng cao.

Kết quả thực nghiệm và đánh giá 68 1 Thực nghiệm lựa chọn giá trị min_sup, min_conf

6.4.1 Thực nghiệm lựa chọn giá trị min_sup, min_conf

Thực nghiệm đầu tiên chúng tôi tiến hành là cho chạy tập dữ liệu đã chuẩn bị để xác định giá trị min_sup, min_conf phù hợp cho bước thực nghiệm tiếp theo, đồng thời khảo sát số lượng thuộc tính, số lượng giao dịch trong từng tập tin dữ liệu để thấy được đặc điểm của tập dữ liệu dùng cho khai phá

Thực nghiệm tập dữ liệu với thuật toán Hirate & Yamana, giá trị min_sup thay đổi từ 0.02 đến 0.2 Kết quả được tổng hợp theo từng học kỳ trong các bảng sau:

Bảng thống kê số lượng mẫu và số lượng luật khai phá được từ các tập dữ liệu học kỳ 1: 5_1.txt, 56_1.txt, 567_1.txt, 5678_1.txt với giá trị min_sup thay đổi từ 0.02 đến 0.2, min_conf nhận các giá trị lần lượt 0.4; 0.5; 0.6

Bảng 6 - 4: Kết quả thực nghiệm tập dữ liệu học kỳ 1 min_sup min_conf

Bảng thống kê số lượng mẫu và số lượng luật khai phá được từ các tập dữ liệu học kỳ 2: 5_2.txt, 56_2.txt, 567_2.txt, 5678_2.txt với giá trị min_sup thay đổi từ 0.02 đến 0.2, min_conf nhận các giá trị lần lượt 0.4; 0.5; 0.6

Bảng 6 - 5: Kết quả thực nghiệm tập dữ liệu học kỳ 2 min_sup min_conf

5_2.txt 56_2.txt 567_2.txt 5678_2.txt SL mẫu

Bảng thống kê cho thấy kết quả khai phá luật từ các tập dữ liệu 5_3.txt, 56_3.txt, 567_3.txt, 5678_3.txt khi thay đổi ngưỡng giá trị hỗ trợ tối thiểu (min_sup) từ 0,02 đến 0,2 và ngưỡng độ tin cậy tối thiểu (min_conf) lần lượt qua các giá trị 0,4; 0,5; 0,6.

Bảng 6 - 6: Kết quả thực nghiệm tập dữ liệu học kỳ 3 min_sup min_conf

5_3.txt 56_3.txt 567_3.txt 5678_3.txt SL mẫu

Bảng thống kê thể hiện số lượng mẫu và luật khai phá từ các tập dữ liệu học kỳ 4: 5_4.txt, 56_4.txt, 567_4.txt, 5678_4.txt khi thay đổi giá trị min_sup từ 0,02 đến 0,2 và min_conf lần lượt nhận các giá trị 0,4; 0,5; 0,6.

Bảng 6 - 7: Kết quả thực nghiệm tập dữ liệu học kỳ 4 min_sup min_conf

5_4.txt 56_4.txt 567_4.txt 5678_4.txt SL mẫu

Bảng thống kê số lượng mẫu và số lượng luật khai phá từ các tập dữ liệu 5_5.txt, 56_5.txt, 567_5.txt, 5678_5.txt với giá trị min_sup thay đổi từ 0,02 đến 0,2, min_conf nhận giá trị 0,4; 0,5; 0,6.

Bảng 6 - 8: Kết quả thực nghiệm tập dữ liệu học kỳ 5 min_sup min_conf

5_5.txt 56_5.txt 567_5.txt 5678_5.txt SL mẫu

Bảng thống kê số lượng mẫu và số lượng luật khai phá được từ các tập dữ liệu học kỳ 6: 5_6.txt, 56_6.txt, 567_6.txt, 5678_6.txt với giá trị min_sup thay đổi từ 0.02 đến 0.2, min_conf nhận các giá trị lần lượt 0.4; 0.5; 0.6

Bảng 6 - 9: Kết quả thực nghiệm tập dữ liệu học kỳ 6 min_sup min_conf

5_6.txt 56_6.txt 567_6.txt 5678_6.txt SL mẫu

Từ kết quả này, chúng tôi có một số nhận xét sau:

 Tập dữ liệu sử dụng nhiều nhãn thời gian (học kỳ 5, 6) thì số lượng mẫu sinh ra lớn do sự đa dạng của các cặp (item, timestamp)

Với cùng bộ tham số ngưỡng hỗ trợ tối thiểu (min_sup) và độ tin cậy tối thiểu (min_conf), khi khai thác trên các tập dữ liệu khác nhau, có thể thu được số lượng mẫu và luật lệ chênh lệch đáng kể Do đó, việc chọn lựa cụ thể các giá trị ngưỡng này phụ thuộc vào mục đích, tiêu chí đánh giá của người sử dụng.

Do giai đoạn từ kỳ 5 đến kỳ 6, sinh viên bắt đầu bước vào giai đoạn học các môn tự chọn theo sở thích và năng lực của từng bạn sinh viên, nên trong giai đoạn này sinh viên cần đưa ra các quyết định lựa chọn môn học phù hợp với khả năng của bản thân dựa trên các kết quả đã đạt được từ các kì 1, 2, 3 và 4 Do đó, đề tài tập trung vào khai phá tập dữ liệu điểm của sinh viên từ kì 1 đến kì 6, nhằm hỗ trợ cho các bạn sinh viên trong việc ra quyết định đăng kí môn học phù hợp với năng lực ở thời điểm quan trọng là kì 5 và kỳ 6 của khóa học

6.4.2 Thực nghiệm so sánh hai giải pháp của đề tài trên tập dữ liệu thực Đề tài đưa ra hai giải pháp để giải quyết bài toán của đề tài Giải pháp thứ nhất sử dụng thuật toán Hirate & Yamana (không gia tăng) để khai phá mẫu và lưu các mẫu khai phá được trong một danh sách, sau đó khai phá luật từ danh sách các mẫu này

Giải pháp thứ 2, phát triển thuật toán TCISpan (khai phá gia tăng) để khai phá mẫu trên tập dữ liệu gia tăng và lưu các mẫu này trên cây tiền tố theo cấu trúc cây tiền tố của đề tài (Định nghĩa 5 - Mục 5.1), tập luật sẽ được khai phá từ tập mẫu lưu trên cây tiền tố Chúng tôi sẽ tiến hành thực nghiệm nhằm so sánh thời gian thực thi và dung lượng sử dụng bộ nhớ của hai cách tiếp cận trên trong bốn trường hợp:

 Trường hợp thứ nhất: min_sup, min_conf không thay đổi, dữ liệu thay đổi

 Trường hợp thứ hai: min_sup thay đổi, dữ liệu không thay đổi, thực nghiệm với tập dữ liệu gia tăng thêm mới bản ghi

 Trường hợp thứ ba: min_sup thay đổi, dữ liệu không thay đổi, thực nghiệm với tập dữ liệu gia tăng cập nhật bản ghi

 Trường hợp thứ tư: min_sup thay đổi, dữ liệu không thay đổi, thực nghiệm với tập dữ liệu gia tăng xóa bỏ bản ghi

Kết quả thực nghiệm giúp đánh giá ưu, khuyết điểm của từng giải pháp và lựa chọn phù hợp cho từng tập dữ liệu Trường hợp thực nghiệm thứ ba và thứ tư sử dụng tập dữ liệu cập nhật và xóa bỏ bản ghi để đánh giá thuật toán TCISpan so với Hirate & Yamana (chỉ tham khảo) Để đảm bảo độ tin cậy, mỗi tham số đã được chạy 110 lần, loại bỏ 10 kết quả đầu và lấy giá trị trung bình của 100 lần chạy làm kết quả cuối cùng Tỉ lệ so sánh trong bảng kết quả được tính theo tham số của Hirate & Yamana chia cho tham số tương ứng của TCISpan.

Bảng 6 - 10: Các từ viết tắt sử dụng trong bảng kết quả thực nghiệm

Từ viết tắt Ý nghĩa Đơn vị đo

Proj Số phép chiếu thực hiện trong thuật toán PTime Thời gian khai phá tập phổ biến mili giây (ms) Rtime Thời gian khai phá tập luật từ tập phổ biến mili giây (ms) TTime Tổng thời gian khai phá = PTime + Ttime mili giây (ms) Mem Dung lượng bộ nhớ sử dụng cho thuật toán megabyte (mb)

Như đã trình bày trong phần chuẩn bị dữ liệu, chúng tôi tiến hành gộp các khóa theo từng học kỳ và thực nghiệm trên sáu học kỳ, từ học kỳ 1 đến học kỳ 6 Theo kết quả thực nghiệm trước, chúng tôi chọn giá trị min_sup là 0.03, min_conf = 0.4 vì số lượng tập mẫu, tập luật đầu ra của mọi tập dữ liệu đầu vào đủ lớn để so sánh, đánh giá được chi phí về thời gian và bộ nhớ của 2 giải pháp Kết quả thực nghiệm được liệt kê trong bảng sau:

Bảng 6 - 11: Kết quả thực nghiệm trường hợp thứ nhất

Nhận xét về kết quả thực nghiệm trường hợp thứ nhất:

Kết luận 84 Chương 7: TỔNG KẾT

Qua các thí nghiệm được tiến hành, chúng tôi nhận thấy TCISpan đều cho kết quả tốt hơn Hirate & Yamana đối với tập dữ liệu giáo dục, phù hợp với lý thuyết Khi dữ liệu gốc tăng lên và khi min_sup nhỏ, sự khác biệt càng rõ rệt Do đó, trong hai cách tiếp cận cho bài toán khai phá luật kết hợp định lượng hướng thời gian trong lĩnh vực giáo dục, giải pháp TCISpan hiệu quả hơn và có thể được lựa chọn sử dụng để khai phá các luật định lượng hướng thời gian trong lĩnh vực giáo dục để hỗ trợ các bạn sinh viên ra quyết định đăng ký môn học

Chương này tổng kết những công việc đã làm được của đề tài và đề xuất hướng phát triển của đề tài trong tương lai.

Những công việc đã thực hiện 85

Tìm hiểu cơ sở lý thuyết về khai phá dữ liệu, quy trình khai phá dữ liệu nói chung và kỹ thuật khai phá luật kết hợp nói riêng Đặc biệt, các công trình khai phá luật kết hợp trong lĩnh vực giáo dục được khảo sát kỹ để thấy được những vấn đề còn thiếu, cần phát triển để có thể khai thác tốt hơn các tri thức từ dữ liệu giáo dục

Bên cạnh đó, chúng tôi cũng nghiên cứu, tìm hiểu các công trình, thuật toán trong kỹ thuật khai phá luật kết hợp liên quan đến đề tài để đề xuất ra một thuật toán hiệu quả giải quyết được nhiệm vụ, mục tiêu của đề tài Áp dụng các kiếm thức đã tìm hiểu về quy trình khai phá dữ liệu vào các bước phát triển thuật toán cho đề tài.Thực hiện bước tiền xử lý dữ liệu để đưa dữ liệu định lượng về dạng dữ liệu logic phù hợp với các thuật toán khai phá dữ liệu Đề xuất thuật toán TCISpan dựa trên hai thuật toán Hirate & Yamana và Cispan để giải quyết bài toán của đề tài, khám phá ra tập luật định lượng, hướng thời gian từ dữ liệu điểm số của sinh viên, gia tăng theo từng học kỳ, từng năm học

Thuật toán ngoài việc có thể khai phá trên dữ liệu gia tăng thêm mới, còn có thể khai phá trên tập dữ liệu sửa đổi hoặc xóa bỏ một số giao dịch

Tiến hành thực nghiệm trên tập dữ liệu điểm sinh viên khoa Khoa học máy tính Đại học Bách khoa TP.HCM từ năm 2005 đến năm 2008 Qua kết quả thực nghiệm, chúng tôi nhận thấy trong hầu hết các trường hợp, TCISpan đều có chi phí tốt hơn so với thuật toán Hirate & Yamana Đặc biệt, chi phí khai phá luật từ tập mẫu lưu trên cây tiền tố nhỏ hơn rất nhiều so với khai phá luật từ tập mẫu lưu trong danh sách, trong khi chi phí về bộ nhớ của cách tiếp cận thực nghiệm tương đương nhau

Tính độ đo cosine cho từng luật đầu ra để sử dụng độ đo này lọc ra các luật chứa thông tin thực sự hữu ích khi áp dụng thuật toán TCISpan trong các hệ thống khai phá dữ liệu giáo dục đại học theo học chế tín chỉ.

Hướng phát triển tiếp theo 86 TÀI LIỆU THAM KHẢO

Phần thực nghiệm sẽ sử dụng tập dữ liệu sau khi tiền xử lý để phù hợp với thuật toán Hirate & Yamana và TCISpan Ngoài ra, nhóm nghiên cứu sẽ tiến hành đánh giá thuật toán TCISpan trên các tập dữ liệu chuẩn của lĩnh vực khai phá dữ liệu nhằm đảm bảo tính khách quan trong kết quả đánh giá.

Hiện tại, các mẫu phổ biến khai phá được lưu trong cây tiền tố và lưu trong bộ nhớ Hướng phát triển tiếp theo của đề tài sẽ thực hiện lưu cây tiền tố này xuống đĩa để sử dụng lại cho những lần khai phá tiếp theo Đề tài hiện nay mới giải quyết bài toán trong trường hợp thêm mới và cập nhật dữ liệu theo tham số min_sup Trong trường hợp xóa dữ liệu, đề tài chỉ thực hiện được đối với tham số min_count Đề tài sẽ hoàn thiện thuật toán đề xuất trong thời gian tới để có thể giải quyết bài toán khi xóa bỏ dữ liệu với tham số min_sup

Dạng luật kết hợp định lượng hướng thời gian của đề tài là: rớt A điểm từ 0 đến 4 ở kỳ nào đó thì sẽ rớt B điểm từ 4 đến 5 trong 2 kỳ tiếp theo Sự kiện rớt môn A điểm từ 0 đến 4 có thể xảy ra ở bất cứ học kỳ nào trong suốt quá trình học của sinh viên Hướng phát triển tiếp theo, chúng tôi sẽ khai phá dạng luật định lượng hướng thời gian cụ thể, rõ ràng hơn, đó là rớt A điểm từ 0 đến 4 ở kỳ I thì sẽ rớt B điểm từ 4 đến 5 trong kỳ II Việc xác định rõ thời gian của sự kiện A sẽ giúp chúng ta có thêm tri thức để ra quyết định trong việc đăng ký môn học đồng thời giúp các thầy cô giáo có thể đưa ra cảnh báo cho các bạn sinh viên về những môn đang học dựa trên kết quả học tập đã có của các bạn

[1] Jiawei Han, Micheline Kamber (2006),Data Mining Concepts and Techniques, Second Edition, Morgan Kaufmann Publishers

[2]Maimon, O., Rokach, L (2010), The Data Mining and Knowledge Discovery Handbook 2nd edition, Springer

[3] Phạm Cẩm Vân (2012), Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường cao đẳng kinh tế kỹ thuật Quảng Nam, khoa CNTT - Đại học Đà Nẵng

[4]Phạm Thị Phúc (2010), Khai phá dữ liệu cho tư vấn lựa chọn môn học, Học viện CNBCVT

[5] Abdul Fattah Mashat et al (2013),“Discovery of Association Rules from University Admission System Data”, I.J.Modern Education and Computer Science

[6] Mohammed M Abu Tair, Alaa M El-Halees (2012), “Mining Educational Data to Improve Students’ Performance: A Case Study”, ICT Journal 2(2)

[7] Enrique García1 et al, (2011), “Association Rule Mining in Learning Management Systems”, Handbook of Educational Data Mining

[8] Yousef Ibrahim Abuzawayda (2013), “Mining Postgraduate Students’ Data Using Apriori Algorithm”, Journal of Computing & organisational dynamics

[9] Agathe Merceron, Kalina Yacef (2005), “Educational Data Mining: a Case Study”, In Proc of the 12th international Conference on Artificial Intelligence in Education AIED, IOS Press

[10] Y.lin, P.Ning (2001), “Discovering Calendric based temporal association rule”, In Proc of the 8th international symposium on temporal and reasoning

[11] Ru Miao, Xia-Jiong Shen (2010), “Construction of Periodic Temporal Association Rules in data mining”, In Seventh International Conference on FSKD, IEEE

[12] Cheng-Yue Chang et al (2002),“Mining General Temporal Association Rule for item with different exhibition period”, IEEE International Conference on Data Mining

[13] R.Agrawal, R.Srikant (1995), “Mining Sequential Patterns”, In Proc of 11th Int'l Conf Data Eng., pp 3-14

[14] R.Agrawal, R.Srikant (1994),“Fast algorithms for mining association rules”, In VLDB, pp 487-499

[15] Agrawal R., Srikant R (1996): Mining sequential patterns: Generalization and performance improvements In 5th EDBT

[16] R.Agrawal, R.Srikant (1996), “Mining quantitative association rules in large relational tables”, In Proc of ACM SIGMOD Conf pp 1-12

[17]Wei Wang et al (1999), “Temporal Association Rules with Numerical Attributes”, NCLA CSD Technical Report

[18] John F Roddick, Myra Spiliopoulou (2002), “A Survey of Temporal Knowledge Discovery Paradigms and Methods”, IEEE Transactions on Knowledge and Data Engineering, 14(4)

[19] J.F.Allen (1983), “Maintaining Knowledge About Temporal Intervals”, Comm.ACM, 26(11), pp 832-843

[20] C.Freksa (1992), “Temporal Reasoning Based on Semi-Intervals”, Artificial Intelligence, 54, pp 199-227

[21] ZHAI Lianga et al (2005), “Temporal Association Rule Mining based on T- Apriori Algorithm and Its Typical Application”, In Proc of International Symposium on Spatio-temporal Modeling, Spatial Reasoning, Analysis, Data Mining and Data Fusion

[22] D W Cheung et al (1996), “Maintenance of discovered association rules in large databases: an incremental updating technique”, In Proc of 12th Intl Conf on Data Engineering, New Orleans, LA, pp 106-114

[23]T.P Hong et al (2008), “Incrementally fast updated frequent pattern trees”, Expert Systems with Applications, 34(4), pp 2424-2435

[24] Liqiang Geng, Howard J.Hamilton (2006), “Interestingness Measures for Data Mining: A Survey”, ACM Computing Surveys, 38(3).

Ngày đăng: 24/09/2024, 05:46

HÌNH ẢNH LIÊN QUAN

Hình 2 - 1: Các bước khai phá luật kết hợp hướng thời gian - Luận văn thạc sĩ Khoa học máy tính: Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ
Hình 2 1: Các bước khai phá luật kết hợp hướng thời gian (Trang 27)
Hình 2 - 2: Vai trò của các độ đo trong quá trình khai phá dữ liệu - Luận văn thạc sĩ Khoa học máy tính: Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ
Hình 2 2: Vai trò của các độ đo trong quá trình khai phá dữ liệu (Trang 30)
Bảng 3 - 3: Bảng các luật lớp “bị từ chối” - Luận văn thạc sĩ Khoa học máy tính: Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ
Bảng 3 3: Bảng các luật lớp “bị từ chối” (Trang 36)
Bảng 3 - 5: Các thuộc tính dữ liệu quản lý sinh viên hệ thống Moodle - Luận văn thạc sĩ Khoa học máy tính: Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ
Bảng 3 5: Các thuộc tính dữ liệu quản lý sinh viên hệ thống Moodle (Trang 37)
Bảng 3 - 6: Giá trị của các biến ban đầu các biến được chuyển đổi - Luận văn thạc sĩ Khoa học máy tính: Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ
Bảng 3 6: Giá trị của các biến ban đầu các biến được chuyển đổi (Trang 39)
Bảng 3 - 7: Các luật kết hợp khai phá được - Luận văn thạc sĩ Khoa học máy tính: Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ
Bảng 3 7: Các luật kết hợp khai phá được (Trang 40)
Bảng 3 - 8: Bảng mistake - Luận văn thạc sĩ Khoa học máy tính: Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ
Bảng 3 8: Bảng mistake (Trang 41)
Bảng 3 - 10: Tổng kết các công trình liên quan trong giáo dục. - Luận văn thạc sĩ Khoa học máy tính: Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ
Bảng 3 10: Tổng kết các công trình liên quan trong giáo dục (Trang 43)
Hình 3 - 1: Tổng quan về CISpan - Luận văn thạc sĩ Khoa học máy tính: Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ
Hình 3 1: Tổng quan về CISpan (Trang 47)
Bảng 4 - 1: Ví dụ CSDL dãy mở rộng nhãn thời gian - TSDB - Luận văn thạc sĩ Khoa học máy tính: Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ
Bảng 4 1: Ví dụ CSDL dãy mở rộng nhãn thời gian - TSDB (Trang 52)
Bảng 4 - 2: Tập phổ biến của TSDB - Luận văn thạc sĩ Khoa học máy tính: Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ
Bảng 4 2: Tập phổ biến của TSDB (Trang 53)
Bảng 4 - 3: Tập luật của TSDB - Luận văn thạc sĩ Khoa học máy tính: Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ
Bảng 4 3: Tập luật của TSDB (Trang 54)
Hình 5 - 1: Minh họa phép chiếu - Luận văn thạc sĩ Khoa học máy tính: Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ
Hình 5 1: Minh họa phép chiếu (Trang 57)
Hình 5 - 2: Cây tiền tố của CSDL TSDB với min_count =2 - Luận văn thạc sĩ Khoa học máy tính: Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ
Hình 5 2: Cây tiền tố của CSDL TSDB với min_count =2 (Trang 58)
Bảng 5 - 1: Các kí hiệu sử dụng trong thuật toán - Luận văn thạc sĩ Khoa học máy tính: Khám phá luật kết hợp định lượng hướng thời gian trong hệ giáo dục theo quy chế tín chỉ
Bảng 5 1: Các kí hiệu sử dụng trong thuật toán (Trang 59)