4.1. Dữ liệu
FAM95 là tập dữ liệu chứa dữ liệu của 63.756 gia đình được phỏng vấn vào trong cuộcđiều tra Dân (Current Population Survey - CPS) của Mỹ vào 3/1995. một tập tin ASCII bao gồm 63.756 hồ sơ (một bản ghi cho mỗi gia đình), và mỗi bản ghi có 23 biến. Mỗi biến được đại diện bởi một chuỗi có độ dài cố định, bao gồm một số không gian trống theo sau bởi một số con số. Ví dụ, thu nhập 41.344 USD được đại diện là 41.344.
Danh sách các trường trong tập dữ liệu FAM95
Ví dụ về dữ liệu FAM95: 40 1 1 8 1 1 1 1 4 2 40 1 1 40 41344 49158 21643 3246 25240 1 65809 58387 11 35 1 1 8 1 1 1 1 3 1 39 2 1 0 31700 36960 18987 2848 25239 1 64020 58387 11 62 2 1 8 7 3 2 2 1 0 43 5 0 0 27648 27648 21398 3209 25238 1 51277 53353 11
Trong đó các dữ liệu các trường được lưu theo thứ tự trong bảng liệt kê ở trên. Mỗi bản ghi được đánh dấu bằng kí tự enter.
4.2. Kết quả thử nghiệm và so sánh
Chương trình thử nghiệm với tập dữ liệu FAM95 với tham số đầu vào: Tỉ lệ gia tử: 0.5
Độ hỗ trợ: 0.05 Độ tin cậy: 80%
Kết quả thu được: 139 luật, dưới đây là danh sách 10 luật có độ tin cậy cao nhất
Bảng 6 Danh sách 10 luật có độ tin cậy cao nhất
Độ hộ trợ Luật kết hợp Độ tin cậy 0.285 {low_EdLe} -> {low_InFa 99.68 0.253 {low_Age} -> {low_InFa} 98.85 0.259 medium_FaPe} -> {low_InFa} 98.61 0.268 low_EdLe low_InHe} -> {low_InFa} 98.56 0.176 {medium_NuKi} -> {low_InFa} 98.43 0.101 medium_FaPe medium_EdLe} -> {low_InFa} 97.78 0.069 {medium_NuKi medium_EdLe}-> {low_InFa} 97.48 0.055 {low_Age high_EdLe} -> {low_InFa} 97.36 0.229 {medium_FaPe low_InHe} -> {low_InFa} 97.33 0.101 {low_Age medium_EdLe} -> {low_InFa} 97.29
Để minh họa, chúng tôi xin trình bày kết quả thu được của việc áp dụng thuật toán trên với số liệu lấy từ CSDL FAM95. Ở đây chỉ liệt kê một số luật tiêu biểu để so sánh với các kết quả trong [12].
Hình 4 So sánh 2 bảng kết quả của 2 thuật toán
Vì tôn trọng nguyên bản, trong bảng so sánh vẫn giữ lại ở đây những từ ngữ mà các tác giả trong [12] dùng ở bảng (a) (trong đó med là viết tắt của medium; aver là viết tắt của average). Còn ở bảng (b1) các từ viết tắt là ve: very; qu: quite; hi: high; lo: low; Nuki: number of Kids; FaPe: Persons in a Family; InFa: Income of a family; InHe: Income of family's head; EdLe: Level of Education. Kết quả này có được khi ta sử dụng ĐSGT có hai phần tử sinh (là high và low) cùng phần tử trung hòa medium với phân bố đều trên miền giá trị (fm(c-)=fm(c+)=0.5) và không sử dụng gia tử.Ta thấy, khi so sánh hai bảng:
Các luật cơ bản của (a) đều có trong (b1) với độ tin cậy xấp xỉ. Chẳng hạn, luật “old age → few children” với độ tin cậy .983 ở bảng (a) ứng với luật ”high_Age → low_NuKi “ với độ tin cậy 90.26 (tức.902) ở bảng (b1) hay luật “few persons → few children” với độ tin cậy .967 ứng với luật
“low_FaPe → low_NuK” với độ tin cậy 78.05, luật “few education → low hincome” với độ tin cậy .897 ứng với luật “low_EdLe → low_InHe” với độ tin cậy 89.51...
Độ tin cậy ở hai bảng có khác nhau do sử dụng về thực chất các hàm thuộc khác nhau nhưng đều ở trong ngưỡng cao giống nhau. Trong bảng (b1) có một số luật mà bảng (a) không có, thí dụ luật “low_EdLe low_InFa →low_InHe” do các tác giả trong [12] chỉ xét các luật vế trái có một mục.
Ta có thể trích xuất các luật chi tiết hơn một cách dễ dàng như trong phụ lục A vì theo tiếp cận của ĐSGT, việc sinh các phần tử ngôn ngữ có thể tính toán dễ dàng (theo như Mệnh đề 2.1 và Định nghĩa 2.5 đã nêu) chứ không cần phải sinh ra các hàm thuộc mới theo lý thuyết tập mờ cổ điển (dễ dẫn đến sai sót như thí dụ về hàm thuộc “trẻ” và “rất trẻ” đã nói đến trong mục 2 của luận văn). Ở đây fm(c-)=fm(c+)=0.5 và µ(very)=0.875, µ(quite)=0.125.
4.3.Thử nghiệm thuật toán khai phá luật kết hợp với dữ liệu kinh tế xã hội Việt Nam
Trong thử nghiệm tiếp theo, chúng tôi sử dụng dữ liệu là báo cáo chỉ tiêu kinh tế xã hội (theo tháng) của Việt Nam có ở Trung tâm Thông tin và Thống kê của Bộ Kế hoạch Đầu tư. Về lý thuyết, dữ liệu phải qua bước tiền xử lý để đưa về dạng chuẩn có thể chạy được trên phần mềm. Bước tiền xử lý bao gồm các công đoạn nhằm khác phục những sai sót xẩy ra khi thu thập dữ liệu gây ra các lỗi thiếu (lỗ chỗ), sai sót có thể khi điền. Dữ liệu gốc bao gồm 520 mục, thời gian từ 01/1995 đến 3/2011. Tuy nhiên có rất nhiều chỉ tiêu vì nhiều lí do ta không có số liệu. Giá trị thiếu có thể do lỗi chủ quan trong quá trình nhập liệu, hoặc trong trường hợp cụ thể giá trị của thuộc tính đó không có Về mặt xử lý số liệu ban đầu, nếu có chỉ tiêu không đầy đủ ở một vài thời điểm ta có thể lấp đầy các ô trống bằng các phương pháp nội suy (lấy trung bình cộng của hai số liệu liền kề) hoặc bằng cách thay giá trị thiếu bằng giá trị phổ biến nhất của thuộc tính đó hoặc bằng giá trị có thể xảy ra nhất dựa trên thống kê. Ngoài ra, có thể có số liệu do nhầm lẫn hoặc các lí do khác mà gây nên các điểm dị thường, ta cũng nghiên cứu để làm trơn bằng các kỹ thuật tương tự như trên. Tuy nhiên, số liệu ở đây ta có là số liệu đã được hiệu chỉnh chuẩn nên bước này có thể bỏ qua. Ta cũng chỉ có thể lấy số liệu từ 01/2007 đến 03/2011vì trước đó nhiều chỉ tiêu (Thí dụ mục „Tổng mức bán lẻ hàng hoá và doanh thu dịch vụ tiêu dùng theo loại hình kinh
tế‟) hoàn toàn không có số liệu, trong khi những chỉ tiêu này lại là quan trọng trong việc xác lập những mối liên quan đến lạm phát. Những số liệu thiếu nhiều như vậy bắt buộc phải loại khỏi phạm vi dữ liệu khai thác trước 1/2007 vì không thể căn cứ vào đâu mà bổ xung (số liệu báo cáo kinh tế ở Việt Nam, đặc biệt là giai đoạn kinh tế tập trung, lại vừa thiếu vừa không chính xác). Tiếp theo, ta có thể loại bỏ các chỉ tiêu dư thừa. Về nguyên tắc, các chỉ tiêu là dẫn xuất của các chỉ tiêu khác, ta có thể loại bỏ. Thí dụ nếu đã có các mục “Tổng giá trị sản xuất công nghiệp” theo tháng thì mục dữ liệu “Tốc độ tăng so với tháng trước” là không cần thiết cho quá trình khai phá vì dữ liệu mục này là dẫn xuất của dữ liệu mục trước (là hiệu của tháng sau và tháng trước). Cuối cùng, sau khi khảo sát cụ thể, số liệu chúng tôi đưa vào khai thác gồm 46 mục, thời gian từ 01/2007 đến 03/2011.
Bước tiếp theo là bước xác định các ĐSGT ứng với các chỉ tiêu (một bước mờ hóa dữ liệu trong ĐSGT). Trước mắt, trong đề tài này, các ĐSGT được xây dựng đều dừng lại ở mức 0 và 1, tức là các hạng từ đều giới hạn ở mức có độ dài 0 (chỉ gồm các phần tử sinh và phần tử trung gian, như „thấp‟, „cao‟, „trung bình‟) và độ dài 1 (bao gồm các hạng từ độ dài 0 như trên và các hạng từ có độ dài 1 như „rất thấp‟, „tương đối cao‟, „rất cao‟..). Việc sinh ra các hạng từ có độ dài lớn hơn là khá dễ dàng (hoàn toàn tự động theo lý thuyết) nhưng sẽ là quá chi tiết chưa cần thiết ở đây, đồng thời sẽ tăng khối lượng tính toán lên đáng kể. Về cơ bản, việc xây dựng các ĐSGT tương ứng là dựa trên kinh nghiệm và các đánh giá mang tính chủ quan. Chẳng hạn, với chỉ tiêu thông thường, miền giá trị là đoạn [xmax,xmin] từ giá trị lớn nhất xmax đến giá trị nhỏ nhất xmin sẽ được chia làm ba đoạn bằng nhau, tương ứng với ba hạng từ của ĐSGT là „cao‟, „trung bình‟, „thấp‟. Để ý rằng trong lý thuyết ĐSGT, giữa các ĐSGT thông thường (có 2 phần tử sinh như „cao‟, „thấp‟ hoặc „khỏe‟, „yếu‟ ; „già‟, „trẻ‟..) tồn tại một đẳng cấu giữa các hạng từ. Cho nên, việc thiết lập các ĐSGT cho các chỉ tiêu là tương tự ở hầu hết các mục. Cần nói rõ thêm là không phải lúc nào ta cũng thiết lập ĐSGT bằng cách chia đều miền xác định như vậy mà phải căn cứ vào thực tế của mục. Thí dụ, mục học vấn, có miền xác định là từ lớp 1 đến Tiến sĩ khoa học chẳng hạn thì có thể chia làm 3 hoặc 4 hạng từ như „thấp‟ ứng với từ lớp 1- lớp 12, „trung bình‟ ứng với đại học, „tương đối cao‟ ứng với Tiến sĩ, „cao‟ ứng với Tiến sĩ khoa học (trong đó „tương đối cao‟ thực chất là hạng từ có đội dài 1, do tác động của gia tử „tương đối‟ lên phần tử sinh dương „cao‟). Việc chia này
không chia đều theo thời gian học.Tóm lại việc xác định các thông số ban đầu chủ yếu dựa vào kinh nghiệm, tuy nhiên, như đã nêu, việc xây dựng các thông số của ĐSGT (bao gồm các khoảng mờ của các phần tử sinh và độ đo tính mờ của các gia tử) vẫn có cơ sở hơn là xây dựng các hàm thuộc của các tập mờ và ngoài ra, các thông số này chỉ cần xây dựng một lần, nó gắn với ngữ nghĩa của các từ ngữ chặt chẽ hơn so với hàm thuộc của lý thuyết tập mờ.
Sau khi tiền xử lý dữ liệu, ta có thể bắt tay vào khai thác dữ liệu theo các chương trình được xây dựng theo các thuật toán đã nêu.
Dữ liệu sau khi chuẩn hóa được liệt kê ở ở phụ lục B của luận văn, gồm bảng 46 thuộc tính với số liệu báo cáo trong thời gian 52 tháng. Dưới đây là ví dụ một số thuộc tính của dữ liệu
STT Thuộc tính
1 Tổng giá trị sản xuất công nghiệp giá 1994 đã điều chỉnh yếu tố mùa vụ
2 Tổng mức bán lẻ hàng hoá và doanh thu dịch vụ tiêu dùng theo loại hình kinh tế giá hiện
hành đã điều chỉnh yếu tố mùa vụ
Các kết quả chạy chương trình trích xuất luật kết hợp cho ta thấy những yếu tố ảnh hưởng mạnh đến lạm phát. Chương trình cha ̣y ra 246 luâ ̣t với đô ̣ tin câ ̣y đầu vào là 60% và độ hỗ trợ là 0.4. Các luật liên quan đến chỉ số giá tiêu dùng (CPI) được trích xuất (danh sách chi tiết các luật được ghi tại phụ lục C của luận văn) cho thấy mối liên hệ tương đối giữa các chỉ số như: Tỉ giá, tổng cung tiền, giá xăng,… với chỉ số giá tiêu dùng. Chẳng hạn, ta có luật
{high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 và 2009) low_Chênh lệch tỉ giá chính thức và thị trường tự do}
-> {high_Chỉ số giá đôla Mỹ so với kỳ gốc 1995, 2000 và 2005} Với độ tin cậy là 97,33%
Tức là nếu CPI tăng cao cộng với chênh lệch về tỉ giá (USD) giữa thị trường chính thức và tự do thấp thì thường là giá USD cao (với độ tin cậy lên đến 97.33%).
0.418
{high_Tỉ giá hối đoái VND/USD (trung bình tháng) low_Chênh lệch tỉ giá chính thức và thị trường tự do}
->{high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 và 2009)} 62.63
Ta thấy nếu tỉ giá hối đoái VND/USD cao trong khi chênh lệch tỉ giá giữa thị trường tự do và chính thức thấp thì cũng nhiều khả năng là chỉ số CPI cao (với độ tin cậy 62.63%). Thực tế cho thấy tại thị trường tiền tệ Việt Nam tỉ giá giữa thị trường tự do thường cao hơn tỉ giá hối đoái VND/USD do ngân hàng nhà nước quy định. Thêm vào đó Việt Nam hiện nay vẫn là nước nhập siêu ở mức khá cao, vì thế khi tỉ giá tăng sẽ dẫn đến các mặt hàng nhập khẩu chủ chốt của nền kinh tế tăng giá. Ví dụ như khi tỷ giá tăng sẽ dẫn đến giá nguyên liệu, nhiên liệu nhập khẩu tăng. Điều này đã được nhiều nhà nghiên cứu chỉ ra từ kinh nghiệm và phân tích thực tế.
Đánh giá thuật toán khai phá luật kết hợp: Chương trình cha ̣y ra 246 luâ ̣t với đô ̣ tin câ ̣y đầu vào là 60% và độ hỗ trợ là 0.4, các luật trong ph ần kết quả chỉ bao gồm những luâ ̣t liên quan đến chỉ số giá tiêu dùng (chi tiết các luật được liệt kê tại phụ lục C của luận văn). Các luật liên quan đến chỉ số giá tiêu dùng (CPI) được trích xuất cho thấy mối liên hệ tương đối giữa các chỉ số như: Tỉ giá, tổng cung tiền, giá xăng,… với chỉ số giá tiêu dùng.
Nhìn chung các luật liên quan đến chỉ số CPI được rút ra từ cơ sở dữ liệu khảo cũng không có những yếu tố bất ngờ. Tuy nhiên, thứ nhất, việc khai phá chỉ ra rằng có thể sử dụng các phương pháp khai phá dữ liệu để thu nhận các thông tin về quy luật kinh tế ta quan tâm nhờ các thuật toán khá đơn giản (không có các mô hình kinh tế phức tạp). Ngoài ra, trong các kết quả này, có thể đánh giá mức độ ảnh hưởng của các yếu tố khác nhau tới lạm phát nhờ vào độ tin cậy của mỗi luật.
Kết luận
Trong luận văn này, tôi đã đưa ra cách tiếp cận ĐSGT cho bài toán trích xuất luật kết hợp mờ từ CSDL mà theo quan điểm của chúng tôi có 2 ưu điểm so với việc sử dụng logic mờ trong khai phá luật kết hợp đó là:
1. Sử dụng ĐSGT có thể xác định giá trị thuộc của phần tử trong CSDL một cách tự nhiên và đơn giản hơn so với cách tiếp cận của lý thuyết tập mờ cổ điển. 2. Khối lượng tính toán sẽ giảm đáng kể trong khi vẫn đạt được kết quả tương
đương, chưa kể nếu cần ta có thể trích xuất ra các luật mang tính chi tiết hơn. Căn cứ vào các kết quả thử nghiệm, có thể thấy bước đầu việc ứng dụng ĐSGT trong khai phá dữ liệu có thể mang lại những kết quả khả quan, giúp cho ta thêm một công cụ có cơ sở toán khá tốt, không phức tạp nhưng có hiệu quả. Thử nghiệm thuật toán khai phá luật kết hợp dựa trên đại số gia tử với dữ liệu FAMR95 cho thấy hoàn toàn có thể sử dụng đại số gia tử thay cho logic mờ trong khai phá luật kết hợp. Việc sử dụng đại số gia tử để gán nhãn và xác định độ thuộc của nhãn được gán đơn giản và dễ hiểu với người sử dụng hơn rất nhiều so với việc xây dựng hàm mờ để tính toán độ thuộc trong logic mờ. Kết quả thử nghiệm với dữ liệu kinh tế Việt Nam chứng minh có thể sử dụng thuật toán khai phá luật kết hợp dựa trên đại số gia tử trên nhiều loại dữ liệu thực tế khác nhau. Thêm vào đó, ta cũng có thể sử dụng thuật toán khai phá dữ liệu dựa trên đại số gia tử như là một công cụ để bóc tách thông tin từ dữ liệu thực tế một cách nhanh chóng mà không cần phải sử dụng các mô hình kinh tế phức tạp, qua các thông tin được bóc tách (luật kết hợp) ta có thể nghiên cứu xa hơn mối quan hệ giữa các thuộc tính trong bộ dữ liệu để từ đó rút ra được nhưng tri thức quan trọng hơn.
Tuy nhiên, trong luận văn này vẫn tồn tại rất nhiều hạn chết trong việc nghiên cứu ứng dụng thuật toán, cũng như cần tiếp tục nghiên cứu là tiến hành làm việc với những CSDL lớn hơn, đầy đủ hơn; đồng thời với việc tiếp tục nghiên cứu lý thuyết là cải tiến các thuật toán để đảm bảo thời gian tính nhanh hơn. Thêm vào đó việc sử dụng cùng một tỷ lệ gia tử chung cho các thuộc tính trong bộ dữ liệu có thể giúp giảm thời gian tính toán nhưng có thể làm giảm độ chính xác của các luật được rút ra vì thế cần phải nghiên cứu thêm về việc xử lý tỷ lệ gia tử trong việc gán nhãn các thuộc tính và tính toán độ thuộc của các thuộc tính được gán nhãn trong cơ sở dữ liệu.
Tài liệu tham khảo
[1] N. Cat Ho, Fuzziness in Structure of Linguistic Truth Values: A Foundation for Development of Fuzzy Reasoning, Proc. of ISMVL 87, Boston, USA, (IEEE Computer Society Press, New York), 1987, 326-335.
[2] N. Cat Ho and W. Wechler, Hedge algebras: an algebraic approach to structure of sets of lingguistic truth values. Fuzzy Sets and Systems 35(1990), 281-293.
[3] N. Cat Ho and W. Wechler, Extended hedge algebras and their application to Fuzzy logic. Fuzzy Sets