Trong bài viết trước, tôi đã đề cập một cách tổng quát về trích lựa chọn thuộc tính. Mặc dù nhiên, việc áp dụng chúng như thế nào để tiền xử lý tài liệu lại là vấn đề trọn vẹn khác. Chính vì thế, trong nội dung bài viết này, tôi sẽ thực hành thực tế trích chọn thuộc tính một tập tài liệu trong môi trường thiên nhiên Weka.
Bạn đang xem: Khai phá dữ liệu thời tiết (Weather Data Mining)
Lựa lựa chọn tập dữ liệu
Như đã đề cập sinh hoạt trên, tôi sẽ thực hiện trực tiếp bộ dataset mà lại weka đã cung ứng sẵn. Nếu chưa biết về weka, fan hâm mộ có thể tìm hiểu thêm tại đây.Đầu tiên, vào mục explorer trong weka.




Mô tả tập dữ liệu
Tập tài liệu mà chúng ta tiến hành khảo sát điều tra sẽ là tập dữ liệu weather.numeric. Tập dữ liệu này còn có 14 thực thể (instance) tương tự với 14 ngày, từng thực thể là 1 ngày cùng được tế bào tả trải qua 5 trực thuộc tính, bao gồm: outlook, temperature, humidity, windy và play.Trong 5 ở trong tính này, gồm 2 nằm trong tính bao gồm kiểu tài liệu numeric là temperature và humidity, 2 nằm trong tính còn lại là outlook cùng windy là có kiểu tài liệu norminal, trực thuộc tính cuối cùng là ở trong tính phân lớp (class attribute). Trực thuộc tính này dùng để tham dự đoán xem ngày kia ta hoàn toàn có thể chơi những môn thể dục thể thao được hay không. Trường hợp thời huyết xấu, có nghĩa là 4 thuộc tính đầu mang những giá trị xấu, khả năng ngày hôm kia ta sẽ không thể đùa được, hôm nay giá trị của nằm trong tính play vào thực thể này sẽ là No; và ngược lại, trường hợp thời máu đẹp, năng lực ngày đó ta rất có thể đi chơi, và giá trị của trực thuộc tính play trên thực thể này sẽ là yes.
Trích chọn thuộc tính
Để thực hiện việc trích chọn thuộc tính, ta vào tab select attribute. Lựa chọn mục choose

Có nhiều một số loại attribute selection để bọn họ chọn lựa. Ở đây, tôi sẽ chọn Wrapper
Subset
Eval. Sau đó, click vào tầm khoảng trống xung quanh nút choose trong mục attribute evaluator, chọn lời giải tương ứng mà lại ta ý muốn trích chọn thuộc tính.
Tùy thuộc vào giải thuật họ dự định lựa chọn để áp dụng cho quy trình phân một số loại sau này, nhưng mà ta đã chọn lời giải tương ứng để trích chọn thuộc tính. Tôi đã chọn lời giải Naive
Bayes để khảo sát xem, với giải mã này, tôi sẽ rất có thể tìm ra được trực thuộc tính nào rất tốt cho quá trình phân loại (classify) sau này

Có ba cách thức tìm kiếm nhưng mà ta có thể sử dụng là Best
First, Greedy
Stepwise cùng Ranker. Trong đó, nếu thực hiện ranker thì bọn họ sẽ gửi attribute evalutor lại thành info
Gain
Attribute
Eval. Chúng ta chọn Greedy
Stepwise
Để hiển thị ra các thuộc tính nào được chọn sau khi chạy giải thuật, ta bắt buộc chỉnh search
Backwards thành true. Vào trường hợp ta áp dụng cross-validation thay vày full training set, lúc này, mục generate
Ranking cũng biến thành được thiết lập là true.
Cross validation là phương thức kiểm tra độ đúng mực của trang bị học dựa trên tập dữ liệu được cung ứng trước, với nó sử dụng toàn thể dữ liệu để tạo ra mô hình. Tất cả 3 phương thức cross-validation thịnh hành là: k-fold cùng leave-one-out
K-fold: tập tài liệu được phân thành k tập con. Trong mỗi lần chạy giải thuật, một tập nhỏ dùng để làm tập soát sổ và k-1 tập sót lại dùng có tác dụng tập huấn luyện.
Leave-one-out: tương tự như như k-fold nhưng buổi tối đa hóa số tập con (k = size tập dữ liệu)

Sau khi quá trình hoàn tất, bảng đầu ra sẽ mở ra các trực thuộc tính được chọn. Ở đây, ta thấy có hai trực thuộc tính được chọn, đó là outlook cùng humidity

Trong ngôi trường hợp áp dụng cross-validation với folds là 10, lúc này kết quả đã như sau:

Thuộc tính outlook áp dụng 10 lần cho quy trình trích lựa chọn thuộc tính, tương tự cho nằm trong tính humidity là 7 lần. Tuy nhiên, trực thuộc tính temperature không áp dụng lần nào, vị thế, ta hoàn toàn có thể loại bỏ thuộc tính này ngoài tập dữ liệu khi phân một số loại (classify) bằng giải mã naive
Bayes.
Tổng kết
Tóm lại, khi sử dụng tập tài liệu lớn để xây dựng quy mô máy học, ta cần triển khai trích lựa chọn thuộc tính để tìm ra được hầu như thuộc tính nào cần thiết ứng với từng giải thuật sử dụng. Từ bỏ đó, có thể tiết kiệm được không gian và thời gian cho quy trình xây dựng quy mô sau này.
Text of tè luận khai thác dữ liệu áp dụng weka để phân lớp trên dataset weather arff

Khai phá dữ liệu GVHD: hồ nước Nhật Quang
Lời nói đầu
Sự cải cách và phát triển của công nghệ thông tin và câu hỏi ứng dụng technology thông tin vào nhiều nghành nghề của đời sống, tài chính xã hội trong vô số năm qua cũng đồng nghĩa tương quan với lượng tài liệu đã được các cơ quan thu thập và lưu lại trữ ngày một tích luỹ các lên. Họ giữ trữ các dữ liệu này vì nhận định rằng trong nó ẩn chứa những giá chỉ trị nhất thiết nào đó. Mặt khác, trong môi trường thiên nhiên cạnh tranh, bạn ta ngày càng cần phải có nhiều thông tin với vận tốc nhanh nhằm trợ giúp câu hỏi ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính đề xuất phải vấn đáp dựa bên trên một trọng lượng dữ liệu lớn lao đã có. Với những tại sao như vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống cuội nguồn ngày càng không đáp ứng nhu cầu được thực tiễn đã làm phát triển một xu hướng kỹ thuật mới đó là nghệ thuật phát hiện học thức và khai thác dữ liệu.
Khai phá tài liệu đã và đang rất được nghiên cứu, ứng dụng trong tương đối nhiều lĩnh vực khác nhau ở các nước trên nắm giới, tại vn kỹ thuật này kha khá còn new mẻ tuy nhiên cũng đang được nghiên cứu và dần chuyển vào ứng dụng. Khai thác dữ liệu là một trong những bước trong qui trình phạt hiện trí thức gồm có các thuật toán khai quật dữ liệu chuyên dùng dưới một số qui định về công dụng tính toán gật đầu được nhằm tìm ra những mẫu hoặc các quy mô trong dữ liệu. Nói một giải pháp khác, mục tiêu của phân phát hiện học thức và khai phá dữ liệu đó là tìm ra các mẫu và/hoặc các quy mô đang tồn tại trong những cơ sở dữ liệu nhưng vẫn còn đấy bị bịt khuất vì chưng hàng núi dữ liệu.
Trong bài viết này, em sẽ trình bày một cách tổng quan liêu về Kỹ thuật khai phá dữ liệu. Trên cửa hàng đó giới thiệu một bài toán dự báo về năng lực chơi thể thao dựa vào thời huyết và xử lý bài toán bằng phương pháp phân lớp nhằm mục tiêu cung cấp cho bạn đọc một ý kiến khái quát mắng về kỹ thuật new này cũng tương tự mối đối sánh tương quan với phương thức thống kê truyền thống.
SVTH: Nguyễn Thị Hoa Trang 1
Page 2

Khai phá tài liệu GVHD: hồ nước Nhật Quang
1. Mô tả bài xích toán
Trong bài tập này, em sẽ xây dựng dựng quy mô phân lớp (Classification Model) bằng cây ra quyết định trong weka. Dữ liệu được dùng trong lấy một ví dụ này là fileweather.arffcó 4 nằm trong tính
Outlook, Temperature, Humidity, Windyvà thuộc tính phân các loại là
Playcó 2 quý giá là Yes với No. Đây là dữ liệu mô tả về kĩ năng có mang lại sân để chơi thể thao (tennis chẳng hạn) hay không của những người dân chơi thể thao dựa vào vào thời tiết.
Vấn đề đặt ra là với khí hậu như vậy, người chơi tennis có mang lại sân để chơi hay là không ? Việc dự đoán này sẽ giúp cho người cai quản sân sút được tương đối nhiều chi phí làm chủ sân như kiểm soát và điều chỉnh (tăng hoặc giảm) số nhân viên phục vụ cũng như các thương mại dịch vụ khác nhằm ship hàng tốt hơn nhu yếu của người chơi tennis.
Bằng cách áp dụng WEKA để xúc tiến một cây ra quyết định ,chúng ta rất có thể xây dựng 1 công cụ cung ứng được các yêu ước trên dựa vào những tài liệu khách quan thu thập trước đó.
2. Tiền cách xử lý dữ liệu
SVTH: Nguyễn Thị Hoa Trang 2
Mục đích: sử dụng cây quyết định trên sẽ giúp đỡ cho người thống trị dự đoán khả năng đến sân đùa tennis của người sử dụng tùy
Outlook
Temperature
Humidity
Windy
WEKA
Decision
Tree ko chơi
Tennis
Chơi Tennis
Page 3

Khai phá tài liệu GVHD: hồ nước Nhật Quang
Trong qui trình khai phá dữ liệu, quá trình xử lý dữ liệu trước lúc đưa vào các mô hình là rất cần thiết, bước này tạo nên dữ liệu bao gồm được lúc đầu qua thu thập dữ liệu (gọi là tài liệu gốc ordinal data) có thể áp dụng được (thích hợp) với các mô hình khai phá tài liệu (data mining model) nỗ lực thể. Các các bước cụ thể của tiền xử lý dữ liệu bao hàm những các bước như:
- Filtering Attributes: Chọn những thuộc tính phù hợp với tế bào hình- Filtering samples: Lọc những mẫu (instances, patterns) tài liệu cho tế bào hình- Clean data: có tác dụng sạch dữ liệu như xóa sổ các dữ liệu bất thường (Outlier)- Transformation: biến hóa dữ liệu cho phù hợp với các mô dường như chuyển đổi dữ
liệu tự numeric qua nomial xuất xắc ordinal- Discretization (rời rạc hóa dữ liệu): nếu như khách hàng có dữ liệu tiếp tục nhưng một vài mô
hình chỉ áp dụng cho những dữ liệu rời rốc (như luật phối hợp chẳn hạn) thì chúng ta phải thực hiện việc rời rộc hóa dữ liệu.
2.1. Trích chọn thuộc tính
Trích chọn thuộc tính là trách nhiệm rất quan trọng giai đoạn chi phí xử lý tài liệu khi xúc tiến các mô hình khai phá dữ liệu. Một vấn đề gặp mặt phải là những dataset dùng để xây dựng các Data mining Models thường chứa được nhiều thông tin không cần thiết cho việc xây dựng mô hình. Chẳng hạn, một dataset gồm hàng trăm thuộc tính dùng để mô tả về khách hàng của một doanh nghiệp được thu thập, tuy vậy khi xây đắp một Data mining model nào đó chỉ việc khoảng 50 nằm trong tính từ hàng nghìn thuộc tính đó. Nếu ta sử dụng tất cả các ở trong tính (hàng trăm) của khách hàng để xây dựng quy mô thì ta đề nghị nhiều CPU, nhiều bộ nhớ trong quy trình Training model, thậm chí những thuộc tính không quan trọng đó làm bớt độ chính xác của mô hình và gây trở ngại trong câu hỏi phát hiện tại tri thức.
Các phương pháp trích lựa chọn thuộc tính thường xuyên tính trọng số (score) của các thuộc tính và sau đó chỉ chọn những thuộc tính có trọng số rất tốt để thực hiện cho mô hình. Các cách thức này chất nhận được bạn hiệu chỉnh ngưỡng (threshold) để lấy ra những thuộc tính tất cả Score trên ngưỡng mang đến phép. Quá trình trích chọn thuộc tính luôn được triển khai trước quy trình Training Model.
Một số phương thức chọn thuộc tính (Feature Selection Methods)
Có khôn xiết nhiều phương thức để tuyển lựa thuộc tính tùy thuộc vào cấu trúc của tài liệu dùng cho mô hình và thuật toán được dùng làm xây dựng mô hình. Sau đó là một số phương pháp phổ trở thành dùng vào trích chọn thuộc tính:SVTH: Nguyễn Thị Hoa Trang 3

Khai phá dữ liệu GVHD: hồ nước Nhật Quang
- Interestingnessscore: Được áp dụng để xếp hạng (rank) những thuộc tính so với các ở trong tính bao gồm kiểu dữ liệu liên tiếp (continuous).
- Shannon"s Entropy:Được sử dụng so với các tài liệu kiểu rời rốc (discretized data).- Ngoàira còn tồn tại một số cách thức khác cũng hay được áp dụng trong lựa chọn
thuộc tính như
Bayesian with K2 Prior,Bayesian Dirichlet Equivalent with Uniform Prior.
Trích chọn thuộc tính với phần mềm We
Ka
Dataset được dùng là tệp tin định dạng chuẩn chỉnh của weka
Weather.arff
Khởi cồn Weka > chọn Explorer > Chọn mở cửa file > lựa chọn Dataset “Weather.arff“ kết quả như sau:
- lựa chọn Tab “Select attributes”.
SVTH: Nguyễn Thị Hoa Trang 4

Khai phá dữ liệu GVHD: hồ nước Nhật Quang
- trong mục Attribute Evaluator lựa chọn Wrapper
Subset
Eval. - trong mục search Method lựa chọn Greedy
Stepwise .- Chon Tab “Classify”: vào mục classifier lựa chọn Naive
Bayes- Bấm
Startđể thực hiện, tác dụng như sau:
Vậy 5 thuộc tính được lựa chọn đó là: outlook, temperature, humidity, windy với play ( quang đãng cảnh, nhiệt độ độ, độ ẩm, gió, chơi).
2.2. Chuẩn chỉnh hóa dữ liệu
SVTH: Nguyễn Thị Hoa Trang 5
Khai phá dữ liệu GVHD: hồ nước Nhật Quang
- gửi kiểu dữ liệu của thuộc tính temperature thành đẳng cấp Nominal với những giá trị khớp ứng cool(temperature ≤ 70.0), mild (70.0 Page 7
Khai phá dữ liệu GVHD: hồ nước Nhật Quang
3. Chọn thuật toán J48 để xây dựng cây quyết định
Giới thiệu về cây quyết định
Cây ra quyết định (Decision Tree) là một trong những cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng người dùng dựa vào dãy những luật (series of rules). Các thuộc tính của đối tượng người tiêu dùng (ngoại trừ thuộc tính phân lớp – Category attribute) có thể thuộc các kiểu dữ liệu khác biệt (Binary, Nominal, ordinal, quantitative values) trong những khi đó ở trong tính phân lớp phải gồm kiểu dữ liệu là Binary hoặc Ordinal.Tóm lại, cho dữ liệu về các đối tượng người dùng gồm các thuộc tính cùng với lớp (classes) của nó, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các đối tượng chưa biết (unseen data).
Qui trình Train và test một classifier
- dữ liệu để xuất bản mô hình: tài liệu gốc (original dataset), tài liệu này phải gồm thuộc tính phân lớp call là categorical attribute
- tài liệu gốc đang được phân thành 2 phần là Training set (để thành lập model) và Testing mix (để chu chỉnh Model)
SVTH: Nguyễn Thị Hoa Trang 8
Khai phá dữ liệu GVHD: hồ Nhật Quang
- ở đầu cuối là giám sát lỗi để đánh giá Model
Tại sao lại áp dụng thuật toán này
Có rất nhiều thuật toán phân lớp như ID3, J48, C4.5, CART (Classification và Regression Tree),… vấn đề chọn thuật toán nào để có tác dụng phân lớp cao mặc dù thuộc vào tương đối nhiều yếu tố, vào đó cấu trúc dữ liệu tác động rất to đến công dụng của các thuật toán.
Với thuật toán ID3 với CART cho tác dụng phân lớp siêu cao so với các trường tài liệu số (quantitative value) trong khi đó các thuật toán như J48, C4.5 có kết quả hơn so với các dữ liệu Qualititive value (ordinal, Binary, nominal).Sau khi đã chuẩn hóa dữ liệu thì được bảng tài liệu chỉ toàn kiểu dáng Nominal, do vậy ta sử dụng thuật toán J48 nhằm đạt tác dụng phân lớp cao.
Xem thêm: Đáp Án Đề Thi Văn Khối D Năm 2013, Đề Thi Đại Học Môn Văn Khối D Năm 2013
Sử dụng thuật toán với ứng dụng Weka
Nhấn vào tab Classify lựa chọn thuật toán sử dụng bằng phương pháp nhấn vào nút Choose; khi cây thư mục hiện nay thư mục Trees/J48:
Đánh giá tác dụng phân lớp của thuật toán đối với tập tài liệu được cho theo nhì phương pháp:
SVTH: Nguyễn Thị Hoa Trang 9
Khai phá tài liệu GVHD: hồ Nhật Quang
a. Cross-validation : Tập dữ liệu sẽ được chia đa số thành k tập (folds) có kích thước xấp xỉ nhau, và bộ phân nhiều loại học được vẫn được reviews bởi phương thức cross-validation.
Đây là kỹ thuật đa số được thực hiện trong kiến thiết predictive Model. Trong những số đó dữ liệu nơi bắt đầu sẽ được phân thành n phần đều bằng nhau (n-fold), và quá trình Train/Test model thực hiện tái diễn n lần. Tại các lần Train/Test Model, 1 phần dữ liệu dùng để làm Test và (n-1) phần còn lại dùng để Train.(Người ta đã minh chứng 10-fold Cross –Validation là tối ưu)
Với phương thức này ta thu được hiệu quả hiển thị ở size Classifier output đầu ra như sau:
Nội dung hiệu quả :
SVTH: Nguyễn Thị Hoa Trang 10
Khai phá tài liệu GVHD: hồ Nhật Quang
=== Run information ===
Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2Relation: weather.symbolic
Instances: 14Attributes: 5 outlook temperature humidity windy play
Test mode: 10-fold cross-validation
=== Classifier mã sản phẩm (full training set) ===
J48 pruned tree------------------
outlook = sunny| humidity = high: no (3.0)| humidity = normal: yes (2.0)outlook = overcast: yes (4.0)outlook = rainy| windy = TRUE: no (2.0)| windy = FALSE: yes (3.0)
Number of Leaves : 5
Size of the tree : 8
Time taken to build model: 0 seconds
=== Stratified cross-validation ====== Summary ===
SVTH: Nguyễn Thị Hoa Trang 11
Khai phá dữ liệu GVHD: hồ Nhật Quang
Correctly Classified Instances 7 50 %Incorrectly Classified Instances 7 50 %Kappa statistic -0.0426Mean absolute error 0.4167Root mean squared error 0.5984Relative absolute error 87.5 %Root relative squared error 121.2987 %Total Number of Instances 14
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.556 0.6 0.625 0.556 0.588 0.633 yes 0.4 0.444 0.333 0.4 0.364 0.633 no
Weighted Avg. 0.5 0.544 0.521 0.5 0.508 0.633
=== Confusion Matrix ===
a b Page 13
Page 14
Page 15
Page 16
Page 17
Page 18
Page 19
Page đôi mươi
Page 21
Page 22
LOAD MORE