TAILIEUCHUNG - Một cách chọn mẫu huấn luyện và thuật toán học để xây dựng cây quyết định trong khai phá dữ liệu
TRong bài viết này, các tác giả phân tích và chỉ ra một số cách chọn tập mẫu huấn luyện tốt từ cơ sở dữ liệu nghiệp vụ, từ đó đưa vào thuật toán học để tạo dựng cây quyết định có khả năng dự đoán cao, nhằm hỗ trợ ra quyết định trong các bài toán phân tích dữ liệu. | T~p chi Tin hoc va Dieu khien hQC,, (2007), 317-326 ,., -;::: t (m - 2) x WI. Tap cac thuoc tinh co gia tri rieng biet trong M ky hieu 1a M*. Nhir the tren mau huan luyen M1, ThuNh~pGB la thuoc tinh rieng biet. Dinh ly 1. Qua trinh xay duru; cay neu co mot nut bat kiJ tlu o c iao du a tren thu(5c tinh rieng biei thi ket qud thu tluo c la mot ciiy dan. irai. Chsitu; minh. That vay, mau M co m thuoc tinh nen co m - 1 thuoc tinh dir doan va chieu sau toi da cua cay 1a m - 2 ([9,13]). V&i thuoc tfnh x la rieng biet va no duoc chon lam diem phan tach cay thi theo cac thuat toan xay dung cay [7,9,13]' tai nut nay co it nhat ((m - 2) x WI + 1) nhanh nen oay 1a cay dan trai. Tren cay a Hinh 1, nut ThuNh~pGB la phan chia tren thuoc tinh rieng biet cua mau M1 nen day la cay dan trai. su Gia X E M la thuoc tinh rieng biet, duoc chon lam diem phan tach cay, chang han thuoc tinh ThuNh~pGB trong rnau MI. Khi 00 chung ta khong the phan tach cay tren tap 320 DoAN VAN BAN, LE MANH THANH, LE VAN TUONG LAN gia tri nay ma phai phan ngirong cac gia tri cua thuoc tinh [3,8,9,14]. Ngufrng phan tach tren X thuong diroc chon la gia tri gan nhat sao cho nho ho n hoac bfing gia tri trung bmh cua toan bo dir lieu doi veri tap cac gia tri nay [6,9,13,14]. Cach chon nguong nay tirong ooi hieu qua khi cac gia tri cua X phan bo deu tren mien gia tri, con neu chung tap trung VEw mot so mien con cua mien gia tri thi each nay khong that sir hieu qua do ta chon phai gia tri ma xac suat xuat hien khong du lon. Cho mau M veri thuoc tinh quyet dinh Y. Be y rfing, chung ta co the chon mot gia tri bat ky Xi E X de lam diem phan tach thi x se co 2 phan hoach la: X/ = {Xj ma Xj :S xd va X" = {Xj ma Xj > xd, mau M hie nay tirong ling se diroc chia thanh 2 mau la M' va Mil. Van de la phai chon Xi nhir the nao? Ta nhan thfiy la khi chon thuoc tinh de phan tach, thuoc tinh X E M diroc chon la thuoc tinh co hrong thong tin nhan diroc Gain(X, Y, M) 01;Lt ia tri lori nhat .
đang nạp các trang xem trước