Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
Các bộ lọc thư spam trên cơ sở luật và dấu hiệu không có khả năng tự tạo ra quyết định và lọc các spam mới. Các bộ lọc thư trên cơ sở mạng Bayes cho phép bộ lọc có thể ‘học’ và có khả năng tự ra quyết định với các spam mới. | SEMINAR: CƠ SỞ DỮ LIỆU NÂNG CAO NGHIÊN CỨU BỘ LỌC THƯ SPAM TRÊN CƠ SỞ MẠNG BAYES Học viên: Nguyễn Viết Linh MS: CH0601038 GIỚI THIỆU Các bộ lọc thư spam trên cơ sở luật và dấu hiệu không có khả năng tự tạo ra quyết định và lọc các spam mới. Các bộ lọc thư trên cơ sở mạng Bayes cho phép bộ lọc có thể ‘học’ và có khả năng tự ra quyết định với các spam mới. Các bộ phân lớp trên cơ sở máy học cho ta hiệu quả lọc và phán đoán các thư spam hiệu quả cao. Với các bộ lọc trên cơ sở mạng Bayes được huấn luyện tốt, độ chính xác có thể đạt tới 99 %. GIỚI THIỆU Trong seminar này chúng ta sẽ đề cập đến các vấn các đề sau để xây dựng bộ lọc spam kỹ thuật Bayes: Bộ lọc spam trên cơ sở mạng Bayes đơn giản Bộ lọc spam trên cơ sở mạng Bayes đầy đủ Các phương thức huấn luyện cho các bộ lọc spam kỹ thuật Bayes Phân lớp Email và sự phân lớp sai Hiện thực bộ phân lớp spam Bayes I. BỘ LỌC SPAM TRÊN CƠ SỞ MẠNG BAYES ĐƠN GIẢN (Tổng quan về mạng Bayes) Mạng Bayes là một dạng mô hình đồ thị theo xác suất không | SEMINAR: CƠ SỞ DỮ LIỆU NÂNG CAO NGHIÊN CỨU BỘ LỌC THƯ SPAM TRÊN CƠ SỞ MẠNG BAYES Học viên: Nguyễn Viết Linh MS: CH0601038 GIỚI THIỆU Các bộ lọc thư spam trên cơ sở luật và dấu hiệu không có khả năng tự tạo ra quyết định và lọc các spam mới. Các bộ lọc thư trên cơ sở mạng Bayes cho phép bộ lọc có thể ‘học’ và có khả năng tự ra quyết định với các spam mới. Các bộ phân lớp trên cơ sở máy học cho ta hiệu quả lọc và phán đoán các thư spam hiệu quả cao. Với các bộ lọc trên cơ sở mạng Bayes được huấn luyện tốt, độ chính xác có thể đạt tới 99 %. GIỚI THIỆU Trong seminar này chúng ta sẽ đề cập đến các vấn các đề sau để xây dựng bộ lọc spam kỹ thuật Bayes: Bộ lọc spam trên cơ sở mạng Bayes đơn giản Bộ lọc spam trên cơ sở mạng Bayes đầy đủ Các phương thức huấn luyện cho các bộ lọc spam kỹ thuật Bayes Phân lớp Email và sự phân lớp sai Hiện thực bộ phân lớp spam Bayes I. BỘ LỌC SPAM TRÊN CƠ SỞ MẠNG BAYES ĐƠN GIẢN (Tổng quan về mạng Bayes) Mạng Bayes là một dạng mô hình đồ thị theo xác suất không có cung trực tiếp. Các nút biểu diễn các biến ngẫu nhiên, các cung biểu diễn mối quan hệ phụ thuộc giữa các biến. Nếu các biến là X1, . , Xn và “parents(A)” là các cha của nút A, thì phân bố kết nối cho X1 tới Xn được biểu diễn dưới dạng kết quả của phân bố theo xác suất: P(X1,., Xn) = ∏P(Xi | parents(Xi)) for i = 1 to n. I. BỘ LỌC SPAM TRÊN CƠ SỞ MẠNG BAYES ĐƠN GIẢN (Mô hình mạng Bayes đơn giản) Một mạng Bayes đơn giản nhất gồm một nút cha và tất cả các biến khác là con của nút cha. Nếu biến cha là “Xp”, thì công thức phân bố kết nối như sau: P(Xp, X1, ., Xn) = P(Xp) ∏P(Xi|Xp) for i = 1 to n. Bộ phân lớp Naive Bayes là một bộ phân lớp theo xác suất đơn giản. Lợi ích chính của bộ phân lớp Naive Bayes là có thể huấn luyện rất hiệu quả bằng việc học có giám sát. I. BỘ LỌC SPAM TRÊN CƠ SỞ MẠNG BAYES ĐƠN GIẢN (Giải pháp cụ thể cho cho bộ lọc spam Bayes) Bộ lọc spam trên cơ sở mạng Bayes dựa vào nội dung của email để phân lớp. Cơ chế hoạt động của bộ lọc này như sau: Đầu tiên cần .