TAILIEUCHUNG - Phương pháp mới dựa trên vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng

Bài viết nghiên cứu cách thức tăng (giảm) phần tử của lớp mất cân bằng dựa trên một mức độ “an toàn”. Từ đó, đề xuất một phương pháp mới vừa tăng số lượng các phần tử an toàn ở lớp thiểu số, vừa giảm các phần tử an toàn ở mức đa số. | PHƯƠNG PHÁP MỚI DỰA TRÊN VÙNG AN TOÀN NÂNG CAO HIỆU QUẢ PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG BÙI DƯƠNG HƯNG 1 NGUYỄN THỊ HỒNG , ĐẶNG XUÂN THỌ 2 1 Khoa Tin học, Trường Đại học Công đoàn 2 Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội Email: thodx@ 2 Tóm tắt: Nghiên cứu bài toán phân lớp trong thực tế như chuẩn đoán y học, phát hiện sự cố tràn dầu, phát hiện gian lận kinh tế tài chính ngày càng được nhiều nhà khoa học quan tâm vì tầm ảnh hưởng lớn của những lĩnh vực này tới con người. Tuy nhiên, nhiều nghiên cứu đã chỉ ra hiệu quả phân lớp của các bài toán này chưa cao do có sự chênh lệch về số lượng phần tử giữa các lớp dữ liệu. Một yêu cầu đặt ra là cần có những hướng tiếp cận mới đối với trường hợp dữ liệu mất cân bằng để tăng tính hiệu quả phân lớp chính xác của thuật toán phân lớp. Bài báo của chúng tôi đề xuất ba thuật toán mới dựa trên mức an toàn nhằm nâng cao hiệu quả phân lớp dữ liệu. Hai thuật toán, Random Safe Oversampling (RSO) và Random Safe Undersampling (RSU) cải tiến trực tiếp từ Random Oversamling và Random Undersampling. Thuật toán thứ ba, Random Safe Over-Undersampling (RSOU) là sự kết hợp của RSO và RSU nhằm đồng thời vừa tăng thêm các phần tử ở lớp thiểu số vừa loại bỏ các phần tử ở lớp đa số ở các vùng an toàn. Từ khóa: Dữ liệu mất cân bằng; Phân lớp dữ liệu; Safe level; Random Oversampling; Random Undersampling; Random Safe Oversampling; Random Safe Undersampling 1. MỞ ĐẦU Ngày nay, một số lượng lớn của dữ liệu được thu thập và lưu trữ trong các cơ sở dữ liệu ở khắp mọi nơi trên thế giới. Không khó để tìm được các cơ sở dữ liệu lên tới Terabytes trong các doanh nghiệp và các trung tâm nghiên cứu [1], [2]. Rất nhiều thông tin và kiến thức vô giá tiềm ẩn trong các cơ sở dữ liệu như vậy, mà chưa có phương pháp tự động hiệu quả để phân tách thông tin [3]. Trong suốt nhiều năm, nhiều thuật toán được tạo ra để phân tách những gì được gọi là “quặng vàng” của tri thức từ các tập dữ liệu lớn. Đặc biệt, trong đó vấn đề phân lớp mất cân

Thanh Hảo 120 10 pdf

Upload

Bấm vào đây để xem trước nội dung

Tải xuống

TÀI LIỆU LIÊN QUAN

Random Border Undersampling: Thuật toán mới giảm phần tử ngẫu nhiên trên đường biên trong dữ liệu mất cân bằng

8 65 0

Khai thác luật phân lớp kết hợp trên cơ sở dữ liệu mất cân bằng về lớp

7 51 2

Luận văn Thạc sĩ Kỹ thuật: Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng

65 45 5

Tài liệu hướng dẫn thực hành môn Cấu trúc dữ liệu và giải thuật - Bài 5: Cây cân bằng AVL

7 106 0

Bài giảng Cấu trúc dữ liệu và giải thuật: Cây AVL - ĐHKHTN

13 138 1

Phương pháp mới dựa trên vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng

10 91 0

Phương pháp mới dựa trên đường biên và vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng

9 76 0

Ứng dụng kỹ thuật học máy trên dữ liệu mất cân bằng hỗ trợ dự đoán sớm khả năng thôi học của học sinh trung học phổ thông

10 62 1

Tóm tắt Luận văn Thạc sĩ: Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng

26 22 1

Thuật toán HMU trong bài toán phân lớp dữ liệu mất cân bằng

8 107 0

TÀI LIỆU XEM NHIỀU

Một Case Về Hematology (1)

8 462047 59

Giới thiệu :Lập trình mã nguồn mở

14 23681 73

Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh

13 11109 535

Câu hỏi và đáp án bài tập tình huống Quản trị học

14 10345 458

Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”

3 9625 106

Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)

249 8606 1148

Tiểu luận: Nội dung tư tưởng Hồ Chí Minh về đạo đức

16 8355 423

Mẫu đơn thông tin ứng viên ngân hàng VIB

8 7929 2249

Đề tài: Dự án kinh doanh thời trang quần áo nữ

17 6972 260

Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)

152 6656 1599

TỪ KHÓA LIÊN QUAN

TÀI LIỆU MỚI ĐĂNG

Đánh giá hao mòn và độ tin cậy của chi tiết và kết cấu trên đầu máy diezel part 3

12 382 1 23-06-2024

Trading Strategies Profit Making Techniques For Stock_3

23 217 2 23-06-2024

Đóng mới oto 8 chỗ ngồi part 9

10 144 1 23-06-2024

Data Structures and Algorithms - Chapter 8: Heaps

41 145 1 23-06-2024

Báo cáo nghiên cứu nông nghiệp " Field control of pest fruit flies in Vietnam "

14 159 2 23-06-2024

báo cáo hóa học:" Perceptions of rewards among volunteer caregivers of people living with AIDS working in faith-based organizations in South Africa: a qualitative study"

10 119 0 23-06-2024

Sử dụng mô hình ARCH và GARCH để phân tích và dự báo về giá cổ phiếu trên thị trường chứng khoán

24 1040 0 23-06-2024

Báo cáo " Thực thi một số cam kết quốc tế của Việt Nam về biến đổi khí hậu "

9 129 0 23-06-2024

AN TOÀN TRONG PHÒNG HỒI TỈNH

15 139 0 23-06-2024

Word Games with English 1

65 105 0 23-06-2024

TÀI LIỆU HOT

Mẫu đơn thông tin ứng viên ngân hàng VIB

8 7929 2249

Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)

152 6656 1599

Ebook Chào con ba mẹ đã sẵn sàng

112 3990 1298

Ebook Tuyển tập đề bài và bài văn nghị luận xã hội: Phần 1

62 5660 1187

Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)

249 8606 1148

Giáo trình Văn hóa kinh doanh - PGS.TS. Dương Thị Liễu

561 3629 664

Giáo trình Sinh lí học trẻ em: Phần 1 - TS Lê Thanh Vân

122 3840 600

Giáo trình Pháp luật đại cương: Phần 1 - NXB ĐH Sư Phạm

274 4346 541

Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh

13 11109 535

Bài tập nhóm quản lý dự án: Dự án xây dựng quán cafe

35 4289 483