TAILIEUCHUNG - Random Border Undersampling: Thuật toán mới giảm phần tử ngẫu nhiên trên đường biên trong dữ liệu mất cân bằng

Bài viết Random Border Undersampling: Thuật toán mới giảm phần tử ngẫu nhiên trên đường biên trong dữ liệu mất cân bằng giới thiệu về mất cân bằng dữ liệu, sự cần thiết của việc phân lớp dữ liệu; đề xuất một thuật toán mới gọi là thuật toán giảm phần tử ngẫu nhiên trên đường biên trong dữ liệu mất cân bằng (Random Border Undersampling). | Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 DOI: RANDOM BORDER UNDERSAMPLING: THUẬT TOÁN MỚI GIẢM PHẦN TỬ NGẪU NHIÊN TRÊN ĐƯỜNG BIÊN TRONG DỮ LIỆU MẤT CÂN BẰNG Nguyễn Mai Phương1, Trần Thị Ánh Tuyết1, Nguyễn Thị Hồng1, Đặng Xuân Thọ1 1 Khoa Công nghệ thông tin, Trường Đại học Sư phạm Hà Nội nguyenmaiphuong2710@, tuyettran003@, nguyenhong@, thodx@ TÓM TẮT— Cùng với sự phát triển của lĩnh vực công nghệ thông tin là sự tăng lên nhanh chóng của dữ liệu. Dữ liệu càng lớn thì việc tìm ra những thông tin hữu ích trong đó càng trở nên khó khăn. Phân lớp dữ liệu là một trong những hướng nghiên cứu chính của khai phá dữ liệu. Phân lớp dữ liệu có ứng dụng nhiều trong thực tế, chẳng hạn như phát hiện thư rác, phát hiện xâm nhập mạng, phát hiện các gian lận giao dịch, chẩn đoán trong y học, phân tích hiệu quả điều trị. Tuy nhiên, nhiều bộ dữ liệu trong thực tế bị mất cân bằng tức là số phần tử giữa các lớp có sự chênh lệch. Việc phân lớp đúng các phần tử lớp thiểu số này lại đóng vai trò rất quan trọng. Ví dụ, trong cơ sở dữ liệu y học, số người mắc bệnh ung thư chiếm tỉ lệ rất nhỏ trên tổng số người bình thường. Việc chuẩn đoán sai người bị bệnh thành không bị bệnh có ảnh hưởng nghiêm trọng đến sức khỏe và tính mạng con người. Vì vậy cần tìm ra những phương pháp để cải thiện hiệu quả phân lớp dữ liệu. Bài báo này giới thiệu về mất cân bằng dữ liệu, sự cần thiết của việc phân lớp dữ liệu. Tiếp đó, chúng tôi xin đề xuất một thuật toán mới gọi là thuật toán giảm phần tử ngẫu nhiên trên đường biên trong dữ liệu mất cân bằng (Random Border Undersampling). Thuật toán được cải tiến từ thuật toán đã có Random undersampling, điểm mới là thuật toán không chỉ đơn giản là chọn các phần tử thuộc lớp đa số để giảm bớt mà xác định những phần tử trên đường biên của lớp đa số và giảm bớt các phần tử đó. Thuật toán được áp dụng vào các bộ dữ liệu từ .

Quang Hùng 83 8 pdf

Upload

Bấm vào đây để xem trước nội dung

Tải xuống

TÀI LIỆU LIÊN QUAN

Random border over sampling: Thuật toán mới sinh thêm phần tử ngẫu nhiên trên đường biên trong dữ liệu mất cân bằng

5 54 0

Random Border Undersampling: Thuật toán mới giảm phần tử ngẫu nhiên trên đường biên trong dữ liệu mất cân bằng

8 65 0

TÀI LIỆU XEM NHIỀU

Một Case Về Hematology (1)

8 462012 59

Giới thiệu :Lập trình mã nguồn mở

14 23544 70

Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh

13 11084 535

Câu hỏi và đáp án bài tập tình huống Quản trị học

14 10307 454

Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”

3 9609 106

Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)

249 8570 1146

Tiểu luận: Nội dung tư tưởng Hồ Chí Minh về đạo đức

16 8337 423

Mẫu đơn thông tin ứng viên ngân hàng VIB

8 7918 2242

Đề tài: Dự án kinh doanh thời trang quần áo nữ

17 6939 260

Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)

152 6558 1581

TỪ KHÓA LIÊN QUAN

TÀI LIỆU MỚI ĐĂNG

Giáo án mầm non chương trình đổi mới: Đề tài: Ôn xác định vị trí trên – dưới, trước- sau của đối tượng khác.

8 411 3 16-06-2024

extremetech Hacking BlackBerry phần 9

31 275 0 16-06-2024

Anh văn bằng C-124

8 206 0 16-06-2024

Công nghiệp gang thép Việt Nam : Một giai đoạn phát triển và chuyển đổi chính sách mới part 5

6 212 0 16-06-2024

Data Structures and Algorithms - Chapter 8: Heaps

41 142 1 16-06-2024

Bài Tiểu Luận Chuyên Đề Tổ Chức Hoạt Động Nhận Thức Trong Dạy Học Vật Lý " Định Luật Ôm Cho Các Loại Đoạn Mạch Chứa Nguồn Điện"

10 174 3 16-06-2024

Giáo trình phân tích phương trình vi phân viết dưới dạng thuật toán đặc tính của hệ thống p1

5 120 0 16-06-2024

Báo cáo nghiên cứu nông nghiệp " Biofertiliser inoculant technology for the growth of rice in Vietnam: Developing technical infrastructure for quality assurance and village production for farmers "

12 108 0 16-06-2024

Thương hiệu sản phẩm làng nghề: Đã ít, lại thiếu tính cạnh tranh

5 133 0 16-06-2024

Quy Trình Canh Tác Cây Bông Vải

8 127 0 16-06-2024

TÀI LIỆU HOT

Mẫu đơn thông tin ứng viên ngân hàng VIB

8 7918 2242

Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)

152 6558 1581

Ebook Chào con ba mẹ đã sẵn sàng

112 3968 1296

Ebook Tuyển tập đề bài và bài văn nghị luận xã hội: Phần 1

62 5602 1170

Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)

249 8570 1146

Giáo trình Văn hóa kinh doanh - PGS.TS. Dương Thị Liễu

561 3611 664

Giáo trình Sinh lí học trẻ em: Phần 1 - TS Lê Thanh Vân

122 3820 581

Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh

13 11084 535

Giáo trình Pháp luật đại cương: Phần 1 - NXB ĐH Sư Phạm

274 4261 528

Bài tập nhóm quản lý dự án: Dự án xây dựng quán cafe

35 4273 483