Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Tài liệu HOT
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
0
Trang chủ
Khoa Học Tự Nhiên
Toán học
Phân lớp dữ liệu mất cân bằng với thuật toán HBU
TAILIEUCHUNG - Phân lớp dữ liệu mất cân bằng với thuật toán HBU
Trong bài viết này chúng tôi đề xuất một thuật toán làm giảm số lượng phần tử lớp đa số, đặc biệt là các phần tử ở đường biên, dựa trên Hypothesis margin của các đối tượng thuộc lớp thiểu số để cải thiện hiệu suất phân lớp tập dữ liệu mất cân bằng. | PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG VỚI THUẬT TOÁN HBU NGUYỄN THỊ LAN ANH Khoa Tin học, Trường Đại học Sư phạm, Đại học Huế Tóm tắt: Dữ liệu mất cân bằng là một trong những nguyên nhân làm giảm hiệu suất của bài toán phân lớp. Nhiều phương pháp đã được nghiên cứu để giải quyết vấn đề này. Trong bài báo này chúng tôi đề xuất một thuật toán làm giảm số lượng phần tử lớp đa số, đặc biệt là các phần tử ở đường biên, dựa trên Hypothesis margin của các đối tượng thuộc lớp thiểu số để cải thiện hiệu suất phân lớp tập dữ liệu mất cân bằng. Từ khóa: Dữ liệu mất cân bằng, phương pháp làm giảm số lượng phần tử, Hypothesis margin 1. GIỚI THIỆU Khi một tập dữ liệu có số lượng phần tử thuộc một hoặc một số nhãn lớp lớn hơn số lượng phần tử thuộc các nhãn lớp còn lại, tập dữ liệu đó được gọi là mất cân bằng. Đối với bài toán phân lớp hai lớp tập dữ liệu bị mất cân bằng, lớp có số lượng phần tử nhiều hơn gọi là lớp đa số, lớp có số phần tử ít hơn gọi là lớp thiểu số. Đây cũng là loại bài toán chúng tôi đề cập đến trong bài báo này. Nghiên cứu về dữ liệu mất cân bằng, trong những năm gần đây, là một trong những vấn đề quan tâm của nhiều nhà khoa học trong nước cũng như trên thế giới bởi tính thực tế và phổ biến của nó. Bài toán phân lớp dữ liệu mất cân bằng nhằm mục đích phát hiện các đối tượng hiếm nhưng quan trọng, và được ứng dụng trong nhiều lĩnh vực khác nhau như phát hiện gian lận tài chính, dự đoán cấu trúc protein, dự đoán tương tác giữa protein-protein, phân lớp microRNA , hay chẩn đoán bệnh trong y học. Dữ liệu mất cân bằng làm giảm hiệu quả của các thuật toán phân lớp truyền thống vì các bộ phân lớp này có khuynh hướng dự đoán lớp đa số và bỏ qua lớp thiểu số [1]. Hay nói cách khác, hầu hết các phần tử thuộc lớp đa số sẽ được phân lớp đúng và các phần tử thuộc lớp thiểu số cũng sẽ được gán nhãn lớp là nhãn lớp của lớp đa số, kết quả là độ chính xác (Accuracy) của việc phân lớp rất cao trong khi độ nhạy (Sensitivity) lại rất thấp. Nhiều phương pháp nâng cao hiệu quả bài toán .
Ngọc Hà
87
7
pdf
Báo lỗi
Trùng lắp nội dung
Văn hóa đồi trụy
Phản động
Bản quyền
File lỗi
Khác
Upload
Tải xuống
đang nạp các trang xem trước
Bấm vào đây để xem trước nội dung
Tải xuống
TÀI LIỆU LIÊN QUAN
Random Border Undersampling: Thuật toán mới giảm phần tử ngẫu nhiên trên đường biên trong dữ liệu mất cân bằng
8
65
0
Khai thác luật phân lớp kết hợp trên cơ sở dữ liệu mất cân bằng về lớp
7
51
2
Luận văn Thạc sĩ Kỹ thuật: Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng
65
45
5
Tài liệu hướng dẫn thực hành môn Cấu trúc dữ liệu và giải thuật - Bài 5: Cây cân bằng AVL
7
106
0
Bài giảng Cấu trúc dữ liệu và giải thuật: Cây AVL - ĐHKHTN
13
138
1
Phương pháp mới dựa trên vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng
10
91
0
Phương pháp mới dựa trên đường biên và vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng
9
76
0
Ứng dụng kỹ thuật học máy trên dữ liệu mất cân bằng hỗ trợ dự đoán sớm khả năng thôi học của học sinh trung học phổ thông
10
62
1
Tóm tắt Luận văn Thạc sĩ: Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng
26
22
1
Thuật toán HMU trong bài toán phân lớp dữ liệu mất cân bằng
8
107
0
TÀI LIỆU XEM NHIỀU
Một Case Về Hematology (1)
8
462336
61
Giới thiệu :Lập trình mã nguồn mở
14
25903
79
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
11335
542
Câu hỏi và đáp án bài tập tình huống Quản trị học
14
10542
466
Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”
3
9834
108
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8885
1161
Tiểu luận: Nội dung tư tưởng Hồ Chí Minh về đạo đức
16
8499
426
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
8098
2279
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
7709
1788
Đề tài: Dự án kinh doanh thời trang quần áo nữ
17
7239
268
TỪ KHÓA LIÊN QUAN
Toán học
Dữ liệu mất cân bằng
Phương pháp làm giảm số lượng phần tử
Cải thiện hiệu suất phân lớp
Hypothesis margin
Thuật toán HBU
Phân lớp microRNA
Random Border Undersampling
Thuật toán mới giảm phần tử ngẫu nhiên
Đường biên dữ liệu mất cân bằng giới
Mất cân bằng dữ liệu
Phân lớp dữ liệu
Tăng phần tử
Khai thác luật phân lớp
Cơ sở dữ liệu mất cân bằng về lớp
Cơ sở dữ liệu
Thuộc tính lớp
Luận văn Thạc sĩ Kỹ thuật
Khoa học máy tính
Hiệu năng phân lớp dữ liệu
Dữ liệu phân bố không cân bằng
Cấu trúc dữ liệu
Bài giảng Cấu trúc dữ liệu
Cây cân bằng AVL
Cây nhị phân tìm kiếm
Xử lý mất cân bằng bằng
Các node trên cây cân bằng
Bài giảng Cấu trúc dữ liệu và giải thuật
Cách xây dựng cây cân bằng
Các trường hợp mất cân bằng cây AVL
Xử lý mất cân bằng cây AVL
Thao tác trên cây AVL
Random Undersampling
Random Safe Oversampling
Random Safe Undersampling
Mức độ an toàn
Sinh thêm phần tử ngẫu nhiên
Giảm bớt phần tử ngẫu nhiên
Khai phá dữ liệu
Cây quyết định
Mô hình học máy
Giải thuật AdaBoost
Tóm tắt Luận văn Thạc sĩ
Nghiên cứu phân lớp
Thuật toán HMU
Lề giả thuyết
Số lượng phần tử
Border line
Random Sampling
Over Sampling
Thuật toán mới Random Border Over Sampling
Tạp chí Nghiên cứu khoa học
Phương pháp DEC SVM phân lớp
Mẫu nhân tạo lớp thiểu số
Sinh ngẫu nhiên phần tử lớp thiểu số
Bộ lọc tái lấy mẫu
Loại bỏ nhiễu
Thuật toán SMOTE
Xử lý dữ liệu mất cân bằng
Chấm điểm tín dụng
Quản trị rủi ro tín dụng
Ngân hàng thương mại Việt Nam
Kỹ thuật lấy mẫu dưới
Cấu trúc dữ liệu và giải thuật
Cây nhị phân tìm kiếm cân bằng
Mất cân bằng cây nhị phân
Dữ liệu có số chiều cao
Bình phương tối thiểu từng phần
Sinh thêm phần tử nhân tạo
Bộ dữ liệu chuẩn từ nguồn UCI
Ung thư da
Ung thư hắc tố
Phương pháp gán trọng số động
Hàm mất mát Large Margin Cosine Loss
Tập dữ liệu HAM10000
Phát hiện gian lận tài chính
Gian lận trong tài chính
Bài toán phát hiện gian lận tài chính
Kỹ thuật khai phá dữ liệu
Pin mặt trời
Phương pháp DEC SVM
Phân lớp dữ liệu mất cân bằng
Thiết kế bộ điều khiển thích nghi trượt
Robot công nghiệp
Phân loại văn bản
Chất lượng đào tạo đại học
Máy học vector hỗ trợ
Cây quyết định
TÀI LIỆU MỚI ĐĂNG
Giáo trình phân tích phương trình vi phân viết dưới dạng thuật toán đặc tính của hệ thống p1
5
161
1
23-12-2024
Báo cáo y học: "The Factors Influencing Depression Endpoints Research (FINDER) study: final results of Italian patients with depressio"
9
147
1
23-12-2024
Báo cáo " Bàn về hành vi pháp luật và hành vi đạo đức "
11
177
2
23-12-2024
ETHICAL CODE HANDBOOK: Demonstrate your commitment to high standards
7
146
1
23-12-2024
Báo cáo nghiên cứu khoa học " NÂNG QUAN HỆ KINH TẾ THƯƠNG MẠI VIỆT NAM - TRUNG QUỐC LÊN TẦM CAO THỜI ĐẠI "
8
170
1
23-12-2024
Báo cáo nghiên cứu khoa học " Đại hội XVI thông qua điều lệ Đảng cộng sản Trung Quốc những sửa đổi bổ sung mới "
4
161
1
23-12-2024
IT Audit: EMC’s Journey to the Private Cloud
13
157
1
23-12-2024
Data Mining Classification: Basic Concepts, Decision Trees, and Model Evaluation Lecture Notes for Chapter 4 Introduction to Data Mining
101
140
1
23-12-2024
Lịch sử Trung Quốc 5000 năm tập 3 part 2
54
148
1
23-12-2024
Báo cáo lâm nghiệp: "Assessment of the effects of below-zero temperatures on photosynthesis and chlorophyll a fluorescence in leaf discs of Eucalyptus globulu"
4
140
0
23-12-2024
TÀI LIỆU HOT
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
8098
2279
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
7709
1788
Ebook Chào con ba mẹ đã sẵn sàng
112
4406
1371
Ebook Tuyển tập đề bài và bài văn nghị luận xã hội: Phần 1
62
6270
1266
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8885
1161
Giáo trình Văn hóa kinh doanh - PGS.TS. Dương Thị Liễu
561
3835
680
Giáo trình Sinh lí học trẻ em: Phần 1 - TS Lê Thanh Vân
122
3917
609
Giáo trình Pháp luật đại cương: Phần 1 - NXB ĐH Sư Phạm
274
4699
565
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
11335
542
Bài tập nhóm quản lý dự án: Dự án xây dựng quán cafe
35
4500
490
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.