Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Tài liệu HOT
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
0
Trang chủ
Công Nghệ Thông Tin
Cơ sở dữ liệu
Đề xuất thuật toán phân loại văn bản tiếng Việt sử dụng mạng LSTM và Word2vec
TAILIEUCHUNG - Đề xuất thuật toán phân loại văn bản tiếng Việt sử dụng mạng LSTM và Word2vec
Bài viết trình bày việc sử dụng mạng Long Short Term Memory (LSTM) kết hợp với Word2vec để phân loại văn bản nhằm cải thiện hiệu suất và độ chính xác. Kết quả đánh giá mô hình trên bộ văn bản tiếng Việt VNTC đã cho thấy sự khả thi và hứa hẹn áp dụng trong thực tế. | Nghiên cứu khoa học công nghệ ĐỀ XUẤT THUẬT TOÁN PHÂN LOẠI VĂN BẢN TIẾNG VIỆT SỬ DỤNG MẠNG LSTM VÀ WORD2VEC Nguyễn Thị Minh Ánh Nguyễn Hữu Phát Tóm tắt Hiện nay phân loại văn bản là một trong những ứng dụng cơ bản của xử lý ngôn ngữ tự nhiên. Đặc biệt những thành tựu gần đây của các mạng học sâu cho thấy các phương pháp học sâu đang làm rất tốt trong việc phân loại văn bản. Các phương pháp này cho thấy hiệu quả trong việc phân loại văn bản với ngôn ngữ tiếng Anh. Tuy nhiên hiện nay trong phạm vi nghiên cứu của chúng tôi không có nhiều nghiên cứu đối với văn bản tiếng Việt. Do đó trong nghiên cứu này chúng tôi sử dụng mạng Long Short Term Memory LSTM kết hợp với Word2vec để phân loại văn bản nhằm cải thiện hiệu suất và độ chính xác. Kết quả đánh giá mô hình trên bộ văn bản tiếng Việt VNTC 1 đã cho thấy sự khả thi và hứa hẹn áp dụng trong thực tế. Từ khóa Phân loại văn bản Xử lý ngôn ngữ tự nhiên Xử lý dữ liệu Long Short Term Memory Word2vec. 1. ĐẶT VẤN ĐỀ Với xu thế bùng nổ dữ liệu như hiện nay lượng dữ liệu văn bản phải xử lý ngày càng nhiều. Vấn đề đặt ra là làm thế nào để khai thác thông tin từ nguồn dữ liệu này. Rõ ràng ta phải hiểu rõ bản chất của dữ liệu văn bản hiểu rõ đặc trưng của các dữ liệu này để có thể có được những phương pháp luận cần thiết. Việc phân loại văn bản tự động sẽ giúp tiết kiệm thời gian và công sức. Các mô hình mạng nơ-ron nhân tạo học sâu Deep Neural Network - DNN đã đạt nhiều thành công trong việc xử lý ngôn ngữ tự nhiên. Những ứng dụng của Deep Learning trong xử lý ngôn ngữ tự nhiên có thể kể đến như thuật toán phân cụm từ 12 rút trích nội dung chính của văn bản tiếng Việt 13 Đối với phân loại văn bản đã có nhiều nghiên cứu và mô hình được sử dụng. Với ngôn ngữ tiếng Anh các bài toán phân loại văn bản cũng đã được nghiên cứu dựa trên các mạng nơ-ron nhân tạo học sâu 14 19 . Trong 14 tác giả sử dụng LSTM LSTM Word2vec. Việc sử dụng mô hình LSTM Word2Vec được đào tạo trước có thể giải quyết tốt vấn đề xử lý dữ liệu nhiều chiều do các .
Bảo Vy
65
13
pdf
Báo lỗi
Trùng lắp nội dung
Văn hóa đồi trụy
Phản động
Bản quyền
File lỗi
Khác
Upload
Tải xuống
đang nạp các trang xem trước
Bấm vào đây để xem trước nội dung
Tải xuống
TÀI LIỆU LIÊN QUAN
Bài giảng Xử lý ngôn ngữ tự nhiên: Phân loại văn bản - Lê Thanh Hương
4
180
4
Bài giảng Xử lý ngôn ngữ tự nhiên: Phân loại văn bản - Lê Thanh Hương
4
64
1
Phân loại văn bản tiếng Việt dựa trên mô hình chủ đề
6
59
1
LUẬN VĂN:TÌM HIỂU CÁC HƯỚNG TIẾP CẬN BÀI TOÁN PHÂN LOẠI VĂN BẢN VÀ XÂY DỰNG PHẦN MỀM PHÂN LOẠI TIN TỨC BÁO ĐIỆN TỬ
132
64
1
Phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến
5
3
1
Phân lớp văn bản tiếng Việt tự động theo chủ đề
11
121
2
Áp dụng kỹ thuật khai thác đồ thị vào bài toán phân loại bằng văn bản
10
53
0
Văn bản và việc phân chia các loại văn bản
9
95
2
TIỂU LUẬN: Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp
61
122
4
Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt
9
63
2
TÀI LIỆU XEM NHIỀU
Một Case Về Hematology (1)
8
461937
55
Giới thiệu :Lập trình mã nguồn mở
14
23041
64
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
10974
531
Câu hỏi và đáp án bài tập tình huống Quản trị học
14
10171
451
Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”
3
9566
104
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8370
1127
Tiểu luận: Nội dung tư tưởng Hồ Chí Minh về đạo đức
16
8277
423
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
7889
2226
Đề tài: Dự án kinh doanh thời trang quần áo nữ
17
6825
256
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
6061
1462
TỪ KHÓA LIÊN QUAN
Cơ sở dữ liệu
Phân loại văn bản
Xử lý ngôn ngữ tự nhiên
Xử lý dữ liệu
Long Short Term Memory
Khoa học công nghệ
Bài giảng Xử lý ngôn ngữ tự nhiên
Ngôn ngữ tự nhiên
Cách phân loại
Mô hình chủ đề
Khai phá văn bản
Phân loại văn bản tiếng Việt
Văn bản tiếng Việt
Phân loại văn bản tiếng Việt theo chủ đề
luận văn
báo điện tử
xây dựng phần mềm
tách tử tiếng Việt
phân loại tin tức báo điện tử
Hội thảo khoa học Công nghệ thông tin và truyền thông
Information and Communication technology conference 2022
Kỹ thuật khai thác đồ thị con
Bài toán phân loại văn bản tiếng Việt
Mô hình hóa văn bản
Tạp chí Khoa học Công nghệ và Thực phẩm
Phân lớp văn bản
Văn bản tiếng Việt tự động theo chủ đề
Phân loại bài toán phân lớp văn bản
Quá trình xây dựng bộ phân lớp văn bản
Áp dụng kỹ thuật khai thác đồ thị
Kỹ thuật khai thác đồ thị
Bài toán phân loại bằng văn bản
Phân loại bằng văn bản
Không gian vectơ truyền thống
Tạp chí Khoa học
Văn bản văn chương
Văn bản thông tin
Chương trình Ngữ văn
phân tích cú pháp
quản trị marketing
báo cáo quản trị marketing
thực trạng quản trị marketing
luận văn quản trị
chiến lược marketing
tiểu luận
Tóm tắt văn bản
Phân loại ý kiến độc giả
Báo mạng tiếng Việt
Phân loại ý kiến
Phân tích ý kiến
Tóm tắt ý kiến
Các trường điều kiện ngẫu nhiên
Giải thuật phân tách
Phân loại văn bản StarSpace
Văn bản luật
Luật giao thông vận tải
Bộ giao thông vận tải
Quy định chung
Phân loại đường bộ các tuyến đường
Phân loại đường
Phân loại các tuyến lường
Bảng phân loại đường
Phân tích thể loại văn bản
Thể loại văn bản
Chiến lược viết thư
Viết thư tín
Thư tín thương mại
Chiến lược viết thư tín thương mại
Đề tài khoa học và công nghệ
Đại học Đà Nẵng
Đồ thị dendrogram
Nghiên cứu phương pháp phân cụm từ
Kịch bản tuồng Đào Tấn
Thể loại kịch bản tuồng
Phân loại kịch bản tuồng
Đặc trưng kịch bản tuồng
Nghệ thuật tuồng
Văn học Việt Nam
Phân loại hàng hóa
Văn bản luật phân loại hàng hóa
Quyết định số 49 QĐ CTN
Luật Hải quan 2014
Nghị định 08 2015 NĐ CP
Thông tư 38 2015 TT BTC
Một số quan niệm về tổng thuật
Phân loại tổng thuật
Phân loại văn bản trong thuật
Tạo văn bản tổng thuật
Tổng thuật thư mục
Thuật toán phân loại văn
Bài giảng Thuật toán phân loại văn
Mô hình xác suất
Mô hình Bayes đơn giản
Mô hình Bernoulli
Mô hình TF IDF
Soạn thảo văn bản
Giáo trình Soạn thảo văn bản
Văn thư hành chính
Kĩ thuật soạn thảo văn bản
Thẩm quyền ban hành văn bản
Kỹ thuật soạn thảo văn bản hành chính
Tạp chí Nghiên cứu khoa học
Máy vector hỗ trợ
Phân lớp hình ảnh
Naïve Bayes
Phân loại web
Kỹ năng soạn thảo văn bản
Qui tắc soạn thảo văn bản
Bài giảng soạn thảo văn bản
Hình thức văn bản qui chuẩn
Công cụ soạn thảo văn bản
Kỹ thuật soạn thảo văn bản
Quản lý văn bản
Thể thức văn bản
Hướng dẫn soạn thảo văn bản
Văn bản nhà nước
Văn bản quản lý hành chính Nhà nước
Xây dựng văn bản quản lý hành chính
Ban hành văn bản quản lý hành chính
Phân loại văn bản quản lý hành chính
Hiệu lực văn bản quản lý hành chính
Hệ thống văn bản quản lý hành chính
Những thủ tục hành chính
Văn bản hội nghị
Văn bản hợp đồng dân sự
Văn bản hợp đồng kinh tế
Sử dụng văn bản
Văn bản quản lý nhà nước
Hệ thống văn bản nhà nước
Văn bản hành chính
TÀI LIỆU MỚI ĐĂNG
Giáo án mầm non chương trình đổi mới: Gia đình vui nhộn
4
323
1
18-05-2024
Báo cáo nghiên cứu khoa học " KẾT QUẢ NGHIÊN CỨU BƯỚC ĐẦU VỀ THIÊN ĐỊCH CHÂN KHỚP TRÊN CÂY THANH TRÀ Ở THỪA THIÊN HUẾ "
7
190
0
18-05-2024
Bơm máy nén quạt trong công nghiệp part 8
20
207
2
18-05-2024
THE ANTHROPOLOGY OF ONLINE COMMUNITIES BY Samuel M.Wilson and Leighton C. Peterson
19
161
0
18-05-2024
Data Structures and Algorithms - Chapter 8: Heaps
41
131
0
18-05-2024
báo cáo hóa học:" Rare ligamentum flavum cyst causing incapacitating lumbar spinal stenosis: Experience with 3 Chinese patients"
4
108
0
18-05-2024
Truyện kiếm hiệp - Duy ngã độc tôn phần 5/7
1
103
0
18-05-2024
Báo cáo khoa học: " Biogeography of Matsucoccus josephi Bodenheimer et Harpaz in Crete and mainland Greece"
6
89
0
18-05-2024
Báo cáo nghiên cứu khoa học " HÃY LÀM CHO HUẾ XANH HƠN VÀ ĐẸP HƠN "
6
132
0
18-05-2024
GYNECOLOGIC CANCERS IN PREGNANCY: GUIDELINES OF AN INTERNATIONAL CONSENSUS MEETING
12
101
0
18-05-2024
TÀI LIỆU HOT
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
7889
2226
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
6061
1462
Ebook Chào con ba mẹ đã sẵn sàng
112
3787
1253
Ebook Tuyển tập đề bài và bài văn nghị luận xã hội: Phần 1
62
5407
1138
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8370
1127
Giáo trình Văn hóa kinh doanh - PGS.TS. Dương Thị Liễu
561
3550
656
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
10974
531
Giáo trình Sinh lí học trẻ em: Phần 1 - TS Lê Thanh Vân
122
3751
528
Giáo trình Pháp luật đại cương: Phần 1 - NXB ĐH Sư Phạm
274
4162
523
Bài tập nhóm quản lý dự án: Dự án xây dựng quán cafe
35
4187
483
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.