TAILIEUCHUNG - Kỹ thuật tối ưu đa mục tiêu thiết kế bảng băm từ điển cho kiểm lỗi tiếng Việt

Bài toán thiết kế bảng băm cho từ điển âm tiết tiếng Việt phải giải quyết hai vấn đề có liên quan trong sự đối lập nhau, đó là kích thước bảng băm và khả năng đụng độ. Chúng tôi đưa ra cách giải quyết bài toán này nhằm cả hai mục tiêu là khả năng dụng độ và kích thước bảng băm cùng phải nhỏ. Kết quả thử nghiệm với các điểm tối ưu trên tập Pareto với kích thước bảng băm cỡ 1,11n (n là kích thước từ điển), độ phức tạp thời gian tìm kiếm trên bảng băm là O(1). Mời các bạn tham khảo! | Kỹ thuật tối ưu đa mục tiờu thiết kế bảng băm từ điển cho kiểm lỗi tiếng Việt Kỹ thuật điện tử & Khoa học máy tính Kỹ THUậT TốI ƯU ĐA MụC TIÊU THIếT Kế BảNG BĂM Từ ĐIểN CHO KIểM LỗI TIếNG VIệT TRẦN NGỌC ANH*, TRƯƠNG QUỐC HÙNG*, PHAN TUẤN ANH*, PHẠM HỒNG SƠN**, NGUYỄN LONG*. Túm tắt: Bài toỏn thiết kế bảng băm cho từ điển õm tiết tiếng Việt phải giải quyết hai vấn đề cú liờn quan trong sự đối lập nhau, đú là kớch thước bảng băm và khả năng đụng độ. Chỳng tụi đưa ra cỏch giải quyết bài toỏn này nhằm cả hai mục tiờu là khả năng dụng độ và kớch thước bảng băm cựng phải nhỏ. Kết quả thử nghiệm với cỏc điểm tối ưu trờn tập Pareto với kớch thước bảng băm cỡ 1,11n (n là kớch thước từ điển), độ phức tạp thời gian tỡm kiếm trờn bảng băm là O(1), cho thấy ưu điểm của thuật toỏn được đề xuất so với một số thuật toỏn khỏc như tỡm kiếm nhị phõn, automat hữu hạn đơn định hoặc phõn tớch dựa trờn cấu trỳc õm tiết tiếng Việt. Từ khoỏ: Tối ưu đa mục tiờu; Tập Pareto; Bảng băm tối ưu. 1. ĐẶT VẤN ĐỀ Bài toỏn kiểm lỗi õm tiết tiếng Việt là một trong những bài toỏn cơ bản nhất của xử lý ngụn ngữ tự nhiờn tiếng Việt[3][4]. Hiện nay, đó cú rất nhiều phương phỏp tiếp cận khỏc nhau như: Tỡm kiếm nhị phõn dựa theo từ điển đó được sắp xếp[3][4]; Dựng cỏc từ điển và hàm băm dạng Soundex, Editex, Phontex hỗ trợ sửa lỗi[4]; Dựng mảng cấu trỳc õm tiết tiếng Việt[3][4]; Dựng cõy từ điển ký tự: B-Tree hay cõy hậu tố Suffix-Tree[4]; Dựng Automat hữu hạn đơn định, Automat tối thiểu[4]; Dựng mụ hỡnh thống kờ n-grams ký tự[2][4]; Dựng bảng băm từ điển tối ưu[4]. Trong đú, dựng bảng băm từ điển tối ưu là hướng tiếp cận mới, sử dụng lời giải tối ưu đa mục tiờu cho thiết kế bảng băm. Cụ thể: mục tiờu 1 là tối thiểu hoỏ đụng độ, và mục tiờu 2 là tối thiểu hoỏ kớch thước bảng băm[14]. Rừ ràng hai mục tiờu này mõu thuẫn loại trừ lẫn nhau. Trờn cơ sở nghiờn cứu về bộ mó ký tự Việt[4], về bảng băm từ điển õm tiết[4], về thống kờ õm tiết tiếng Việt[1] .

TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.