TAILIEUCHUNG - MỘT SỐ THUẬT TOÁN NHẬN DẠNG VÀ CHUYỂN MÃ TIẾNG VIỆT

MỘT SỐ THUẬT TOÁN NHẬN DẠNG VÀ CHUYỂN MÃ TIẾNG VIỆT. ThS. PHẠM XUÂN TÍCH. Bộ môn Khoa học máy tính Khoa Công nghệ thông tin Trường Đại học Giao thông Vận tải Tóm tắt: Hiện nay, tiếng Việt có hơn 40 loại bảng mã khác nhau được sử dụng để mã hóa các loại văn bản: từ trang web, các dữ liệu điện tử đến các cơ sở dữ iệu Việc nhận biết bảng mã và chuyển đổi giữa các bảng mã tiếng Việt là rất cần thiết, không chỉ mang lại lợi ích cho các lập trình viên. | MỘT SỐ THUẬT TOÁN NHẬN DẠNG VÀ CHUYỂN MÃ TIẾNG VIỆT ThS. PHẠM XUÂN TÍCH Bộ môn Khoa học máy tính Khoa Công nghệ thông tin Trường Đại học Giao thông Vận tải Tóm tắt Hiện nay tiếng Việt có hơn 40 loại bảng mã khác nhau được sử dụng để mã hóa các loại văn bản từ trang web các dữ liệu điện tử đến các cơ sở dữ iệu. Việc nhận biết bảng mã và chuyển đổi giữa các bảng mã tiếng Việt là rất cần thiết không chỉ mang lại lợi ích cho các lập trình viên mà cho cả nhân viên văn phòng nhân viên xử lý văn bản. Công việc này cũng tạo tiền đề cho các việc xử lý tiếp theo trong tiếng Việt như kiểm tra phát hiện lôi chính tả tóm tắt văn bản làm từ điển thậm chí cả dịch máy và xử lý ngôn ngữ tự nhiên. Trong khuôn khổ bài báo này chúng tôi đưa ra một thuật toán nhận dạng mã để dê dàng chuyển đổi mã tiêng Việt mà các chương trình hiện nay hầu hết chỉ chuyển mã biết trước mà không nhận dạng được các bảng mã cũng như không xử lý được các văn bản tiếng Việt có nhiều loại mã trong cùng một văn bản. Summary In recent years there are over 40 Vietnamese codes for encoding on all types of data from websites databases to documents and many others. Codes recognization and conversion have so many advantages for not only programmers but office clients and secretaries as well. It makes premises for advanced Vietnamese processing such as spell checking syntact correcting document abstracting dictionary constructing even machine translating and natural language processing. In this article we present an algorithrm which can recognize many kinds of Vietnamese codes to make them easy to convert while almost other programs can only convert some known codes and cannot recognize codes or process Vietnamese documents having more than one code. CNTT-CB I. MÃ HOÁ TIẾNG VIỆT TRONG CÔNG NGHỆ THÔNG TIN Công nghệ thông tin là một ngành non trẻ ở nước ta với khoảng 20 năm phát triển nhưng nó cũng đang là một ngành có nhiều đóng góp đối với nền kinh tế đất nước. Với chi phí rất ít nhưng nó đem lại lợi nhuận cao là một

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.