Xu Hướng 3/2023 # Phần Mềm Nhận Dạng Văn Bản Tiếng Việt # Top 7 View | Bac.edu.vn

Xu Hướng 3/2023 # Phần Mềm Nhận Dạng Văn Bản Tiếng Việt # Top 7 View

Bạn đang xem bài viết Phần Mềm Nhận Dạng Văn Bản Tiếng Việt được cập nhật mới nhất trên website Bac.edu.vn. Hy vọng những thông tin mà chúng tôi đã chia sẻ là hữu ích với bạn. Nếu nội dung hay, ý nghĩa bạn hãy chia sẻ với bạn bè của mình và luôn theo dõi, ủng hộ chúng tôi để cập nhật những thông tin mới nhất.

VietOCR – Phần mềm nhận dạng văn bản tiếng Việt

VietOCR là phần mềm nhận dạng văn bản tiếng Việt (Phần mềm OCR tiếng Việt, Phần mềm nhận dạng chữ viết tay tiếng Việt, Phần mềm quét chữ trên ảnh cho PC) từ các hình ảnh (bằng cách chụp màn hình hoặc các hình ảnh có chứa văn bản tiếng Việt). Nói cách khác, đây là phần mềm chuyển hình ảnh có chứa chữ thành văn bản và lưu dưới dạng file text (.txt).

1 Giới thiệu phần mềm VietOCR nhận dạng văn bản tiếng Việt

VietOCR là phần mềm mã nguồn mở (miễn phí) có các phiên bản cho Java và .NET executable, là một GUI frontend cho Tesseract OCR engine. Cả hai phiên bản đều có giao diện tương tự và có cùng khả năng nhận diện ký tự từ các loại dạng ảnh phổ thông. Chương trình còn có khả năng vận hành như một ứng dụng console, thi hành lệnh từ command line.

Batch processing cũng được hỗ trợ. Chương trình theo dõi một watch folder cho các tập tin ảnh mới, tự động xử lý chúng qua OCR engine, và xuất kết quả nhận dạng ra một output folder.

Language data cho Việt ngữ và Anh ngữ đã được đóng gói đi kèm sẵn với chương trình. Data cho các ngôn ngữ khác có thể hạ tải từ Tesseract website và cần đặt vào tessdata folder. Lưu ý rằng language data files cho Tesseract 2.0x và 3.0 có định dạng khác nhau và không hoán đổi cho nhau được, vì vậy hãy hạ tải files tương thích với phiên bản Tesseract bạn có (2.0x – 3.02, 3.03, và 4.00).

Lưu ý: Một số ngôn ngữ — như là Ả-Rập hoặc Ấn Độ — có cube components; chúng cũng cần được downloaded và copied vào tessdata.

2. Cài đặt phần mềm VietOCR

Phiên bản Java đòi hỏi Java Runtime Environment 8 hoặc mới hơn (hướng dẫn cài đặt).

Cho Linux, Tesseract và language data packages nằm trong Graphics (universe) repository. Chúng có thể được cài qua Synaptic hoặc từ lệnh sau:

sudo apt-get install tesseract-ocr tesseract-ocr-vie

Files sẽ được đặt trong /usr/bin và /usr/share/tesseract-ocr/tessdata, trong thứ tự đó.

Mặt khác, nếu Tesseract được xây dựng và cài từ mã nguồn, chúng sẽ được đặt trong /usr/local/bin và /usr/local/share/tessdata. Bạn cần chỉ định directory của Tesseract executable từ Settings menu của VietOCR. VietOCR được thiết kế để nhận biết các tập tin language data ở những địa điểm đó; tuy nhiên, trong trường hợp tessdata được để vào trong một directory khác với những directory đã đề cập, bạn sẽ cần đặt biến môi trường TESSDATA_PREFIX environment variable, ví dụ:

export TESSDATA_PREFIX=/usr/local/share/

(hoặc tương đương) trong .profile của bạn hoặc setenv để đặt biến môi trường. Hãy chú ý rằng đường dẫn tới directory phải kết với ký tự /.

Hỗ trợ tùy chọn cho thư viện Tess4J được cung cấp. Xin lưu ý rằng bất cứ biệt lệ exception từ bên trong Tess4J sẽ làm ứng dụng crash.

Phiên bản .NET cần Microsoft .NET Framework 4.8. Nếu bạn gặp lỗi biệt lệ “Exception has been thrown by the target of an invocation” hoặc “The program can’t start because chúng tôi is missing from your computer“, xin hãy cài đặt Microsoft Visual C++ 2015-2019 Redistributable Package.

Hỗ trợ quét văn bản trên Windows được cung cấp qua Windows Image Acquisition Library v2.0, thư viện này đòi hỏi Windows XP Service Pack 1 (SP1) hoặc mới hơn; thư viện này trở thành thành phần tiêu chuẩn của Windows Vista và 7. Để cài đặt WIA Library trên Windows XP, copy file wiaaut.dll vào System32 directory (thường đặt ở C:WindowsSystem32) và chạy lệnh từ command line:

regsvr32 C:WindowsSystem32wiaaut.dll

Trên Linux, scanning đòi hỏi cài đặt các gói SANE packages:

sudo apt-get install libsane sane sane-utils libsane-extras xsane

;C:Program Filesgsgs9.52bin

Để cài đặt GS trên Linux:

sudo apt-get install ghostscript

Để chỉnh đường dẫn:

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib

nơi trong /usr/local/lib, libgs.so link tới libgs.so.9.52 được đặt. Tuy nhiên, bước này có thể không cần bởi path có thể đã được chỉnh trong lúc cài đặt GS.

Tính năng Duyệt chính tả (spellcheck) có được qua Hunspell, mà các dictionary files trực thuộc (.aff, .dic) nên được đặt trong dict folder của VietOCR. user.dic là một file được mã hóa trong UTF-8 chứa một danh sách các từ riêng, một từ mỗi hàng.

Trên Linux, Hunspell và tự điển của nó có thể được cài đặt bởi Synaptic hoặc apt, như sau:

sudo apt-get install hunspell hunspell-en-us

3. Cách chuyển văn bản hình ảnh sang chữ dạng text

VietOCR là phần mềm chuyển hình ảnh thành văn bản tiếng Việt. Để sử dụng giao diện tiếng Việt, bạn chọn Setting – User interface language – Vietnamese (Tiếng Việt).

Các chữ trong hình ảnh dữ liệu Vietnamese language data trong phần mềm VietOCR được tạo cho các font Times New Roman, Arial, Verdana, và Courier New. Do đó, việc nhận dạng sẽ có kết quả cao hơn cho các ảnh có font glyphs tương tự. OCR ảnh có font glyph trông khác các font hỗ trợ thông thường sẽ đòi hỏi tập huấn Tesseract để tạo một bộ language data khác cụ thể cho những mặt chữ đó. Cập nhật: Thêm language data đã được tạo cho các kiểu font cũ Việt Nam, VNI và TCVN3 (ABC). Chúng có thể được tải xuống qua submenu Tải dữ liệu ngôn ngữ.

Hình ảnh muốn được OCR cần quét ở độ phân giải từ 200 DPI (dot per inch) trở lên tới 400 trong trắng đen hoặc grayscale. Quét ảnh với độ phân giải cao hơn nữa chưa hẳn sẽ tăng sự chính xác của kết quả nhận dạng. Hiện tại, mức chính xác có thể lên trên 97% cho Tiếng Việt (ảnh chuẩn), và phiên bản tới của Tesseract có thể nâng cao độ nhận dạng hơn nữa. Dầu vậy, độ chính xác thực thụ vẫn còn tùy thuộc rất lớn vào phẩm chất của ảnh quét.

Thông số tiêu biểu cho quét ảnh là 300 DPI và 1 bpp (bit per pixel) trắng đen hoặc 8 bpp grayscale dạng không nén (uncompressed) TIFF hay PNG. PNG nhỏ gọn hơn những dạng ảnh khác mà vẫn giữ được chất lượng cao nhờ sử dụng thuật toán lossless data compression; TIFF có lợi điểm ở khả năng chứa nhiều trang ảnh (multi-page) trong một file.

Chế độ Screenshot Mode cung cấp độ nhận dạng tốt hơn cho những hình ảnh có độ phân giải thấp, chẳng hạn như ảnh in màn hình, bằng cách rescaling chúng tới 300 DPI. Mẹo vặt: OCR trên các vùng khoanh chọn được định bởi rê chuột thường cho ra kết quả chính xác hơn.

Ngoài thuật toán hậu xử lý xây trong chương trình, bạn có thể thêm cách thức thay thế từ ngữ đặc riêng của bạn qua một tập tin text UTF-8-encoded tab-delimited có tên x.DangAmbigs.txt, mà x là ISO639-3 language code. Cả hai cách thay thế text đơn giản và Regex đều được hỗ trợ.

Vài công cụ gắn liền được cung cấp để nối nhiều file ảnh hoặc PDF vào một file đơn để thuận tiện cho các tác vụ OCR, hoặc tách một file PDF thành nhiều file nhỏ hơn nếu nó quá lớn, điều mà có thể gây ra biệt lệ cạn bộ nhớ. Chép ảnh (paste image) từ clipboard đã được hỗ trợ.

Hậu xử lý

Các lỗi nhận diện ký tự Việt có thể phân làm ba loại. Nhiều lỗi thường bị bởi do lẫn lộn chữ hoa và chữ thường (upper and lower) — ví dụ: hOa, nhắC — có thể dễ dàng sửa chữa sử dụng các chương trình Unicode text editor. Lỗi do sự xử lý không chính xác, gây ra các lỗi như thiếu sót dấu, lầm với ký tự có hình dáng tương tự, v.v… — huu – hưu, mang – marg, h0a – hoa, la – 1a, uhìu – nhìn. Đa số các lỗi này cũng có thể dễ dàng sửa chữa dùng các phần mềm duyệt chính tả. Hàm Hậu xử lý của VietOCR có thể sửa được nhiều lỗi nêu trên.

Quy trình biên tập sau đây với sử dụng các chức năng được tích hợp sẵn được đề ý:

Gom dòng. Các hàng chữ (line) cần được gom lại theo từng đoạn (paragraph), bởi khi được OCR, mỗi hàng chữ trở thành đoạn 1-hàng tách riêng. Dùng tính năng Nối dòng trong menu Định dạng. Lưu ý rằng tác vụ này có thể không cần cho thi thơ.

Cũng trong menu Định dạng, bấm Đổi ngữ cách và chọn Chữ hoa đầu câu để sửa gần như tất cả các lỗi chữ hoa-thường. Hãy dò tìm và sửa các lỗi hoa-thường còn sót.

Sửa lỗi chính tả bằng công cụ Dò chính tả.

Qua các bước trên, hầu hết các lỗi thông thường sẽ được loại trừ. Những lỗi ngữ nghĩa semantic còn sót lại ít, nhưng đòi hỏi người duyệt đọc dò lại toàn bộ văn bản để được giống y như văn bản gốc quét. Nếu cần biên chỉnh nặng hơn, bạn có thể dùng các chương trình word processor hay text editor có đầy đủ tính năng — Word, Writer, Notepad, VietPad, v.v… — cho công đoạn đó.

Hạn chế của phần mềm

Tesseract 2.0x không hỗ trợ dàn trang, cho nên chỉ có thể nhận diện văn bản có một cột text. Tesseract 3.0x đã tích hợp tính phân tích dàn trang, hỗ trợ nhận dạng các văn bản có nhiều cột.

Cách Tải Và Sử Dụng Phần Mềm Đọc Văn Bản Tiếng Việt

Phần mềm NHMTTS SAPI5 4.0 – VnSpeech là phần mềm đọc chữ, đọc văn bản Tiếng Việt thành tiếng, hay còn gọi là phần mềm phát âm Tiếng Việt. Sau khi tải và cài đặt phần mềm đọc văn bản Tiếng Việt này bạn có thể copy những đoạn báo, tài liệu Tiếng Việt vào sau đó là chỉ việc ngồi nghe mà không cần phải mỏi mắt đọc truyện, đọc báo nữa.

Phần mềm đọc chữ thành Tiếng Việt

Đây là một ứng dụng rất thiết thực, nhất là với những ai bận rộn không có nhiều thời gian đọc sách báo, hoặc với những người mắt kém, mắt yếu thì giờ đây không cần phải ngồi nhăn nheo mắt trước màn hình để đọc những thứ bạn yêu thích nữa, mà chỉ cần sử dụng phần mềm này để nghe những nội dung đó thôi.

Giới thiệu và Hướng dẫn Tải Sử dụng phần mềm đọc văn bản Tiếng Việt – VnSpeech

Chú ý: Hiện tại phần mềm này chỉ có phiên bản cho máy tính chạy Windows từ Windows XP tới Windows 10 đều có thể sử dụng được. Tuy nhiên trên Mac và Linux Ubuntu vẫn chưa có.

Bài viết được viết bởi thành viên website chúng tôi

Giới thiệu phần mềm đọc văn bản Tiếng Việt VnSpeech – NHMTTS SAPI5 4.0

+ Điều thú vị là không chỉ có chức năng đọc chữ thành tiếng đơn thuần mà bạn hoàn toàn có thể chỉnh được cường độ, khoảng nhừng, trường độ, tốc độ nhanh chậm v.v.

+ Phần mềm cũng hỗ trợ đọc văn bản Tiếng Anh

+ Đặc biệt bạn cũng có thể xuất nội dung cần đọc ra thành file âm thanh để copy vào máy nghe nhạc hoặc lưu trữ nghe vào các lần sau.

+ Tích hợp 2 giọng đọc Tiếng Việt khá là dễ nghe: Giọng nam “NHMTTS Voice (Male)” và giọng nữ “NHMTTS Voice (Female)”.

+ Bạn hoàn toàn có thể chỉnh âm lượng to nhỏ, tốc độ đọc, và theo dõi nội dung đọc

Đọc văn bản tiếng việt – CoGiHay.com

+ Chương trình có giao diện trực quan, dễ sử dụng, gọn nhẹ, lại còn có cả nhân vật hình micro mô phỏng miệng người đang đọc cho bạn rất là thú vị

+ Cho phép đọc văn bản chứa đồng thời tiếng Việt và một ngôn ngữ khác, ví dụ Tiếng việt xen lẫn Tiếng Anh. Sử dụng mã Unicode.

Tải phần mềm NHMTTS SAPI5 4.0 và Cách Sử dụng để đọc văn bản Tiếng Việt

Tải phần mềm đọc văn bản Tiếng Việt mới nhất

Tên phần mềm: NHMTTS SAPI5 – VnSpeech

Trang chủ: vnspeech.com

Tác giả: Nguyễn Hữu Minh

Phiên bản hiện tại: NHMTTS SAPI5 4.0 – Text to Speech Vietnamese (Phát hành: 19/05/2010)

Bạn tải phần mềm về cài đặt bằng 1 trong 2 link sau đây:

NHMTTS-SAPI5-Engine-40-Full-Setup.exe – Tải về (13,573,051 bytes)

hoặc: chúng tôi – Tải về (13,516,371 bytes)

Link dự phòng Fshare

Bản .zip – https://www.fshare.vn/file/4X3B23YEP6E7

Bản .exe – https://www.fshare.vn/file/NH79DSNMV9DR

Với bản .exe sau khi tải về chỉ việc mở file đó lên cài đặt theo hướng dẫn là xong. Với file .zip sau khi tải về bạn phải giải nén ra sau đó thì cài đặt chương trình đọc tiếng việt cho Windows.

Hướng dẫn sử dụng phần mềm đọc văn bản Tiếng Việt VnSpeech

– Sau khi cài đặt hoàn tất chương trình bạn mở chương trình SAPI5 TTSAPP (vnspeech) lên, sau đó chọn giọng đọc ở phần Voice như hình sau:

NHMTTS Voice(Male) là giọng nam, Female là giọng nữ

Sử dụng phần mềm vnspeech

– Trong lúc đang nghe, nếu muốn tạm dừng thì nhấn vào nút “Pause”, muốn dừng hẳn thì nhấn vào “Stop”, nếu muốn mở một file word hoặc file text có chứa truyện hay nội dung cần đọc thì nhấn vào “Open file” rồi chọn file là được.

– Bạn điều chỉnh âm lượng ở thanh “Volume”, chỉnh tốc độ đọc ở phần “Rate”

CoGiHay.com – Cảm ơn tác giả Nguyễn Hữu Minh đã cho ra một phần mềm vô cùng hữu ích

Phần Mềm Đọc Văn Bản Tiếng Việt Hỗ Trợ Tốt Cho Người Khiếm Thị

data-full-width-responsive=”true”

Định mệnh là từ ngữ mà người ta hay dùng để chỉ những người thường xuyên gặp thiệt thòi trong cuộc sống, và hai chữ định mệnh ấy luôn được chúng ta dùng để an ủi và động viên những người người khuyết tật. Tuy nhiên, có an ủi đến mấy thì chúng ta vẫn không thể phủ nhận được sự thiệt thòi đáng kể từ giao tiếp, hoà nhập xã hội cho đến nền tảng kiến thức chung so với những người bình thường. Nhất là việc tiếp cận văn hoá từ sách báo của các bạn khiếm thị lại càng gặp khó khăn hơn gấp nhiều lần.

Chính vì thế trong bài viết này mình sẽ giới thiệu cho các bạn phần mềm NHMTTS SAPI5 Application để hỗ trợ đọc văn bản Tiếng Việt cho các bạn khiếm thị . Hi vọng sẽ giúp ích cho các bạn trong quá trình học tập và làm việc.

Tính năng chính của phần mềm NHMTTS SAPI5 Application đó là đọc văn bản dạng chữ ra âm thanh. Tuy nó vẫn còn một số thiếu sót ở những ký tự lạ, các dấu gạch ngang, nhưng nếu so sánh với ứng dụng đọc trên Google hiện có thì nó vượt trội hơn nhiều, bởi vì phần mềm này không giới hạn số lượng ký tự cần đọc như ở Google Dịch. Hơn nữa, với giao diện đơn giản, hoạt động nhẹ nhàng, không chiếm dụng nhiều tài nguyên máy tính khi sử dụng cũng là một ưu điểm của phần mềm này.

1/ Download phần mềm NHMTTS SAPI5 Application

Trang chủ: www.vnspeech.com

NHMTTS-SAPI5-Engine-40-Full-Setup.exe – Tải về (dung lượng 13 MB)Hoặc: chúng tôi – Tải về (dung lượng 13 MB)

2/ Cài đặt phần mềm NHMTTS SAPI5 Application

data-full-width-responsive=”true”

+ Bước 6: Tại giao diện chính của phần mềm bạn có thể nhấn vào Voices Config để cấu hình về giọng đọc. Bạn có thể thiết lập như sau:

Chọn NHMTTS Voice ( Male): Nếu bạn muốn nghe giọng đọc là Nam.

Chọn NHMTTS Voice (Female): Nếu bạn muốn nghe giọng đọc là Nữ.

Note: Ngoài ra, bạn có thể chọn Voice thích hợp để đọc văn bản khác Tiếng Việt có trong danh sách Non-VN Voice.

+ Bước 7: Ở giao diện chính bạn có thể di chuyển thanh trượt Rate để tăng hoặc giảm tốc độ đọc của phần mềm. Okey, và bây giờ thì bạn có thể copy văn bản/tài liệu mà bạn muốn nghe rồi Paste vào khung nhập văn bản để phần mềm thực hiện nhiệm vụ đọc của nó.

4/ Đọc văn bản Tiếng Việt với Google Dịch

Chọn ngôn ngữ nhập là Vietnamese.

Nhấn vào biểu tượng Listen để Google đọc đoạn văn bạn đã nhập vào.

Cộng tác viên: Lương Trung

Phần Mềm Chuyển Giọng Nói Thành Văn Bản Tiếng Việt Trên Máy Tính Laptop Pc

Cách soạn thảo văn bản bằng bàn phím thường khá tốn nhiều thời gian và nếu như bạn ngồi đánh máy quá lâu sẽ khiến ngón tay bị tê cứng lại. Nhưng nếu bạn dùng giọng nói của mình chuyển thành văn bản tiếng việt với tốc độ nhanh và công việc đạt được hiệu suất cao hơn. Nếu như muốn tiết kiệm thời gian và rảnh tay để giải quyết việc khác, các bạn có thể sử dụng phần mềm chuyển giọng nói thành văn bản tiếng việt trên máy tính qua bài viết dưới đây nhé.

1. Phần mềm Gboard

Gboard hỗ trợ hơn 120 ngôn ngữ khác nhau và đã được tích hợp ở khá nhiều tính năng mạnh mẽ như là nhập liệu bằng giọng nói, biểu tượng cảm xúc, tìm kiếm ảnh động và dịch thuật nội dung tin nhắn ở ngay trên bàn phím… Đặc biệt ứng dụng nhập văn bản bằng giọng nói ở trên máy tính này còn cho phép người dùng có thể nhập văn bản chỉ bằng một lướt ngón tay thì bạn đã chuyển từ chữ cái này sang chữ cái khác.

Khả năng nhận diện giọng nói ( tiếng việt ) của phần mềm Gboard khá là tốt, nội dung thể hiện rõ ràng và thường bị ít sai chính tả.

2. Phần mềm Laban key

3. Phần mềm ListNote Speech-to-Text Notes

Thay vì gõ phím, bạn có thể tận dụng phần mềm chuyển lời nói trở thành văn bản. So với những ứng dụng khác, ListNote Speech-to-Text Notes tương đối dễ sử dụng và mọi dữ liệu đều đã được lập chỉ mục nên việc tìm kiếm diễn ra khá nhanh… Nếu muốn bảo vệ tập tin của bạn khỏi con mắt tò mò của người khác và bạn có thể đặt mật khẩu hoặc là mã hóa nội dung theo tiêu chuẩn AES.

Tham khảo thêm phần mềm gõ 10 ngón tiếng việt miễn phí

4. Phần mềm Voice Text

Voice Text cho phép các bạn có thể gửi và nhận bằng giọng nói, nhập văn bản mà không cần phải chạm vào điện thoại. Dự đoán nội dung, thực hiện cuộc gọi bằng giọng nói và chuyển giọng nói thành văn bản ở trên máy tính

5. Ứng dụng Google Docs

Bên cạnh việc sử dụng giọng nói để tìm kiếm thì Google còn áp dụng nó vào soạn thảo văn bản. Với tính năng sẽ giúp các bạn không cần phải mất công nhập từng kí tự và khả năng nhận diện của Google cũng rất là chính xác đến từng câu chữ, dấu chấm và dấu phẩy một.

Để sử dụng được tính năng văn bản bằng giọng nói và chuyển giọng nói thành văn bản ở trên máy tính này thì bạn phải sử dụng ứng dụng có tên là Google Docs. Ứng dụng này có giao diện hoàn toàn giống như ứng dụng của Microsoft Word, chính vì thế mà cách sử dụng của nó rất dễ dàng.

Đầu tiên, bạn hãy truy cập vào trang web và đăng nhập vào tài khoản Google của mình. Chọn vào mục công cụ như hình rồi sau đó chọn mục Nhập bằng giọng nói . Từ đó bạn có thể mở nhanh công cụ này chỉ bằng tổ hợp phím Ctrl + Shift + S . Ngay sau đó, biểu tượng microphone sẽ xuất hiện thì hãy nhấn vào nó .

Một pop-up thông báo xuất hiện xin được cấp quyền truy cập microphone của máy tính laptop, rồi chọn vào Cho phép . Bây giờ các bạn chỉ việc đọc văn bản cần phải nhập vào, Google Docs sẽ nhận diện cực kỳ là chính xác và được hỗ trợ đầy đủ Tiếng việt.

Bây giờ thì các bạn chỉ cần nói những chữ cần nhập vào văn bản. Ngoài Tiếng Việt ra, ứng dụng Google Docs còn hỗ trợ hơn 40 thứ tiếng khác nhau và các bạn có thể lựa chọn ngay tại phần ở trên của biểu tượng Microphone.

Các bạn tham khảo thêm các phần mềm nhắc việc trên máy tính bằng tiếng việt

Hệ thống Laptop cũ Đà Nẵng Techcare

Địa chỉ hệ thống :

Cơ sở 1 : 133-135 Hàm Nghi, Đà Nẵng

Cơ sở 2 : 99-101 Hàm Nghi, Đà Nẵng

Cơ sở 3 : 50 Nguyễn Văn Thoại, Đà Nẵng

Hotline : 02363.663.333

Cập nhật thông tin chi tiết về Phần Mềm Nhận Dạng Văn Bản Tiếng Việt trên website Bac.edu.vn. Hy vọng nội dung bài viết sẽ đáp ứng được nhu cầu của bạn, chúng tôi sẽ thường xuyên cập nhật mới nội dung để bạn nhận được thông tin nhanh chóng và chính xác nhất. Chúc bạn một ngày tốt lành!