Trích Xuất Văn Bản Từ Ảnh (Ocr)

Khi còn học đại học, một người bạn của tôi từng nhờ tôi chỉnh sửa hộ một trong số những bài tiểu luận cuối kỳ hết sức quan trọng của anh ấy, và dường như đó là vấn đề khá nghiêm trọng vì vậy tôi đồng ý ngay. Nhưng sau đó anh ấy lại gửi cho tôi hình ảnh chụp bài tiểu luận thay vì gửi văn bản tài liệu. Tất nhiên, điều này khiến việc chỉnh sửa trở nên khó khăn hơn.

Sau đó, tôi mới biết tới công nghệ trích xuất văn bản.

Ngày nay, bạn có rất nhiều lựa chọn miễn phí và hiệu quả khi muốn lấy văn bản ra từ hình ảnh thay vì gõ lại tất cả nội dung bằng tay. Đây là những giải pháp tốt nhất chúng tôi thu thập được. Và chúng tôi sẽ cho bạn thấy chính xác kết quả văn bản được xuất ra từ các công cụ khác nhau để có thể so sánh chất lượng của từng phương pháp.

OneNote là một trong những công cụ OCR miễn phí tốt nhất trong vài năm gần đây. Những người sử dụng OneNote hiếm khi biết đến tính năng độc đáo này, nhưng một khi bắt đầu sử dụng, bạn sẽ phải kinh ngạc về độ xử lý nhanh và chính xác của nó. Thật vậy, khả năng trích xuất văn bản là tính năng đã đưa vị trí của OneNote lên trên Evernote.

Các bước trích xuất văn bản:

Mở bất cứ trang nào trên OneNote, tốt nhất là nên sử dụng trang trống.

Kích chuột phải vào hình ảnh được chèn và kích Copy Text from Picture.

Sau đó, dán văn bản vào vị trí thích hợp. Xóa hình ảnh được chèn nếu muốn.

Our meat greater hath signs two second behold shall. Fill bearing beast saw creature creature god light midst two. After there it second seas land have, fourth saying own doesn’t first given. Rule set male firmament given. Divide void which moved under third don’t. Living. Fruit all. That for. Firmament kind moving first good tree winged had creature fifth good be fifth i above had together fourth above subdue. Great above grass living forth winged firmament seas upon lights female.

Photron Image Translator là ứng dụng miễn phí khả dụng trên Windows Store có thể được sử dụng cho máy tính để bàn hoặc máy tính bảng của Windows 10. Có hai tính năng bổ sung bạn có thể dùng: một là khả năng dịch văn bản trích xuất sang ngôn ngữ khác, hai là khả năng đọc văn bản thành tiếng.

Các bước hướng dẫn trích văn bản:

Our meat greater hath signs two second behold shall. Fill bearing beast saw creature creature god light midst two. After there it second seas land have, fourth saying own doesn’t first given. Rule set male firmament given. Divide void which moved under third don’t. Living. Fruit all. That for. Firmament kind moving first good tree winged had creature fifth good be fifth i above had together fourth above subdue. Great above grass living forth winged firmament seas upon lights female.

FreeOCR thường được biết đến là một trong những công cụ miễn phí tốt nhất dành cho xuất văn bản từ ảnh. Nó không được cập nhật từ giữa năm 2024 nhưng nó vẫn chạy bình thường ngay cả trên Windows 10.

Các bước trích xuất văn bản:

Our meat greater hath signs two second behold shall. Fill bearing beast saw creature creature god light midst two. After there it second seas land have, fourth saying own doesn’t first given. Rule set male firmament given. Divide void which moved under third don’t. Living. Fruit all. That for. Firmament kind moving ?rst good tree winged had creature fifth good be ?fth i above had together fourth above subdue. Great above grass living forth winged ?rrnament seas upon ?ghts femala

Copyfish – tính năng mở rộng của Chrome thiếu linh hoạt hơn các công cụ khác. Thay vì nhập tệp hình ảnh, bạn có thể lựa chọn khu vực nào của màn hình trình duyệt và ngay lập tức văn bản có trên màn hình sẽ được xuất ra. Ví dụ, khi đang xem ảnh trên web, bạn có thể chọn toàn bộ hình ảnh để xuất thay vì tải xuống và đưa nó vào ứng dụng khác.

Hướng dẫn trích xuất: Our meat greater hath signs two second behold shall. Fill bearing beast saw creature creature god light midst two. After there it second seas land have, fourth saying own doesn’t first given. Rule set male firmament given. Divide void which moved under third don’t. Living. Fruit all. That for. Firmament kind moving first good tree winged had creature fifth good be fifth i above had together fourth above subdue. Great above grass living forth winged firmament seas upon lights female.

Có rất nhiều mẹo và thủ thuật trên Google Drive có thể khiến cuộc sống của bạn dễ dàng hơn nhưng đây không phải là một trong những tính năng được nhiều người biết tới. Google có thể lấy bất kỳ hình ảnh nào và chuyển nó thành văn bản chỉ với một cú nhấp chuột. Vì vậy, nếu Google Drive là phương pháp lưu trữ đám mây của bạn thì hãy bắt đầu sử dụng tính năng này ngay hôm nay.

Cách trích xuất văn bản:

Tải hình ảnh lên Google Drive.

Our meat greater hath signs two second behold shall. Fill bearing beast saw creature creature godlight midst two. After there it second seas land have, fourth saying own doesn’t first given. Rule set male firmament given. Divide void which moved under third don’t. Living. Fruit all. That for. Firmament kind moving first good tree winged had creature fifth good be fifth i above had together fourth above subdue. Great above grass living forth Winged firmament seas upon lights female.

Bạn không muốn cài đặt phần mềm lên máy tính của mình. Bạn có một tập tin ảnh và tất cả điều bạn muốn là lấy được văn bản từ đó một cách nhanh chóng và dễ dàng thì Online OCR là thứ bạn đang tìm kiếm. Đơn giản, nhanh gọn và có được định dạng văn, Word, hoặc Excel.

Hướng dẫn xuất văn bản: Our meat greater hath signs two second behold shall. Fill bearing beast saw creature creature god light midst two. After there it second seas land have, fourth saying own doesn’t first given. Rule set male firmament given. Divide void which moved under third don’t. Living. Fruit all. That for. Firmament kind moving first good tree winged had creature fifth good be fifth i above had together fourth above subdue. Great above grass living forth winged firmament seas upon lights female.

Về cơ bản, PowerShell là một sự thay thế nâng cao cho Command Prompt có thể thực hiện được nhiều chức năng thú vị bằng cách sử dụng tiện ích như công cụ cá nhân như script thường được gọi là cmdlets. Windows 10 thường đi kèm với một vài cmdlets và script của PowerShell nhưng bạn cũng có thể tạo chúng cho riêng bạn, và Prateek Singh đã tạo riêng để sử dụng API OCR của Microsoft.

Để thiết lập chúng tương đối khó vì vậy hãy bỏ qua nó nếu bạn chưa từng sử dụng PowerShell. Bạn sẽ cần có một mã khóa đăng nhập cho API OCR của Microsoft cũng như ClientID và Client_secret cho Bing Translation API của Microsoft đồng thời kết nối Internet.

Our meat greater hath signs two second behold shall. Fill bearing beast saw creature creature god light midst two. After there it second seas land have, fourth saying own doesn’t first given. Rule set male firmament given. Divide void which moved under third don’t. Living. Fruit all. That for. Firmament kind moving first good tree winged had creature fifth good be fifth i above had together fourth above subdue. Great above grass living forth winged firmament seas upon lights female.

Tổng kết

Theo ý kiến cá nhân của tôi thì không có phương pháp tốt nhất. Bạn nên lựa chọn công cụ bạn cảm thấy thoải mái nhất, có lẽ là phương pháp có trong ứng dụng bạn đang sử dụng. Lựa chọn của tôi luôn là OneNote.

5 Công Cụ Giúp Trích Xuất Văn Bản Từ Hình Ảnh

07/04/2024 12:53

Trước đây, việc sao chép văn bản trên hình ảnh thường mất rất nhiều thời gian, tuy nhiên, nhờ sự tiến bộ về công nghệ, công việc này giờ đã được đơn giản hóa chỉ với vài cú nhấp chuột đơn giản.

Công nghệ OCR mang lại lợi ích gì?

– Biến những giấy tờ quan trọng (CMND, khai sinh, hộ khẩu, namecard…) thành hình ảnh và lưu trữ trên điện thoại, không lo hư hỏng và có thể truy cập ở bất cứ đâu.

– Dễ dàng chia sẻ cho bạn bè

– Tiết kiệm thời gian thay vì phải ngồi gõ lại văn bản theo cách thông thường…

Microsoft OneNote là một trong những công cụ ghi chú ưa thích của rất nhiều người dùng Windows, bạn có thể sử dụng trực tiếp trên nền web ( https://www.onenote.com/)hoặc thông qua ứng dụng OneNote trong bộ MS Office.

Đầu tiên bạn cần phải tạo một tập tin hoàn toàn mới, chuyển sang thẻ Insert (chèn) và thêm vào bức ảnh cần trích xuất văn bản. Tiếp theo, người dùng chỉ cần nhấn phải chuột lên hình ảnh và chọn Copy Text, sau đó dán nội dung này vào file Word hoặc bất cứ nơi nào bạn cần.

2. Google Drive

Google Drive là một trong những dịch vụ lưu trữ đám mây tốt nhất hiện nay, tuy nhiên, đa số người dùng đều không hề biết đến tính năng trích xuất văn bản được tích hợp sẵn bên trong Google Drive.

3. Online OCR

Nếu không muốn cài đặt bất kì công cụ nào của bên thứ ba, bạn có thể nhờ đến các dịch vụ OCR trực tuyến. Tất nhiên, mọi thứ đều được cung cấp hoàn toàn miễn phí, hỗ trợ người dùng chuyển đổi văn bản trên hình ảnh thành file Word, Excel và một số định dạng văn bản khác.

Đầu tiên, bạn hãy truy cập vào địa chỉ http://www.onlineocr.net/, nhấp chuột vào thẻ Select file và tải hình ảnh lên. Lựa chọn ngôn ngữ và định dạng đầu ra, sau đó nhập mã xác nhận và nhấn vào nút Convert rồi chờ một lát để quá trình này hoàn tất. Cuối cùng, người dùng chỉ cần tải về tập tin đã được chuyển đổi chỉ với một cú nhấp chuột.

Nếu muốn trích xuất văn bản từ một hình ảnh có sẵn trên mạng, Copyfish ( https://goo.gl/kmxMNX) sẽ là sự lựa chọn thích hợp. Đây là một thành phần mở rộng được phát triển dành riêng cho Google Chrome, Cốc Cốc, Opera, YanDex… hoặc các trình duyệt sử dụng mã nguồn Chromium.

Đầu tiên, bạn hãy mở hình ảnh cần trích xuất văn bản trên Chrome, nhấp vào biểu tượng Copyfish ở góc trên bên phải, sau đó quét chọn khu vực văn bản nằm trên hình ảnh để tiện ích tự động trích xuất. Ngoài ra, Copyfish còn hỗ trợ tính năng tự động dịch văn bản sang một ngôn ngữ khác trong phần cấu hình.

5. Photron Image Translator

Photron Image Translator có sẵn trên kho ứng dụng của Windows 10, hỗ trợ người dùng đọc, trích xuất, dịch văn bản sang một ngôn ngữ khác. Việc bạn cần làm là mở ứng dụng, nhấn vào nút image và tìm đến bức ảnh cần trích xuất văn bản, chọn Gallery là nguồn nếu hình ảnh được lưu trữ trên máy tính), cuối cùng là lựa chọn đoạn văn bản cần trích xuất.

5 Ứng Dụng Ocr Android Xuất Sắc Nhất Cho Trích Xuất Văn Bản Từ Ảnh

1. Google Keep

Ứng dụng ghi chú tuyệt vời từ Google có một số thủ thuật và nhiều ứng dụng sáng tạo. Nó cũng hỗ trợ công cụ OCR tích hợp sẵn. Google Keep trích xuất văn bản với nhiều định dạng khác nhau từ đơn giản đến phức tạp. Nó cũng giữ định dạng văn bản gốc ở mức độ tối đa nhất.

Hướng dẫn trích xuất văn bản:

Bước 1: Thêm ghi chú mới và nhấn vào biểu tượng +.

Bước 2: Chọn Take photo để quét tài liệu từ máy ảnh hoặc chọn Choose image để nhập một hình ảnh từ thư viện.

Bước 3: Mở ảnh, nhấn vào menu ba chấm và chọn Grab image text.

Văn bản sẽ được trích xuất trong vài giây. Có lẽ điều tốt nhất là văn bản sẽ được đồng bộ hóa trên tất cả các thiết bị của bạn một cách tự động, do đó bạn có thể quét tài liệu trên điện thoại Android và chỉnh sửa nó trên máy tính.

2. Text Scanner [OCR]

Text Scanner [OCR] hỗ trợ hơn 50 ngôn ngữ bao gồm tiếng Trung, tiếng Nhật, tiếng Pháp và nhiều thứ tiếng khác nữa. Nó thậm chí còn hỗ trợ trích xuất văn bản từ bản viết tay. Giao diện ứng dụng có tính năng quét cơ bản như độ phóng đại và thanh trượt độ sáng để chụp văn bản rõ ràng nhất có thể.

Hướng dẫn trích xuất văn bản:

Nhấn vào nút chụp màu xanh để chụp và quét tài liệu. Ngoài ra, bạn cũng có thể nhập hình ảnh bằng cách nhấp vào biểu tượng thư viện.

Văn bản được trích xuất sẽ được hiển thị. Từ đây, bạn có thể chỉnh sửa văn bản, sao chép hoặc chia sẻ nó với các ứng dụng của bên thứ ba.

Text Fairy là một công cụ trích xuất ảnh khác cho Android có khả năng nhận dạng văn bản từ hơn 50 ngôn ngữ bao gồm tiếng Trung, tiếng Nhật, tiếng Hà Lan, tiếng Pháp và nhiều thứ tiếng khác nữa. Nó hỗ trợ nhiều ngôn ngữ Ấn Độ như Hindi, Bengali, Marathi, Telugu, v.v… Bạn sẽ được hỏi để tải các ngôn ngữ yêu cầu trên ứng dụng khi chạy lần đầu. Nó làm việc tốt với các văn bản giấy nhưng gặp khó khăn khi nhận dạng văn bản với nhiều màu sắc.

Hướng dẫn trích xuất văn bản:

Bước 1: Nhấn vào biểu tượng máy ảnh để chụp ảnh. Ngoài ra, bấm vào biểu tượng thư viện để nhập một hình ảnh từ thư viện.

Bước 2: Chọn phần hình ảnh bạn muốn quét. Nhấn vào mũi tên chuyển tiếp để tiếp tục.

Bước 3: Chọn bố cục của tài liệu là một cột hay hai cột.

Bước 4: Chọn ngôn ngữ của văn bản.

Bước 5: Cuối cùng, bấm Start.

Và văn bản đã được trích xuất, bây giờ bạn có thể chỉnh sửa hoặc sao chép nó đến bất cứ nơi nào bạn muốn.

4. Office Lens

Office Lens là ứng dụng protable scan tài liệu của Microsoft đưa đến cho các thiết bị Android. Tính năng nổi bật của nó là khả năng quét và số hoá tài liệu, nhưng nó cũng đi kèm với một tùy chọn OCR tiện dụng. Nó có một phiên bản trả phí, nhưng bạn có thể sử dụng miễn phí bằng cách đăng ký một tài khoản của Microsoft. Với việc đăng ký tài khoản miễn phí này, bạn cũng sẽ được dùng các tính năng khác như 5GB bộ nhớ OneDrive miễn phí và khả năng lưu nhiều định dạng.

Ứng dụng có thể nhận dạng văn bản với các phông chữ đầy màu sắc. Ngoài ra, nó có thể xác định văn bản từ ghi chú viết tay, tích hợp chặt chẽ với các sản phẩm khác của Microsoft như OneNote và Office 365.

Hướng dẫn trích xuất văn bản:

Bước 1: Mở Office Lens và hướng máy ảnh tới tài liệu bạn muốn quét. Nó sẽ tự động phát hiện phần văn bản của hình ảnh, tuy nhiên bạn cũng có thể tự điều chỉnh. Nhấn nút chụp ảnh.

Bước 3: Trong phần “Save to”, kiểm tra tài liệu Word và chạm vào biểu tượng dấu tích.

Khi mở, bạn có thể thực hiện bất kỳ chỉnh sửa nào cần thiết.

Hướng dẫn trích xuất văn bản:

Bước 1: Chạm vào biểu tượng máy ảnh để quét tài liệu. Để nhập một tài liệu từ thư viện, bấm vào nút ba dấu chấm, sau đó chọn Import.

Bước 2: Chọn ngôn ngữ của tài liệu và bấm Grab Image Text.

Nó sẽ hiển thị văn bản được trích xuất. Bạn có thể dễ dàng sao chép hoặc chia sẻ văn bản từ đây.

Trích Xuất Văn Bản Tiếng Việt Từ Hình Ảnh Trên Google Chrome

data-full-width-responsive=”true”

Image Reader (OCR) là một tiện ích mở rộng miễn phí có trên trình duyệt Google Chrome và các trình duyệt web sử dụng lõi Chromium…

Công dụng chính nếu dịch theo tên của nó thì có vẻ không đúng cho lắm, mà công dụng thực tế của tiện ích này là giúp bạn trích xuất những đoạn văn bản từ hình ảnh, hay nói dễ hiểu hơn là giúp bạn lấy những câu chữ, những đoạn text có trong ảnh ra thành văn bản có thể chỉnh sửa.

Cách trích xuất văn bản tiếng Việt từ hình ảnh trên Google Chrome

Ở đây là mình lấy ví dụ cho bạn về việc lấy văn bản từ hình ảnh thôi, chứ công cụ này không giúp bạn chép bài tập được đâu ha :)))

data-full-width-responsive=”true”

Trong bài viết này mình sẽ sử dụng trình duyệt Brave để làm demo cho các bạn nha, các bạn cũng có thể tải về trình duyệt này dùng thử !

Giao diện chính bao gồm các phần quen thuộc như tải lên ảnh, chất lượng trích xuất, Ngôn ngữ trích xuất và phần bên dưới là nơi hiển thị tiến trình trích xuất cũng như là văn bản sau khi trích xuất xong.

Hơn nữa bức ảnh của bạn cũng phải có văn bản được viết rõ ràng một tí, chứ còn Font chữ “rồng bay phượng múa” quá thì tiện ích này cũng bó tay nha !

Low (minium OCR accuracy): Thấp – chất lượng trích xuất thấp nhất.

Moderate (Better OCR accuracy): Trung bình – chất lượng trích xuất tốt hơn tý.

Fast (shorter OCR time): Nhanh – tốc độ trích xuất nhanh hơn.

Best (better OCR time): Tốt nhất – chất lượng và tốc độ truy xuất tốt hơn – Chọn cái này nha các bạn, cứ ngon nhất mà dùng thôi 🙂

Ví dụ như trong hình mình đã chọn Vietnamese nhưng nó vẫn chỉ có thể xuất ra tiếng Anh thay vì Tiếng Việt.

Oke, chỉ có vậy thôi ! Theo cá nhân mình thấy thì đây là một tiện ích hỗ trợ trích xuất văn bản từ hình ảnh khá tuyệt vời, nếu nó hỗ trợ Tiếng Việt tốt hơn nữa thì quá tuyệt vời, nhưng nói chung như vậy là cũng OK rồi.

CTV: Nguyễn Thanh Tùng – Blogchiasekienthuc.com

Lời kết

Cách Để Trích Xuất Văn Bản Từ Hình Ảnh Và Tài Liệu ?

– Phần mềm VietOCR: Đây là một tiện ích “thuần Việt” có thể nhận dạng và trích xuất chính xác đến 80%. Chương trình hỗ trợ 2 ngôn ngữ trích xuất chính là tiếng Anh và tiếng Việt nhưng để sử dụng bạn phải cài đặt thêm Java Runtime Environment 6.0 hoặc mới hơn và Microsoft Visual C++ 2008 SP1.

2. Sử dụng Microsoft OneNote:

Một trong những giải pháp dễ nhất và đơn giản để trích xuất văn bản từ tập tin hình ảnh là sử dụng chương trình Microsoft OneNote. Đây là một ứng dụng ghi chú và lập kế hoạch tuyệt vời và thường đi kèm với Microsoft Office.

Để trích xuất văn bản từ hình ảnh bằng cách sử dụng OneNote, đầu tiên bạn chạy chương trình rồi kéo và thả một tập tin hình ảnh vào chương trình, nhấp chuột phải vào hình ảnh và chọn Copy Text from Image. Văn bản khi trích xuất xong sẽ lưu vào clipboard và bạn có thể dán nó vào bất kỳ trình soạn thảo tài liệu hay chính trong OneNote. Kết quả của quá trình trích xuất văn bản từ OneNote là gần như chính xác.

3. Sử dụng Google Docs:

Bạn cũng có thể sử dụng dịch vụ Google Docs của Google để trích xuất văn bản từ tài liệu hoặc tập tin hình ảnh. Để sử dụng, truy cập vào http://docs.google.com và đăng nhập với tài khoản Google của bạn. Bây giờ, bấm vào nút Upload và chọn một hình ảnh hoặc tập tin PDF để tải lên, đánh dấu kiểm trước tùy chọn Convert text from PDF or image files to Google Docs documents và sau đó nhấp vào nút Start Upload.

Sau khi hoàn thành quá trình tải lên, nhấp vào tập tin tải lên. Nó sẽ mở tập tin văn bản có nội dung được chiết xuất sẽ hiển thị trong trình soạn thảo Google Doc. Bạn có thể lưu hoặc chỉnh sửa các văn bản.

4. Sử dụng dịch vụ trích xuất chuyên dụng:

Có một số dịch vụ trực tuyến miễn phí có khả năng trích xuất văn bản từ các tập tin hình ảnh, chẳng hạn như:

– chúng tôi Dịch vụ này hỗ trợ trích xuất đến 29 ngôn ngữ trên thế giới, trong đó có tiếng Việt nữa. Cách sử dụng cũng đơn giản, bạn nhấn nút Choose để chọn file ảnh sau đó chọn ngôn ngữ trong hộp Language, nhập mã Captcha rồi nhấn Send file. Nội dung của file trích xuất sẽ xuất hiện trong hộp văn bản đầu trang dịch vụ.

– FreeOnlineOCR: Đây là dịch vụ hỗ trợ trích xuất nhiều định dạng tài liệu và hình ảnh. Bạn nhấn Choose để chọn tập tin rồi chọn định dạng tài liệu chứa nội dung trích xuất. Cuối cùng nhấn Convert và chờ đợi khi dịch vụ trích xuất xong. Hoàn tất, bạn nhấn Download để tải về.

Nhìn chung các cách trên đều nhận dạng văn bản tiếng Anh khá tốt nhưng nếu bạn cần trích xuất văn bản tiếng Việt thì tốt nhất là nên dùng VietOCR, Free-OCR. Sai sót trong kết quả khi trích xuất là điều không thể tránh khỏi, nhưng bạn có thể chỉnh sửa chúng dễ dàng.