Trích nội dung văn bản từ hình ảnh với dịch vụ miễn phí

Thandieu2

Thần Điêu
Đôi khi bạn nhận được một file ảnh có chứa đoạn nội dung văn bản cần sử dụng. Cách thức thường dùng nhất đó là… gõ lại đoạn nội dung cần trích xuất. Việc này mất khá nhiều thời gian và công sức. Trong trường hợp này, hãy thử nhờ đến Free OCR.

Chắc hẳn không ít lần bạn tìm thấy hoặc nhận được những file ảnh chụp lại nội dung của một trang web hoặc file ảnh scan từ một quyển sách… có chứa những nội dung quan trọng hoặc cần thiết cần sử dụng.

Có rất nhiều phần mềm khác nhau có chức năng cho phép trích xuất nội dung văn bản chứa trong hình ảnh. Tuy nhiên, các phần mềm có chức năng trên mà hỗ trợ tiếng Việt không phải là nhiều, thậm chí có thể nói là rất hiếm.

Free OCR là dịch vụ trực tuyến hoàn toàn miễn phí, cho phép nhận dạng và trích xuất đoạn văn bản có chứa trong một hình ảnh bất kỳ, để sau đó bạn có thể dễ dàng sử dụng hoặc chỉnh sửa nội dung của đoạn văn bản vừa trích xuất được.

Free OCR hỗ trợ các định dạng ảnh thông dụng JPG, GIF, TIFF, BMP. Mỗi file có dung lượng tối đa 2MB, và hỗ trợ nhiều ngôn ngữ, trong đó có cả tiếng Việt. Hạn chế duy nhất của dịch vụ này đó là bạn chỉ được phép sử dụng dịch vụ 10 lần trong 1 tiếng.

Đặc biệt, ngoài định dạng hình ảnh, Free OCR còn hỗ trợ trích xuất nội dung từ file PDF, điều này đồng nghĩa với với bạn có thể chuyển đổi và trích xuất nội dung từ file PDF để sử dụng và chỉnh sửa.

Bạn truy cập vào địa chỉ https://www.free-ocr.com/ để sử dụng dịch vụ này.

Sau khi truy cập vào trang web, tại mục ‘Upload image for OCR’ nhấn nút Browser, tìm đến file ảnh (hoặc file PDF) cần trích xuất nội dung. Tại mục Language, bạn chọn ngôn ngữ của đoạn nội dung cần trích xuất từ hình ảnh (hoặc file PDF). Trong trường hợp đó là tiếng Việt, bạn chọn Vietnamese.

Điền đoạn mã xác nhận bên dưới, và nhấn nút Send File để bắt đầu upload hình ảnh và dịch vụ bắt đầu quá trình nhận dạng và trích xuất đoạn văn bản có bên trong.

free-ocr-1.jpg


Sau khi quá trình trích xuất nội dung kết thúc, kết quả sẽ được hiển thị ở phần trên của Website.

Ví dụ, chúng ta tiến hành trích xuất nội dung từ hình ảnh dưới đây:


free-ocr-2.jpg


Sẽ được kết quả như dưới đây:

free-ocr-3.jpg


Mặc dù kết quả không thực sự hoàn hảo, tuy nhiên, với một dịch vụ miễn phí, kèm với đó là sự phức tạp của các ký tự tiếng Việt, thì việc trích xuất nội dung như Free OCR làm được có thể xem là chấp nhận được, với số lỗi mắc phải không quá nhiều.

Ngược lại, trong trường hợp trích xuất nội dung từ file PDF, Free OCR làm rất tốt công việc, với số lỗi gặp phải rất ít, đôi khi là không có.

free-ocr-4.jpg


Kết quả trích xuất nội dung từ file PDF.

Lưu ý: Với file PDF, dịch vụ chỉ cho phép trích xuất nội dung của trang đầu tiên có trong file. Do vậy, nếu file PDF có nhiều trang, bạn có thể sử dụng PDF Tools để cắt file ra làm nhiều trang, rồi lần lượt sử dụng Free OCR cho từng trang để trích xuất nội dung.

Trong trường hợp hình ảnh chứa nội dung tiếng Anh, kết quả trích xuất nội dung rất hoàn hảo và hầu như không có một lỗi nào gặp phải.

Sau khi nội dung đã trích xuất được, bạn có thể copy và dán đoạn nội dung có được vào một trình soạn thảo văn bản, để lưu chúng thành file văn bản, hoặc chỉnh sửa và trích xuất nội dung có trong đó theo ý muốn.

Lưu ý: Như trên đã đề cập, Free OCR chỉ cho phép sử dụng 10 lần trong mỗi giờ. Trong trường hợp đã hết số lần sử dụng, bạn có thể chuyển qua một trình duyệt web khác, truy cập vào Free OCR để tiếp tục sử dụng như bình thường.

Phạm Thế Quang Huy
Nguồn: DanTri
 

VnKienthuc lúc này

Không có thành viên trực tuyến.

Định hướng

Diễn đàn VnKienthuc.com là nơi thảo luận và chia sẻ về mọi kiến thức hữu ích trong học tập và cuộc sống, khởi nghiệp, kinh doanh,...
Top