Cách nhận dạng văn bản bằng ABBYY FineReader: hướng dẫn từng bước. Sửa lỗi quét trong ABBYY Finereader Abbyy Finereader cách sử dụng chương trình

Như vậy là chúng ta đã cài đặt FineReader trên máy tính của mình. Chúng tôi bật máy quét và số hóa một số tài liệu nhiều trang. Hãy gọi nó một cách có điều kiện là "Thỏa thuận".

Đặt trang đầu tiên của tài liệu lên kính máy quét và đóng nắp lại. Khởi chạy chương trình FineReader. Nhấp vào nút “Quét” hoặc nhấn tổ hợp “Ctrl + K”. Cửa sổ "Quét ABBYY FineReader" sẽ mở ra. Khi số hóa một trang văn bản thông thường được gõ bằng phông chữ 11-12 point, hãy để cài đặt mặc định trong cửa sổ và nhấp vào nút “Xem”.

Máy quét hoạt động và sau vài giây, chúng tôi thấy trang của mình trong cửa sổ xem. Tại đây chúng ta có thể thay đổi kích thước quét nếu cần thiết. Và sau đó nhấp vào nút "Quét".

FineReader bắt đầu quá trình nhận dạng văn bản và trong vòng một phút, hình ảnh trang sẽ mở ra trong cửa sổ chương trình. Phía bên phải của cửa sổ bây giờ được chia thành ba phần. Ở phần bên trái "Hình ảnh" chúng ta có thể chỉnh sửa hình ảnh. Bạn có thể đọc thêm về chỉnh sửa hình ảnh trong bài học: Scan sách. Ở phần bên phải "Văn bản", bạn có thể thực hiện các thay đổi đối với văn bản ngay lập tức - chỉnh sửa nội dung của trang ngay cả trước khi lưu nó. Điều này rất thuận tiện khi bạn cần, ví dụ, nhanh chóng thay đổi ngày tháng, chi tiết và họ trong tài liệu.

Biểu tượng của trang được nhận dạng sẽ xuất hiện ở phần bên trái của cửa sổ “Trang”:

Nếu bạn không cần chỉnh sửa bất cứ điều gì, hãy thay trang đầu tiên trên kính máy quét bằng trang thứ hai và lặp lại công nghệ. Sau khi điều chỉnh kích thước quét một lần trong cửa sổ "ABBBYY FineReader Scanning" ở chế độ "Xem trước" cho trang đầu tiên, bây giờ hãy nhấp ngay vào nút "Quét". Cài đặt cho trang đầu tiên sẽ được lưu và các trang tiếp theo sẽ được quét mà không cần xem trước. Vì vậy, chúng tôi quét tất cả các trang trong tài liệu của chúng tôi.

Chúng tôi đã hoàn thành và bây giờ, bằng cách nhấp vào từng biểu tượng, chúng tôi sẽ mở các trang, kiểm tra trình tự chính xác của chúng.

Sau đó, ở phần bên trái của cửa sổ “Trang”, chọn tất cả các biểu tượng bằng nút: “Chỉnh sửa – Chọn tất cả” hoặc bằng phím tắt: “Ctrl + A”. Sau đó, trong danh sách thả xuống bên cạnh nút “Lưu”, chọn lệnh: “Lưu dưới dạng tài liệu PDF”:


Bây giờ hãy nhấp vào nút đó và lưu tài liệu có tên “Thỏa thuận.pdf” trong thư mục “Thỏa thuận”:


Kết quả là chúng tôi nhận được một tài liệu văn bản nhiều trang ở định dạng pdf - phiên bản điện tử của tài liệu của chúng tôi với tên mã “Thỏa thuận”.

Vì vậy, chúng tôi số hóa tài liệu văn bản bằng FineReader.

Bằng cách thay đổi chế độ quét thành “màu” trong cửa sổ “Quét ABBYY FineReader”, chúng ta cũng có thể dễ dàng số hóa ảnh và ảnh màu.

Và bằng cách cài đặt trong menu ngữ cảnh, chẳng hạn như lệnh: “Lưu dưới dạng tài liệu Microsoft Word 2007”, chúng tôi sẽ chuyển dự án của mình thành một tài liệu Word nhiều trang có thể chỉnh sửa.

Nhìn chung, chương trình dễ hiểu, trực quan và có các mẹo bật lên ở mọi nơi.

Cuộc trò chuyện sẽ nói về chương trình ABBYY FineReader 12, tức là về phiên bản mới nhất của chương trình này. Không cần tìm đâu xa, chúng tôi đã chọn sản phẩm nổi tiếng nhất của ABBYY, sản phẩm được Nga hóa hoàn toàn về mặt giá trị. Ngay từ cái nhìn đầu tiên, Fine Reader (FR) đã tạo ấn tượng về một chương trình có hỗ trợ tiếng Nga tốt: về mặt này, thực sự, mọi thứ đều được thực hiện ở mức rất tốt, bao gồm cả thông tin cơ bản.

Đầu tiên - rút lui. Câu hỏi về cách chuyển đổi tất cả hoặc một phần của kho lưu trữ sang định dạng kỹ thuật số luôn có liên quan (và trên thực tế, từ “kỹ thuật số” có nghĩa là gì). Mua một máy quét không thể giải quyết được mọi vấn đề. Tất nhiên, tài liệu dành cho máy quét thường đi kèm với một hoặc nhiều đĩa có phần mềm độc quyền. Tuy nhiên, đã ở giai đoạn dọn dẹp, hóa ra chất lượng của chương trình quét còn nhiều điều chưa được mong muốn hoặc rất tiếc là định dạng lưu trữ diễn ra không phù hợp để lưu trữ. Tại sao? Hầu hết các định dạng đồ họa không tách văn bản khỏi không gian phi văn bản của tài liệu và do đó không thể sao chép bất kỳ đoạn văn nào từ một tệp như vậy.

Trong những trường hợp như vậy, các chương trình nhận dạng văn bản chức năng sẽ ra tay giải cứu, đặc biệt, khả năng của chúng bao gồm trích xuất văn bản từ hình ảnh.

Làm quen với ABBYY FineReader

Túi nhựa ABBYY Finereader 12- Hệ thống nhận dạng ký tự quang học (OCR). Được thiết kế cho cả việc tự động nhập tài liệu in vào máy tính và chuyển đổi tài liệu PDF và ảnh sang các định dạng có thể chỉnh sửa (từ hướng dẫn chương trình)

Từ viết tắt "OCR" có thể áp dụng cho tất cả các ứng dụng nhận dạng dữ liệu (không chỉ văn bản). Nguồn trích xuất dữ liệu có thể là tài liệu in hoặc tài liệu điện tử. Ngày xửa ngày xưa, cách đây không lâu, rất ít người biết về OCR, ở dạng này hay dạng khác, và quá trình chuyển đổi văn bản sang dạng điện tử đã trở thành một công việc đơn thuần, thậm chí là in lại văn bản gốc theo cách thủ công. Ngày nay, việc có máy quét hình phẳng (chỉ một số ít sử dụng máy quét thủ công ở nhà) và máy đọc tốt 12- hãy yên tâm rằng sẽ không có khó khăn gì trong việc quét và nhận dạng.

Bắt đầu từ phiên bản thứ sáu, FineReader hỗ trợ nhập và xuất sang định dạng PDF, được Adobe cấp bằng sáng chế. Nhiều độc giả có thể đã gặp khó khăn khi dịch từ định dạng này sang bất kỳ định dạng nào khác (doc, v.v.), vì không có nhiều chương trình thực sự hữu ích trong lĩnh vực này (chương trình duy nhất đáng chú ý là sản phẩm phụ của ABBYY, PDF Transformer). Thực tế là các chương trình như vậy chỉ thực hiện nhận dạng văn bản một lần, do đó "danh tính" của kết quả hoàn toàn không đáng kể (tùy thuộc vào độ phức tạp của tài liệu), cộng với việc định dạng tài liệu bị mất khá nhiều.

Trong trường hợp của FineReader, mọi thứ đều khác. Phiên bản thứ chín của chương trình giới thiệu một công nghệ có tên Document OCR. Nó dựa trên nguyên tắc nhận dạng tài liệu trọn vẹn: nó được phân tích và công nhận dưới dạng một tổng thể duy nhất chứ không phải từng trang. Đồng thời, tất cả các loại cột, tiêu đề, phông chữ, kiểu dáng, chú thích cuối trang và hình ảnh vẫn được giữ nguyên hoặc được thay thế bằng những thứ gần giống với bản gốc.

Cài đặt gói

Phiên bản demo của Finereader 12 có thể được tải xuống trên trang web Abbyy.ru, trong phần Tải xuống, phiên bản được cấp phép đầy đủ được phân phối trên đĩa CD. Bạn có thể tìm hiểu về các phương thức mua hàng trên cùng một trang web trong phần “Mua”.

Trên trang web dành cho nhà phát triển ABBYY, bạn có thể tải xuống phiên bản demo của gói ABBYY FineReader phiên bản 12 (hoặc phiên bản khác hiện có)

ABBYY FineReader được phân phối với nhiều phiên bản: Professional Edition, Corporate Edition, Site License Edition, v.v. Sự khác biệt giữa phiên bản Professional và các phiên bản khác là nó được thiết kế để hoạt động trong mạng công ty với khả năng cộng tác nhận dạng tài liệu. Mặt khác, sự khác biệt là không đáng kể và phụ thuộc vào việc lựa chọn các điều khoản của thỏa thuận cấp phép.

Thật khó để tưởng tượng rằng 12 năm trước đã có FineReader 2.0, chiếm khoảng 10 MB dung lượng ổ đĩa. Theo thời gian, gói đã tăng gấp 10 lần và hiện tại khi cài đặt sẽ chiếm tới 300 MB. Nhiều hay ít - hãy tự đánh giá. FR mới hỗ trợ 179 ngôn ngữ nhận dạng, bao gồm các ngôn ngữ nhân tạo ít được biết đến (Ido, Interlingua, Occidental và Esperanto), ngôn ngữ lập trình, công thức, v.v. Đừng quên hỗ trợ cho các định dạng và tập lệnh khác nhau. Vì vậy, nếu vì lý do nào đó bạn muốn giới hạn dung lượng mà một gói chiếm, trong quá trình cài đặt, chỉ chọn những thành phần cần thiết trong quá trình hoạt động.

Việc lựa chọn các thành phần ảnh hưởng đến thời gian cài đặt, tuy nhiên, sẽ không mất nhiều thời gian. Trong quá trình cài đặt bạn sẽ được giới thiệu những tính năng chính của FR. Sau khi kích hoạt (qua Internet, qua E-mail, sử dụng mã nhận được, v.v.), chương trình đã sẵn sàng hoạt động với đầy đủ chức năng. Trong chế độ demo, bạn chắc chắn sẽ gặp phải nhiều hạn chế khác nhau, rất tiếc là không cho phép bạn sử dụng đầy đủ gói.

Giao diện FineReader. Chức năng

Quyền truy cập vào các khả năng của chương trình có sẵn thông qua các tập lệnh sẽ xuất hiện trong menu chính ngay sau quá trình cài đặt và trên thực tế, thông qua giao diện chính.


Trình bảo vệ màn hình khi khởi động FineReader

Giao diện của chương trình không trải qua bất kỳ thay đổi đáng kể nào từ phiên bản này sang phiên bản khác: các nhà phát triển không thấy mục đích của việc thay đổi nó một cách triệt để. Sự chú ý đáng kể được dành cho công thái học, điều này có thể nhận thấy rõ trong tất cả các sản phẩm của ABBYY (Lingvo, PDF Transformer, FlexiCapture...). Nói cách khác, giao diện Fine Reader 12 được chăm chút kỹ lưỡng và phù hợp với mọi người dùng, kể cả người mới bắt đầu. Nguyên tắc “Nhận kết quả chỉ bằng một cú nhấp chuột” sẽ hấp dẫn những người không quen với việc thiết lập và thay đổi thứ gì đó. Mặt khác, những người dùng có kinh nghiệm hơn có thể định cấu hình FineReader một cách cẩn thận thông qua hộp thoại cài đặt (Công cụ -> Tùy chọn…). Lưu ý duy nhất: để làm việc thoải mái trong ứng dụng, bạn nên đặt độ phân giải màn hình thành 1280×800, để tất cả các công cụ luôn ở trong tầm tay, như người ta nói.

Sau khi khởi chạy chương trình Fine Reader, một cửa sổ sẽ xuất hiện với các nút để truy cập nhanh vào các chức năng của chương trình. Menu này cũng có sẵn thông qua menu Tools -> ABBYY FineReader, nút “Main Scripts” ở góc ngoài cùng bên phải của chương trình hoặc thông qua tổ hợp phím Ctrl+N (tương tự như Word, nơi tổ hợp này mở ra một tài liệu mới) .

Quét vào Microsoft Word: trong phiên bản thứ chín của FineReader, đã xuất hiện hỗ trợ cho Microsoft Word 2007, phiên bản này vẫn chưa trở nên phổ biến. Đổi lại, biểu tượng màu đỏ “có thương hiệu” xuất hiện trên thanh công cụ trong các ứng dụng Microsoft Office, trong phần tiện ích bổ sung sau khi cài đặt FR.


Menu để xuất tài liệu FineReader được công nhận
Chọn ngôn ngữ để quét và nhận dạng tài liệu

Ngoài Microsoft Office, FR hỗ trợ tích hợp với Microsoft Outlook và xuất kết quả nhận dạng sang Microsoft Word, Excel, Lotus Word Pro, Corel WordPerect và Adobe Acrobat. Những tính năng này giúp làm việc với chương trình dễ dàng và nhanh hơn phần nào, đặc biệt nếu bạn phải làm việc với chương trình thường xuyên.

PDF hoặc hình ảnh trong Microsoft Word: nhận dạng dữ liệu từ tệp PDF hoặc loại tệp đồ họa khác được Finereader phiên bản 12 hỗ trợ. Cần lưu ý rằng công nghệ trích xuất văn bản từ tệp PDF trong FR không chỉ là “bóc tách” nội dung văn bản (lớp văn bản trong PDF có thể vắng mặt) khỏi nội dung đồ họa. Trên thực tế, công nghệ nhận dạng khá phức tạp: sau khi phân tích nội dung tài liệu, chương trình sẽ quyết định làm gì và làm như thế nào với văn bản: chỉ cần trích xuất hoặc nhận dạng, v.v. cho từng đoạn văn bản.

Quét vào Microsoft Excel: Quét sang XLS (định dạng Microsoft Excel) có thể hợp lý nếu hình ảnh được quét có chứa các bảng.

Quét sang PDF: Có nhiều lý do để quét sang PDF. Một trong số đó là bảo mật: đây là định dạng duy nhất quen thuộc với FR trong cài đặt mà bạn có thể đặt khóa mật khẩu. Mật khẩu được đặt không chỉ để mở tài liệu mà còn để in tài liệu và các hoạt động khác. Có thể chọn một trong ba mức mã hóa: 40 bit, 128 bit dựa trên tiêu chuẩn RC4, mức 128 bit dựa trên tiêu chuẩn AES (Tiêu chuẩn mã hóa nâng cao).

Chuyển ảnh sang Microsoft Word: chuyển đổi tệp từ định dạng đồ họa (và có thể là PDF hoặc hình ảnh nhiều trang) sang DOC / DOCX.

Mở trong Fine Reader: mở tệp đồ họa (PDF, BMP, PCX, DCX, JPEG, JPEG 2000, TIFF, PNG) để nhận dạng FineReader.

Làm việc trong FineReader

Bây giờ - nói ngắn gọn về các tính năng của chương trình. Toàn bộ quá trình được chia thành quét, nhận dạng và lưu kết quả. Sau khi bạn đã chọn loại hành động của chương trình, chỉ định tệp hoặc thiết bị cần quét, FineReader sẽ thực hiện nhiệm vụ của mình từng bước, nhân tiện, việc này khá tốn nhiều tài nguyên đối với bộ xử lý trung tâm.

Nếu bạn là người may mắn sở hữu bộ xử lý lõi kép thì khi làm việc với gói Fine Reader 12, bạn có thể đánh giá cao sức mạnh hiệu suất của máy tính. Thực tế là FR, đã phát hiện ra bộ xử lý lõi kép, nhận dạng song song không phải một mà là hai trang của tài liệu. Đó là một điều nhỏ, nhưng nó tốt đẹp.

Đầu tiên là quét, sau đó nhận dạng và xuất tài liệu tạm thời sang định dạng đã chọn.


Quy trình nhận dạng tài liệu PDF

Đang quét. Không cần thực hiện bất kỳ cài đặt sơ bộ nào trong ứng dụng FineReader (ngoại trừ việc chọn thiết bị đọc) trước khi quét. Đó là lý do tại sao các tập lệnh được phát minh: chúng được thiết kế để đơn giản hóa việc thực hiện các hành động tương tự.

Sự công nhận. Việc đơn giản hóa cũng ảnh hưởng đến những điều nhỏ nhặt khác. Vì vậy, nếu chúng ta nhớ lại các phiên bản trước của chương trình, trước đây chúng ta phải thay đổi ngôn ngữ (ngôn ngữ, nếu có một số) của tài liệu theo cách thủ công. Bây giờ điều này xảy ra tự động, mặc dù không phải lúc nào cũng vậy. Trong trường hợp sau, FR kín đáo đề nghị kiểm tra ngôn ngữ tài liệu.

Quay lại công nghệ nhận dạng FR: tại sao trước tiên chương trình quét toàn bộ tài liệu chứ không phải từng trang? Như đã đề cập, văn bản được nhận dạng dựa trên toàn bộ nội dung: phông chữ có kích thước/kiểu chữ tương tự, bảng và đường viền, thụt lề, v.v. được chọn.

Đừng ngạc nhiên nếu FineReader 12 hiển thị thông báo cho biết không thể nhận dạng được trang vì không tìm thấy vùng văn bản nào. Để thử nghiệm, chúng tôi đã chụp ảnh một vùng tài liệu văn bản bằng điện thoại di động từ màn hình hiển thị LCD (tuy nhiên, chúng tôi đã biết trước kết quả). Fine Reader 12 không nhận dạng được văn bản của hình ảnh vì rõ ràng chất lượng của nó là không đủ cho việc này. Trong lần truy cập thứ hai, chúng tôi chụp ảnh một trang có văn bản trong điều kiện ánh sáng bình thường bằng máy ảnh kỹ thuật số.

FineReader đã nhận dạng đoạn văn mà không gặp bất kỳ sự cố nào, giữ nguyên định dạng và đánh dấu bằng điểm đánh dấu một số khoảnh khắc hoặc ký tự có vấn đề có thể có chính tả khác nhau.

Như bạn có thể thấy trong hình, đây chủ yếu là dấu chấm, dấu gạch ngang, dấu phẩy - nói chung là các ký tự nhỏ. Ngoài ra, có thể thấy rõ rằng chương trình đã tính đến độ không đồng đều và độ cong của trang ảnh và căn chỉnh các dòng văn bản. Kết luận - FR đã hoàn thành xuất sắc nhiệm vụ mặc dù không quá khó khăn.

Đôi khi, chương trình Fine Reader có thể không phát hiện ra một số vấn đề nhỏ nhưng chúng có thể dễ dàng được khắc phục theo cách thủ công. May mắn thay, gói này có trình soạn thảo WYSIWYG riêng, các khả năng của nó khá đủ để thực hiện chỉnh sửa tài liệu cuối cùng. Kiểm tra chính tả cũng có sẵn.

Làm cách nào chúng tôi có thể cải thiện độ chính xác của nhận dạng để có thể tốn ít thời gian hơn khi chỉnh sửa văn bản? Trước tiên, bạn có thể kết nối từ điển Microsoft Word tùy chỉnh. Đúng, rất khó để đánh giá sự gia tăng độ chính xác, có lẽ ngoại trừ sự gia tăng vốn từ vựng của trình kiểm tra chính tả (một mô-đun kiểm tra chính tả và ngữ pháp). Ngoài ra, để cải thiện khả năng nhận dạng, bạn nên tự làm quen với cài đặt chương trình (Công cụ -> Tùy chọn) và chọn một trong hai chế độ:

công nhận cẩn thận- nó có thể được chọn khi nhận dạng tài liệu có độ phức tạp bất kỳ: với các bảng không có đường lưới, văn bản, đồ thị, bảng trên nền màu, v.v. Nó cũng có thể trợ giúp với nguồn nhận dạng chất lượng thấp

nhận dạng nhanh- chế độ này được khuyến nghị để xử lý khối lượng tài liệu lớn với thiết kế đơn giản hoặc trong trường hợp thời gian không cho phép nhận dạng kỹ lưỡng. Trong hầu hết các trường hợp, khi bạn có văn bản in màu đen trên nền trắng, bạn có thể chọn tính năng nhận dạng nhanh.

Nhìn chung, việc nâng cao chất lượng công việc của FineReader là một chủ đề riêng để trò chuyện, bạn có thể tìm hiểu chi tiết về chủ đề này từ trợ giúp chính thức, cụ thể là trong phần “Cách cải thiện kết quả thu được”.

Đang lưu tài liệu. Giai đoạn cuối cùng của công việc trong chương trình Fine Reader 12 là lưu kết quả cuối cùng ở định dạng đồ họa/văn bản cụ thể. Cài đặt lưu trước có thể được chỉ định trong tùy chọn FR: Công cụ -> Tùy chọn, tab “Lưu”. Mỗi định dạng có cài đặt riêng. Khi lưu ở định dạng DOCX, bạn nên cẩn thận về khả năng tương thích định dạng (file DOCX không được nhận dạng trong Word 2003<). В txt-файлах не забудьте проверить правильность кодировки (особенно в случае с текстом в кириллице).

Trình đọc ảnh chụp màn hình ABBYY

Trong nhiều gói lớn, nhà phát triển thường thích thêm các tiện ích dịch vụ nhỏ. Giả sử ứng dụng ghi đĩa nổi tiếng Nero bao gồm một bộ 3 - 5 tiện ích cho phép bạn làm một việc mà ngay cả bản thân Nero cũng không thể làm được. Đánh giá (bạn cũng có thể tải xuống tại đây như một phần của Fine Reader 12).

Đối với FineReader, nó chứa một ứng dụng nhỏ là Screenshot Reader. Với nó, bạn có thể chụp ảnh màn hình và nhanh chóng chuyển đổi nó sang định dạng mong muốn bằng FR. Chương trình có sẵn thông qua menu Bắt đầu (Bắt đầu -> Tất cả chương trình -> ABBYY FineReader 12.0 -> ABBYY Screenshot Reader.).

Khả năng của Screenshot Reader có phần rộng hơn so với cái nhìn đầu tiên. (nếu không, bạn có thể thực hiện việc đó bằng cách chỉ cần nhấn phím “PrintScreen” trên bàn phím). Ngoài việc chụp ảnh màn hình (hay chính xác hơn là một vùng được chọn trên màn hình), Screenshot Reader còn được tích hợp chặt chẽ với FR.

Khi bạn nhấp vào nút “Chụp nhanh” trên bảng Trình đọc ảnh chụp màn hình, con trỏ sẽ thay đổi hình dạng và công cụ chọn vùng màn hình được kích hoạt. Vùng đã chọn của hình ảnh được đóng khung để nhận dạng văn bản sâu hơn (nó chạy tự động).

Trong danh sách thả xuống, bạn có thể chọn hành động mong muốn: trên thực tế, Trình đọc ảnh chụp màn hình sao chép các tập lệnh FR nhanh với điểm khác biệt là thay vì ảnh chụp màn hình từ máy quét, ảnh chụp màn hình sẽ được nhận làm đầu vào.

Cần lưu ý rằng chương trình, cùng với toàn bộ gói, yêu cầu kích hoạt. Khi đăng ký sản phẩm, ABBYY FineReader 12 Professional Edition Screenshot Reader được cung cấp miễn phí như một “phần thưởng”.

Phần kết luận

FineReader là một chương trình không thể thiếu để quét và nhận dạng dữ liệu đồ họa. Giao diện tiếng Nga và khả năng truy cập cài đặt sẽ không khiến người dùng thiếu kinh nghiệm sợ hãi. Hỗ trợ các định dạng mới nhất, công nghệ tiên tiến và do đó, khả năng nhận dạng chất lượng cao khiến chương trình trở thành sự lựa chọn tối ưu, đặc biệt vì ABBYY FineReader vẫn chưa có đối thủ cạnh tranh trong lĩnh vực này.

FineReader 12 phím nóng

  • Tạo tài liệu ABBYY FineReader mới- CTRL +N
  • Mở tài liệu ABBYY FineReader 12 - CTRL +SHIFT+N
  • Lưu trang- CTRL + S
  • Lưu hình ảnh vào tập tin- CTRL +ALT+S
  • Nhận dạng tất cả các trang của tài liệu- CTRL + SHIFT + R
  • Đóng trang hiện tại- CTRL +F4
  • Nhận dạng các trang đã chọn của tài liệu ABBYY FineReader- CTRL + R
  • Trình quản lý kịch bản mở- CTRL + T
  • Mở hộp thoại Tùy chọn Fine Reader- CTRL + SHIFT + O
  • Mở trợ giúp- F1
  • Đi tới cửa sổ Tài liệu-ALT +1
  • Đi tới cửa sổ Hình ảnh- ALT +2
  • Đi tới cửa sổ Văn bản- ALT +3
  • Đi đến cửa sổ Cận cảnh- ALT +4

Công việc nhận dạng hình ảnh bao gồm các giai đoạn sau:

  1. Nhận hình ảnh được quét (quét).
  2. Mở chúng trong chương trình OCR (FineReader).
  3. Bố trí các trang thành khối. Tức là chia trang thành các khu vực, mỗi khu vực sẽ chứa văn bản, hình ảnh, bảng biểu hoặc nội dung đồng nhất khác.
  4. Thực ra là công nhận.
  5. Hiệu đính văn bản được nhận dạng, xác minh văn bản đã nhận và bản quét gốc.
  6. Lưu kết quả thu được ở một trong các định dạng tài liệu (DOC, RTF, PDF, HTML, v.v.).

Khi nhận dạng văn bản, có hai tùy chọn: bạn tự quét tài liệu hoặc bạn làm việc với văn bản đã được quét.

Trong trường hợp đầu tiên, giai đoạn “Nhận hình ảnh” và “Mở hình ảnh” được kết hợp thành một - FineReader ngay lập tức mở các bản quét nhận được trong gói của nó. Trong trường hợp thứ hai, giai đoạn "Nhận hình ảnh" đã hoàn tất, bạn chỉ cần mở chúng trong chương trình.

Chúng ta hãy lần lượt xem xét cả hai lựa chọn.

Quét văn bản trong FineReader

Quá trình quét được khởi chạy thông qua “Tệp → Quét trang” hoặc nút menu “Quét” hoặc Ctrl-K.

Cơm. 1 Giao diện quét

Tuy nhiên, trước khi bắt đầu quét, bạn nên tìm ra cách có được bản quét tối ưu nhất để nhận dạng. Và để làm được điều này, hãy hiểu bản quét “tốt” (theo quan điểm của FineReader) khác với bản quét “không tốt lắm” như thế nào.

Để nhận dạng chất lượng cao, chương trình yêu cầu ba điều. Thứ nhất, khả năng phân biệt văn bản và hình minh họa với nền trang một cách đáng tin cậy. Thứ hai, các chữ cái, con số và các nội dung khác phải rõ ràng và dễ đọc, để không xảy ra tình huống “mắt người không phải lúc nào cũng hiểu chính xác những gì được in”. Thứ ba, các dòng văn bản khi scan phải chạy mượt mà như in trên trang sách, không bị méo mó, méo mó. Ngoài ra còn có các yêu cầu khác để quét chất lượng cao, nhưng đây có thể được coi là chìa khóa.

1. Để phân biệt một cách đáng tin cậy giữa “văn bản ở đây và nền trang ở đây”, phần chuyển đổi giữa cái này và cái kia phải sắc nét và không bị mờ. Dưới đây là ví dụ về các trang có độ rõ ràng kém và tốt. Trong trường hợp đầu tiên, đương nhiên nó sẽ bị nhận ra là tệ hơn, mắc nhiều lỗi hơn.


Cơm. 2. Mờ viền chữ



Cơm. 3. Ranh giới chữ rõ ràng

Nguyên nhân phổ biến khiến ranh giới nền văn bản bị mờ là do quét mất nét, thường được gọi là "mất nét". Vì vậy, trước khi bắt đầu công việc, bạn nên kiểm tra máy quét của mình tại thời điểm này.

Một lý do khác có thể cản trở việc phân biệt giữa văn bản và nền là nền trang quá “dày đặc”. Thông thường, nó phải có màu trắng tinh khiết hoặc trắng pha chút màu nào đó. Nếu quét sách từ ấn bản cũ, giấy thường bị ố vàng thì nền cũng có thể hơi vàng (nhưng ở mức độ vừa phải).

Nếu nền trông tối đi rõ rệt thì những trang như vậy sẽ khó nhận biết hơn.

Sự xuất hiện của nền phụ thuộc vào cài đặt độ sáng quét. Nó có thể được điều chỉnh thông qua thanh trượt “Độ sáng”. Để bắt đầu, bạn nên đặt nó ở mức 50%, kiểm tra xem điều gì xảy ra và sửa nó nếu cần.

2. Mức độ dễ đọc của ký tự văn bản chủ yếu phụ thuộc vào độ sáng và độ phân giải quét.

Nếu độ sáng quá cao, các dòng chữ sẽ bị rách, dường như chúng sẽ vỡ vụn thành từng mảnh riêng biệt. Nếu độ sáng thấp, các chi tiết của các chữ cái bắt đầu hợp nhất với nhau, xuất hiện các đốm không có hình dạng. Cả hai đều không phải là “thực phẩm” ăn được cho các chương trình công nhận.

Độ sáng ở đây được điều chỉnh theo cách tương tự như trong trường hợp trước - đầu tiên chúng tôi đặt nó thành 50% trong giao diện quét, sau đó tùy thuộc vào tình huống.


Cơm. 4. Trang có quá nhiều độ sáng



Cơm. 5. Trang có độ sáng quá ít (nền trang bị tối)



Cơm. 6. Và đây là cùng một trang, nhưng ở dạng bình thường

Độ phân giải quét xác định số lượng pixel trong quá trình quét cho mỗi chữ cái. Nếu những pixel này đủ để vẽ đường viền của chữ cái thì sẽ không có vấn đề gì với việc nhận dạng. Nếu vẫn chưa đủ thì các chữ cái có thể trở nên khó phân biệt ngay cả đối với mắt người, chưa kể đến các chương trình nhận dạng.


Cơm. 8. Tương tự nhưng được 200 điểm



Cơm. 9. Tương tự nhưng được 400 điểm

Khi chọn độ phân giải, các quy tắc sau thường được tuân theo:

  • 300 điểm được chọn cho sách xuất bản đại chúng (các trang chứa đầy văn bản cỡ thường, hầu như không có hình vẽ);
  • 400 điểm được chọn cho sách và tạp chí có số lượng văn bản đáng chú ý ở kích thước nhỏ (ghi chú, chú thích dưới hình, bảng, hộp văn bản nhỏ);
  • 600 điểm được chọn cho sách in khổ rất nhỏ (nhiều sách tham khảo và bách khoa toàn thư, sách thu nhỏ). Hoặc với các bản vẽ chi tiết tinh xảo, chẳng hạn như bản khắc. Điều này cũng bao gồm nhiều cuốn sách được xuất bản vào những năm 1990 - khi đó các nhà xuất bản lưu trên giấy và thường được in bằng những chữ cái rất nhỏ.

Giao diện quét trong FineReader cho phép bạn chỉ chọn 300 điểm hoặc 600 (dòng “Độ phân giải”). Do đó, nếu bạn có nhiều tài liệu cần thực hiện ở mức 400 điểm, thì tốt hơn là bạn nên quét không phải từ FineReader mà từ chương trình đi kèm với máy quét.

Hoặc, trong cài đặt FineReader, chuyển từ giao diện riêng của chương trình sang giao diện TWAIN của máy quét của bạn (“Công cụ → Cài đặt → tab “Quét/Mở” → nhấp vào “Sử dụng giao diện máy quét” ở dưới cùng). Sau đó, bạn sẽ có thể quét từ FineReader, nhưng bạn sẽ làm việc trong giao diện máy quét (thường có khối lượng cài đặt và chức năng lớn hơn).

3. Các dòng văn bản mượt mà, trông gọn gàng chủ yếu đạt được bằng cách xử lý trước hình ảnh (“pre-” trong trường hợp này có nghĩa là “được thực hiện sau khi quét, nhưng trước khi nhận dạng”). Sau khi tiền xử lý chính xác, nội dung trang sẽ được nhận dạng với chất lượng cao hơn.

FineReader có một bộ chức năng khá phong phú cho việc này, bạn có thể thấy chức năng này trong cài đặt chương trình, trên tab “Quét/Mở”. Cửa sổ này cũng có thể được mở thông qua nút “Cài đặt” trong cửa sổ giao diện quét.


Cơm. 10. Cài đặt tiền xử lý

Nên chọn "Chia sách" khi sách được quét không phải theo trang mà theo từng trang. Sau đó để được công nhận, chúng sẽ được cắt từng trang.

“Phát hiện hướng trang” được sử dụng nếu sách được quét nằm nghiêng. Sau đó nó sẽ được xoay về vị trí bình thường. Nhưng nếu sách có các trang được in xoay 90 độ so với nội dung chính thì tốt hơn hết bạn nên bỏ chọn hộp này. Ngược lại, khi xuất tài liệu được nhận dạng dưới dạng PDF, bạn có thể kết thúc với một số trang theo hướng "dọc" và một số trang theo hướng "ngang". Trong trường hợp này, tốt hơn hết bạn nên xoay các trang cần thiết theo cách thủ công trong trình chỉnh sửa hình ảnh tích hợp

Correct Skew sửa các trang bị lệch. Cài đặt này chắc chắn là cần thiết, nhưng bạn phải nhớ rằng “Văn bản bên dưới hình ảnh trang” PDF thu được từ các lần quét như vậy sẽ không có vẻ ngoài gọn gàng cho lắm - các hình nêm màu xám dọc theo các cạnh của trang (nơi thực hiện lần lượt).

“Biến dạng đường chính xác” làm thẳng các đường uốn cong thường hình thành gần đường viền trong quá trình quét (còn được gọi là “râu”).


Cơm. 11. Ví dụ về một trang có đường cong

“Xóa biến dạng hình thang” sửa các biến dạng trang xuất hiện nếu sách không được ấn quá chặt vào kính máy quét.

“Đảo ngược hình ảnh” là cần thiết nếu tài liệu bạn đang quét chứa nhiều văn bản “chữ sáng trên nền tối” và bạn muốn chuyển đổi nó thành văn bản “chữ tối trên nền sáng” thông thường.

“Xóa các phần tử màu” rất hữu ích nếu trên một trang trông giống như “chữ đen trên nền trắng”, bạn cần xóa nhiều thứ không cần thiết, chẳng hạn như dấu bút ở lề, chữ ký và con dấu (tài liệu văn phòng) hoặc thậm chí chỉ là vết bẩn . Nhưng nếu trên cùng một trang có một số “nhu cầu” được thực hiện bằng màu sắc - đồ thị, sơ đồ hoặc ảnh, thì bạn không thể đánh dấu vào ô này. Nếu không chúng cũng sẽ bị xóa.

“Độ phân giải hình ảnh chính xác” là mục cần giải thích chi tiết hơn các mục trước. Thực tế là quá trình nhận dạng trong FineReader rất nhạy cảm với độ phân giải được đặt trong thuộc tính của hình ảnh nhất định. Điều này xác định đáng kể mức độ chính xác của kích thước của các chữ cái văn bản, khoảng cách giữa các chữ cái và dòng, v.v. Vì vậy, một dấu kiểm là cần thiết ở đây. Ngoài ra, đừng ngạc nhiên nếu trong quá trình nhận dạng, bạn liên tục nhận được thông báo FineReader “trên trang như vậy, độ phân giải được đặt không chính xác và bạn nên sửa nó”.

Ngoài các cài đặt tiền xử lý, trên tab “Quét/Mở” còn có khối cài đặt “Chung”. Tại đây bạn đặt một tập hợp các hành động cơ bản sẽ được thực hiện trên các trang đã mở. Các tùy chọn cho những hành động như vậy có thể như sau:

  1. chỉ cần mở hình ảnh được quét mà không cần làm gì với chúng. Để thực hiện việc này, hãy bỏ chọn hộp kiểm “Tự động xử lý các trang đã thêm”.
    Điều này chỉ có ý nghĩa nếu bản quét của bạn có chất lượng cao đến mức không thể làm gì nhiều để cải thiện chúng. Bạn có thể gửi nó ngay lập tức để được công nhận. Tất nhiên, điều này xảy ra, nhưng ít thường xuyên hơn chúng ta mong muốn :-), vì vậy tốt hơn hết bạn nên bỏ chọn hộp kiểm này.
  2. mở hình ảnh, thực hiện tiền xử lý nhưng không làm gì khác cho đến khi có lệnh của bạn. Để thực hiện việc này, hãy chọn mục “Xử lý sơ bộ hình ảnh”.
    Điều này thường được thực hiện nếu bạn không cần bắt đầu nhận dạng ngay lập tức, nhưng trước tiên hãy xem điều gì đã xảy ra do quá trình xử lý trước, nó hoạt động tốt như thế nào đối với một tập hợp hình ảnh nhất định.
  3. mở hình ảnh, thực hiện tiền xử lý, đánh dấu chúng thành các khối, chưa bắt đầu nhận dạng. Để thực hiện việc này, hãy chọn mục “Phân tích hình ảnh (bao gồm cả tiền xử lý)”.
    Tùy chọn được chọn thường xuyên nhất. Bản quét của bạn có chất lượng khá tốt, bạn biết rõ quá trình xử lý trước sẽ làm gì với chúng, không cần phải kiểm tra sau. Điều này có nghĩa là chúng tôi kết hợp ba giai đoạn làm việc với hình ảnh được mô tả ở trên thành một và bắt đầu xem việc đánh dấu được thực hiện tốt như thế nào.
  4. Tất cả các giai đoạn nhận dạng đều diễn ra tự động, không có bất kỳ sự kiểm soát trung gian nào. Bạn ngay lập tức nhận được kết quả hoàn thành và bắt đầu hiệu đính nó. Để thực hiện việc này, hãy chọn mục “Nhận dạng hình ảnh (bao gồm cả tiền xử lý)”. Sẽ chỉ hợp lý khi thực hiện điều này nếu bạn có bản quét có chất lượng tốt và có giao diện rất đơn giản - ví dụ: văn bản rắn bằng một ngôn ngữ và không có gì khác. Trong tất cả các trường hợp khác, tốt hơn nên chọn tùy chọn 2 hoặc 3. Đặc biệt nếu bạn có các trang có định dạng phức tạp, bảng, biểu đồ, hình ảnh, v.v.


Cơm. 12. Ví dụ về một trang có bố cục phức tạp



Cơm. 13. Ví dụ về một trang có bố cục phức tạp

Mở hình ảnh trong FineReader

Đây là tùy chọn thứ hai để làm việc với hình ảnh: không tự quét chúng mà nhận chúng ở dạng tạo sẵn và mở chúng trong FineReader. Việc này được thực hiện thông qua nút “Mở” trong menu cửa sổ chính hoặc thông qua “Tệp → Mở PDF hoặc hình ảnh” hoặc thông qua Ctrl-O.


Cơm. 14. Cửa sổ “Mở hình ảnh”

Trong cửa sổ Explorer mở ra, chọn hình ảnh, đặt các cài đặt cần thiết (nút “Cài đặt”) và nhấp vào “Mở”. Các cài đặt được sử dụng ở đây giống như những cài đặt được mô tả để quét; bạn cần làm việc với chúng theo cách tương tự.

Khi các trang được mở trong FineReader, gói mặc định được tạo không có tên (“Tài liệu không có tiêu đề”) và được lưu trữ trong thư mục TMP, chỉ trong phiên hiện tại. Để không vô tình làm mất kết quả công việc của mình, bạn nên lưu gói ngay sau khi tạo dưới một số tên cố định (“Tệp → Lưu tài liệu FineReader”).

Bố cục các trang thành các khối

Sau khi mở bản quét, bạn cần đánh dấu các trang thành các khối. Việc này được thực hiện thông qua “Tài liệu → Phân tích tài liệu” hoặc thông qua Ctrl-Shift-E.

Đánh dấu có hai mục đích làm việc chính.

Đầu tiên, hãy tách biệt phần văn bản trên trang với phần không phải là văn bản. “Văn bản” trong trường hợp này là mọi thứ mà FineReader có thể nhận dạng. Theo đó, mọi thứ mà anh ta không thể nhận ra đều được coi là “phi văn bản”. Đây chủ yếu là phần minh họa của trang - bản vẽ, hình vẽ, đồ thị, sơ đồ và những thứ tương tự. Các công thức, ghi chú viết tay và ghi chú theo quan điểm này cũng được coi là phi văn bản - FineReader chưa thể nhận dạng chúng. Điều này có nghĩa là khi đánh dấu phải đánh dấu là “hình ảnh”.

Thứ hai, văn bản là gì vẫn cần được phân loại - chỉ văn bản, bảng, ghi chú (chú thích cuối trang), đầu trang và chân trang, mục lục và những thứ tương tự. Để sau này, khi bạn đọc những gì được nhận dạng trong trình soạn thảo văn bản, tất cả các thành phần này sẽ trông giống hệt như bạn đã quen (chúng sẽ được định dạng tương ứng).

Trang được đánh dấu có thể trông giống như thế này:


Cơm. 15. Cửa sổ hình ảnh với bố cục trang

Bây giờ bạn cần xem đánh dấu do chương trình thực hiện trên mỗi trang và nếu cần, hãy sửa nó.

Lỗi đánh dấu thường thuộc các loại sau.

1. Một số phần nội dung trang (văn bản, hình vẽ, v.v.) được chọn đúng về ranh giới khu vực nhưng lại gán nội dung sai. Ví dụ: một đoạn văn bản được đánh dấu giống như một bức tranh hoặc ngược lại.

Trong trường hợp này, bạn cần nhấp vào khu vực đó, mở menu ngữ cảnh, chọn “Thay đổi loại khu vực” trong đó, chọn loại cần thiết trong menu con mở ra (“Văn bản”, “Bảng”, “Hình ảnh”, “ Hình nền”, “Dòng”). mã").


Cơm. 16. Menu ngữ cảnh “Thay đổi loại khu vực”

Bạn có thể nhanh chóng xem vị trí của từng khu vực bằng màu sắc của khung. “Văn bản” được làm nổi bật bằng khung màu xanh lục đậm, “Bảng” – màu xanh lam, “Hình ảnh” – màu đỏ nhạt, “Hình nền” – màu đỏ đậm, “Mã vạch” – màu xanh nhạt.

2. Về mặt nội dung, khu vực được đánh dấu chính xác, nhưng về mặt kích thước (ranh giới), không phải mọi thứ được yêu cầu trong trường hợp này đều được đánh dấu. Hoặc ngược lại - một tác phẩm đến từ khu vực lân cận có nội dung khác.


Cơm. 17. Một trang có đánh dấu không chính xác

Các chú thích xung quanh nó được đính kèm vào vùng “hình ảnh” trên cùng (phải được đánh dấu là “văn bản”).

Trong quá trình đánh dấu, một phần của hình ảnh không được đưa vào vùng “hình ảnh” phía dưới.

Để khắc phục điều này, trước tiên bạn phải nhấp vào nút “Mũi tên” trong cửa sổ “Hình ảnh”.

Sau đó bấm vào từng vùng được đánh dấu sai và di chuyển đường viền của nó. Gần giống như cách bạn thường di chuyển đường viền của các cửa sổ chương trình đang mở.

3. Một số phần nội dung trang đã bị đánh dấu bỏ qua hoàn toàn và không rơi vào bất kỳ khu vực nào được tạo.


Cơm. 18. Công thức nằm ngoài phần đánh dấu (nó không rơi vào bất kỳ khối nào)

Tại đây, bạn sẽ cần tạo một vùng mới trên trang (đánh dấu phần còn thiếu của trang bằng khung), sau đó gán loại mong muốn cho vùng đã tạo.

Để thực hiện việc này, trước tiên bạn phải nhấp vào biểu tượng “Chọn vùng nhận dạng” trong cửa sổ “Hình ảnh”.

Sau đó, vẽ khung xung quanh khu vực mong muốn (như thường lệ trong trình chỉnh sửa đồ họa, chọn một phần của hình ảnh) và cuối cùng đặt loại khu vực. Hoạt động cuối cùng đã được mô tả trong đoạn 1.

Nếu bạn chỉ cần phần văn bản của trang ở dạng văn bản rắn (thường là như vậy), thì điều này là khá đủ. Nếu bạn muốn các thành phần thiết kế khác nhau của các trang được nhận dạng (ghi chú, đầu trang và chân trang) trông giống hệt như ghi chú và chân trang trong Word, thì bạn cũng cần kiểm tra điểm này.

Nó được điều chỉnh thông qua menu ngữ cảnh. Nhấp vào vùng “Văn bản” mong muốn trên trang bạn đang kiểm tra, chọn mục “Gán văn bản” trong menu ngữ cảnh và bên trong menu con của nó, hãy xem mục nào được đánh dấu (thường là “Tự động phát hiện”). Nếu nó không ở đúng vị trí, hãy chuyển sang phần tử mong muốn.


Cơm. 19. Menu ngữ cảnh “Gán văn bản”

Sự công nhận

Sau khi các lỗi trong đánh dấu đã được sửa, quá trình nhận dạng có thể bắt đầu. Việc này được thực hiện thông qua “Tài liệu → Nhận dạng tài liệu” hoặc thông qua Ctrl-Shift-R. Trước khi thực hiện việc này, đừng quên đặt ngôn ngữ nhận dạng và đặt các cài đặt cần thiết.

Ngôn ngữ được đặt thông qua cửa sổ “Ngôn ngữ tài liệu” trên thanh nút của cửa sổ chương trình chính.


Cơm. 20. Chọn ngôn ngữ qua menu chính

Hoặc trong cài đặt (“Công cụ → Cài đặt → tab “Tài liệu”).


Cơm. 21. Chọn ngôn ngữ thông qua cài đặt FineReader

Nếu danh sách mở ra không chứa ngôn ngữ bạn cần, hãy nhấp vào “Chọn ngôn ngữ” ở cuối danh sách và trong cửa sổ mở ra, hãy chọn hộp bên cạnh ngôn ngữ (bộ ngôn ngữ) bạn cần. Sau đó nó sẽ được thêm vào danh sách.

Trong cài đặt nhận dạng (“Công cụ → Cài đặt → tab “Nhận dạng”), tốt hơn là nên để chế độ nhận dạng ở giá trị mặc định (“Nhận dạng cẩn thận”). “Nhận dạng nhanh” chỉ có ý nghĩa nếu bạn có thứ gì đó có vẻ ngoài đơn giản và chất lượng quét rất tốt. Ví dụ: bản in đen trắng được quét của tài liệu văn bản không có hình minh họa.


Cơm. 22. Cài đặt, tab “Nhận dạng”

Trong số các cài đặt khác, nhóm “Xác định các yếu tố cấu trúc” có tầm quan trọng hàng đầu. Dưới đây là các chi tiết thiết kế trang: chú thích cuối trang (notes), tiêu đề, danh sách, mục lục. Khi một phần tử được chọn, nó sẽ được nhận dạng và lưu trong DOC/RTF/DOCX không chỉ dưới dạng một phần văn bản trên trang mà còn dưới dạng chú thích cuối trang, chân trang, danh sách hoặc mục lục.

Chỉ cần đừng quên một điểm quan trọng. Nếu bạn phải nhận dạng các khu vực có nội dung tương tự thì một dấu kiểm trong cài đặt tab “Nhận dạng” có thể là không đủ. Ngoài ra, ở giai đoạn đánh dấu, cũng cần đánh dấu chính xác các khu vực này bằng điểm đánh dấu “Gán văn bản” từ menu ngữ cảnh.

Hiệu đính

Việc hiệu đính văn bản được nhận dạng trong FineReader có thể được thực hiện theo hai cách. Sử dụng chức năng "Kiểm tra" hoặc theo cách thông thường, xem các trang trong trình chỉnh sửa FineReader tích hợp sẵn. Thông qua cửa sổ “Cận cảnh”, chúng tôi kiểm tra bằng quá trình quét, chỗ nào có lỗi thì chúng tôi sửa.

Chức năng “Kiểm tra” được khởi chạy bằng nút ở góc trên bên phải của menu hoặc thông qua Ctrl-F7. Công việc của nó dựa trên thực tế là trong quá trình nhận dạng, FineReader đánh dấu các ký tự và từ được nhận dạng với mức độ tin cậy không đủ cao. Nghĩa là, chương trình có một số nghi ngờ về chúng: "có thể đây thực sự là biểu tượng được tặng cho bạn, nhưng nó cũng có thể là một thứ khác." Trong quá trình quét, từng chỗ đáng ngờ như vậy sẽ được hiển thị cho người dùng để họ có thể sửa chúng nếu cần.

Cửa sổ xác minh khá đơn giản. Ở đầu nó, một đoạn của trang chứa biểu tượng đang được kiểm tra được hiển thị. Ở phía dưới, một dòng văn bản được nhận dạng có ký hiệu này được hiển thị và cũng có một số nút để chỉnh sửa đơn giản.


Cơm. 23. Cửa sổ “Kiểm tra”

Nếu mọi thứ đều theo thứ tự, biểu tượng được xác định chính xác, sau đó nhấp vào “Bỏ qua”. Nếu nó được xác định không chính xác, hãy nhập giá trị chính xác bằng bàn phím hoặc nếu giá trị này không có trên bàn phím thì hãy sử dụng nút “Chèn ký hiệu” (chữ cái Hy Lạp “omega”). Sau đó bấm vào “Xác nhận”.

Chúng tôi hành động theo cách tương tự nếu một ký tự được nhận dạng chính xác nhưng định dạng của nó không chính xác. Ví dụ, trong văn bản của một cuốn sách có chữ in nghiêng ở một số chỗ, nhưng nó được nhận dạng là phông chữ thông thường. Để định dạng lại, hãy sử dụng các nút ở cuối cửa sổ.

Nhưng khả năng của cửa sổ kiểm tra vẫn còn khá hạn chế. Cả về kích thước của một phần trang có thể được hiển thị ở đầu cửa sổ và khả năng chỉnh sửa có sẵn ở đây. Do đó, tất cả các chuyển động trong văn bản, từ điểm kiểm tra này sang điểm kiểm tra khác, cũng được theo dõi trong cửa sổ “Văn bản” và “Cận cảnh”. Trong khi công việc đang diễn ra, các con trỏ trong “Văn bản” và “Cận cảnh” di chuyển đồng bộ với vị trí của chúng trong “Kiểm tra”.

Nếu trong đoạn trang bạn đang kiểm tra (trong quá trình quét), bạn đột nhiên cần xem nhiều hơn một số từ được hiển thị trong phần “Kiểm tra”, thì bạn có thể thực hiện việc này trong phần “Cận cảnh”. Nếu việc chỉnh sửa lỗi hiện tại yêu cầu khả năng của trình chỉnh sửa từ “Văn bản”, thì bạn có thể tạm thời chuyển sang lỗi đó (chỉ bằng cách nhấp vào cửa sổ của nó), thực hiện công việc cần thiết và quay lại “Kiểm tra” (bằng cách nhấp vào cửa sổ của nó) . Sau khi quay lại “Kiểm tra”, tất cả những thay đổi bạn đã thực hiện trong “Văn bản” sẽ được hiển thị ở đó.


Cơm. 24. Ví dụ về làm việc trong các cửa sổ “Kiểm tra”, “Văn bản” và “Cận cảnh” mở đồng thời

Nếu cửa sổ “Kiểm tra” với khả năng hạn chế của nó không thuận tiện cho bạn (bạn đã quen làm việc với tất cả các tiện ích của trình soạn thảo văn bản và sẽ không thay đổi thói quen của mình), thì bạn có thể thực hiện công việc này trong “Văn bản” cửa sổ ngay từ đầu.

Những địa điểm yêu cầu xác minh được hiển thị đầy đủ ở đó - đây là những ký hiệu và từ được đánh dấu bằng màu xanh nhạt. Khả năng chuyển từ lỗi này sang lỗi khác mà không cần xem toàn bộ trang cũng có sẵn - các nút “Lỗi tiếp theo” và “Lỗi trước” trên thanh nút ở phía bên trái của cửa sổ.

Về mặt lý thuyết, theo những người tạo ra FineReader, cửa sổ “Kiểm tra” phải khá đủ để hiệu đính toàn bộ văn bản được nhận dạng. Tất cả những nơi đáng ngờ đều được đánh dấu, chúng tôi di chuyển dọc theo chúng, sửa lỗi và cuối cùng chúng tôi nhận được một văn bản hoàn toàn sạch sẽ.

Tuy nhiên, như thường lệ, lý thuyết ở đây khác với thực tiễn hàng ngày. Trong các văn bản được công nhận, có những chỗ sai một cách có hệ thống mà không được đánh dấu là lỗi. Nghĩa là, FineReader nhận dạng ký hiệu/từ không chính xác, nhưng đồng thời hoàn toàn tin tưởng rằng nó đã nhận dạng chính xác.

Do đó, để hiệu đính đầy đủ, chỉ cửa sổ “Kiểm tra” thường là không đủ - đặc biệt nếu văn bản chứa nhiều thuật ngữ khoa học hoặc kỹ thuật, biệt ngữ chuyên môn và các “phi từ vựng” tương tự khác. Bạn vẫn cần phải xem qua những gì đã được nhận dạng theo cách thủ công - hãy xem kỹ nó trong cửa sổ “Văn bản” và kiểm tra tất cả những chỗ ít nhiều đáng ngờ.

Hiệu đính văn bản trong cửa sổ “Văn bản” không khác nhiều so với công việc hiệu đính thông thường. Thiết lập cửa sổ “Văn bản” và “Cận cảnh” để chúng chiếm phần lớn cửa sổ làm việc của chương trình, chuyển đến trang tiếp theo mà bạn đang kiểm tra và xem văn bản của trang đó. Nếu bạn tìm thấy một vị trí đáng ngờ hoặc rõ ràng là có sai sót, hãy nhấp vào vị trí đó - trong trường hợp này, con trỏ trong phần “Cận cảnh” được đặt chính xác vào cùng một vị trí trong bản gốc (quét). Bạn so sánh bản gốc và bản được công nhận, chỉnh sửa nếu cần và tiếp tục.


Cơm. 25. Hiệu đính bằng cửa sổ “Văn bản” và “Cận cảnh”

Chức năng của trình soạn thảo cửa sổ Văn bản không khác với chức năng của bất kỳ trình soạn thảo văn bản phức tạp vừa phải nào. Sự xuất hiện của các nút trong menu khá chuẩn, không có vấn đề gì khi làm việc với chúng. Nếu bạn cần sửa một số ký tự bị thiếu trên bàn phím, thì, như trong cửa sổ "Kiểm tra", bạn cần nhấp vào nút có chữ "omega" tiếng Hy Lạp và chọn ký tự cần thiết trong bảng mở ra.

Lưu kết quả

Khi tài liệu được quét được nhận dạng và hiệu đính, nó phải được lưu ở một trong các định dạng tài liệu - DOC, DOCX, RTF, PDF, HTML, v.v. Việc này được thực hiện thông qua “Tệp → Lưu tài liệu dưới dạng → chọn định dạng mong muốn” hoặc thông qua nút “Lưu” trong menu chính của FineReader.

Trong cửa sổ Explorer mở ra, chọn định dạng, sử dụng nút “Cài đặt” để đặt tham số lưu và nhấp vào “OK”. Nếu bạn muốn xem ngay liệu có bất kỳ lỗi đáng chú ý nào về hình thức của văn bản đã lưu hay không thì ngoài ra, hãy chọn hộp kiểm “Mở tài liệu sau khi lưu”. Sau đó, nó sẽ ngay lập tức được mở trong trình chỉnh sửa (trình duyệt, trình xem).


Cơm. 26. Cửa sổ lưu văn bản được nhận dạng

Cách nhận dạng thông thường là văn bản được quét của một cuốn sách hoặc tạp chí được nhận làm đầu vào và ở đầu ra, tất cả các trang của nó sẽ được lưu vào một tệp có tên của cuốn sách này. Đây là cài đặt mặc định “Tạo một tệp cho tất cả các trang” trong dòng “Tùy chọn tệp”. Nếu bạn không nhận ra bất kỳ văn bản rắn nào mà chỉ phân tán các trang (ví dụ: tài liệu văn phòng), thì ở đây bạn sẽ cần đặt “Lưu một tệp riêng cho mỗi trang”.

Cài đặt lưu ở định dạng DOC, DOCX, RTF


Cơm. 27. Cài đặt lưu trong DOC/DOCX/RTF

Điều quan trọng và chính cần chọn ở đây là mức độ chính xác mà hình thức của bản gốc sẽ được hiển thị trong tài liệu đã lưu (một trong các chế độ lưu trong cửa sổ “Thiết kế tài liệu”). Tất cả các cài đặt khác không gì khác hơn là làm rõ và chi tiết hóa mục này.

Có bốn tùy chọn để chọn: Bản cứng, Bản sao có thể chỉnh sửa, Văn bản có định dạng và Văn bản thuần túy.

1. "Bản sao chính xác."

Theo các nhà phát triển, lẽ ra phải có một hình ảnh gần như phản chiếu của trang được nhận dạng. Đó là lý do tại sao nó được gọi như vậy. Với khả năng tái tạo chính xác phông chữ, cỡ chữ (điểm), khoảng cách giữa các chữ cái trong từ, khoảng cách giữa các từ, dòng và đoạn văn cũng như các chi tiết bố cục khác. Nhìn chung, ý tưởng này không tệ, nhưng FineReader thường thiếu khả năng triển khai nó ở mức độ dự kiến.

Phông chữ và kiểu dáng của chúng (Bình thường, Nghiêng, Đậm) thường được sao chép theo nguyên tắc “xuất hiện thì xuất hiện”. Có thể được truyền đạt một cách chính xác. Có thể xảy ra trường hợp phông chữ được sử dụng trên trang được nhận dạng sẽ được thay thế bằng một phông chữ khác (hình thức tương tự nhưng khác). Có thể xảy ra trường hợp kiểu Bình thường sẽ được nhận dạng là Đậm hoặc ngược lại. Vân vân và vân vân.

Khi nói đến việc tái tạo kích thước điểm, khoảng cách và các định dạng khác, tình hình cũng không khá hơn là bao - thường có thể tái tạo chính xác ít nhiều diện mạo (bố cục) của một trang được nhận dạng chỉ trong những trường hợp không quá phức tạp.

Kết quả là một điều gì đó không rõ ràng lắm - một tài liệu Word chỉ có thể đọc được (và sao chép văn bản từ đó). Việc chỉnh sửa nó ngoài việc “xóa một vài chữ cái, chèn một vài chữ cái” là không thực tế. Nhưng việc chỉnh sửa vẫn được yêu cầu - xét cho cùng, nó sẽ tiếp tục một số loại công việc, có nghĩa là sẽ cần phải làm lại định dạng cho phù hợp với nhu cầu sử dụng trong tương lai.

Một mặt, tất cả văn bản ở đây nằm rải rác trên nhiều khung, điều này khiến việc xử lý nó khá khó khăn. Mặt khác, trong quá trình nhận dạng, chương trình tạo ra một loạt các kiểu Word - tất cả định dạng trong văn bản chỉ được thực hiện thông qua các kiểu. Việc văn bản của một cuốn sách cỡ trung bình (300-400 trang) tạo ra hàng trăm phong cách khác nhau là điều khá phổ biến. Điều này làm cho việc chỉnh sửa trở nên khó khăn hơn.

Tóm tắt - việc chọn chế độ lưu này không có nhiều ý nghĩa, làm việc với văn bản đã lưu ở đây khá bất tiện.

Nếu bạn cần tái tạo hoàn chỉnh hình thức của bản gốc, thì việc thực hiện việc này ở dạng PDF “Văn bản dưới hình ảnh trang” hoặc PDF “Chỉ văn bản và hình ảnh” sẽ dễ dàng và thực tế hơn (thêm về các phương thức đầu ra này dưới).

2. “Bản sao có thể chỉnh sửa.”

Về bản chất, đây là phiên bản nhẹ hơn của “Exact Copy”. Hình thức của bản gốc không được sao chép với mức độ tỉ mỉ như trong trường hợp trước, có ít khung hình văn bản hơn đáng kể (mặc dù thỉnh thoảng vẫn có những khung hình). Tuy nhiên, mặc dù tùy chọn này được gọi là “có thể chỉnh sửa” nhưng làm việc với nó cũng không thuận tiện lắm.

Nếu bạn cần một tài liệu Word nguyên trạng, chỉ để xem nội dung của nó và sao chép đoạn văn bản mong muốn, thì bạn có thể sử dụng tùy chọn này. Nếu bạn cần làm lại nhiều, định dạng lại, v.v. thì tốt hơn hết bạn nên chọn thứ khác.

Lý do là như nhau - có quá nhiều rắc rối trong việc chuyển đổi văn bản từ dạng mà “Bản sao đã chỉnh sửa” sẽ tạo ra sang dạng mà bạn có thể cần. Vẫn còn một số văn bản trong khung và vẫn có xu hướng định dạng để tái tạo chính xác hình thức (bố cục) của bản gốc. Và thói quen tạo ra nhiều kiểu dáng vẫn chưa biến mất.

Tóm tắt - làm việc với văn bản ở đây không rắc rối như trong “Bản sao chính xác”, nhưng nó vẫn còn nhiều điều chưa được mong muốn.

3. "Văn bản phong phú."

Ở đây mức độ tương ứng với bản gốc được giảm thiểu - tái tạo phông chữ và kích thước, vị trí gần đúng của tài liệu trên trang gốc, hình thức chung của văn bản và bảng biểu.

Làm việc với tùy chọn này dễ dàng hơn đáng kể so với các tùy chọn trước, nhưng vẫn còn khó khăn do số lượng kiểu dáng lớn. Tuy nhiên, điều này có thể được xử lý khá đơn giản - bạn có thể nhanh chóng xem qua văn bản và áp dụng bộ kiểu của riêng mình cho nó.

4. "Văn bản đơn giản."

Mặc dù nó được gọi là “Văn bản đơn giản”, nhưng ở đây bạn có thể lưu cả văn bản và văn bản kèm theo hình ảnh. Định dạng trong phiên bản này được giữ ở mức tối thiểu - các đoạn Word thông thường từ mép này sang mép kia của trang, cộng với các hình ảnh được chèn giữa chúng. Một loạt các kiểu thông thường từ các tùy chọn trước đó cũng không được tạo.

Nhưng nếu muốn, ngay cả ở đây bạn cũng có thể để lại bản phân tích ban đầu thành dòng và trang. Ngoài ra, hãy lưu các kiểu phông chữ - thông thường, in nghiêng, in đậm.

Thông thường, “Văn bản có định dạng” hoặc “Văn bản thuần túy” được chọn để lưu, tùy thuộc vào việc bạn định làm tiếp theo và cách sử dụng nội dung được nhận dạng.

Bây giờ về các cài đặt còn lại của cửa sổ này.

  1. "Cỡ giấy mặc định."
    Tại đây, bạn đặt cài đặt “Tùy chọn trang → Kích thước giấy” của Word, tức là bạn sẽ in khổ giấy nào. Thường được đặt thành A4. Nhưng chúng ta phải lưu ý rằng trong chế độ “Bản sao chính xác” và “Bản sao có thể chỉnh sửa”, không chỉ nội dung của trang được nhận dạng cũng được lưu từng cái một mà còn cả kích thước ban đầu của nó. Kết quả là nếu bạn đặt khổ giấy ở đây lớn hơn khổ giấy thì khi in sẽ có những khoảng trống xung quanh văn bản. Nếu bạn sử dụng định dạng nhỏ hơn thì một số nội dung trên trang có thể bị mất (nó sẽ nằm ngoài ranh giới của tờ giấy).
  2. “Duy trì ngắt dòng và phân chia.”
    Nếu hộp kiểm này được chọn, phân tích dòng trong bản gốc sẽ được lưu. Ngắt dòng trong trường hợp này được thực hiện mềm mại. Nếu bạn không chọn các hộp, thì văn bản sẽ ở dạng đoạn văn Word thông thường, với các dòng từ mép trang này sang mép trang kia.
  3. "Giữ phân trang."
    Nếu hộp kiểm được chọn, phân trang trong bản gốc sẽ được lưu. Nếu bạn không đánh dấu vào các ô, Word sẽ tự chia văn bản thành các trang.
  4. “Giữ đầu trang, chân trang và số trang.”
    Nếu hộp kiểm được chọn, thì văn bản được đánh dấu và nhận dạng là tiêu đề và số trang sẽ được lưu và đặt vào các trường Word tương ứng. Nếu bạn không chọn hộp này thì phần văn bản này hoàn toàn không được hiển thị.
  5. "Giữ số dòng."
    Nếu hộp kiểm này được chọn thì trong danh sách có các dòng được đánh số, việc đánh số các dòng này sẽ được giữ nguyên.
  6. “Giữ màu nền và màu chữ.”
    Nếu hộp kiểm này được chọn thì văn bản được in màu (hoặc trên nền màu) sẽ được hiển thị như trong bản gốc. Nếu bạn không chọn hộp này thì tất cả văn bản sẽ được hiển thị theo cách thông thường - đen trên nền trắng (hoặc trắng trên nền đen).
  7. “Giữ in đậm, in nghiêng và gạch chân trong văn bản thuần túy.”
    Đầu ra trong “Văn bản đơn giản” có thể được thực hiện theo nguyên tắc “tất cả đều có cùng một kiểu, Bình thường” hoặc có thể được thực hiện trong khi vẫn giữ nguyên kiểu trong bản gốc. Đây là nơi thời điểm này được quy định.
  8. “Làm nổi bật các ký tự không được nhận dạng một cách chắc chắn.”
    Bạn nên chọn hộp kiểm này nếu bạn muốn đọc lại văn bản được nhận dạng không phải trong FineReader mà trong một số trình soạn thảo văn bản. Sau đó, tất cả các dấu của ký tự và từ mà bạn có trong cửa sổ “Văn bản” sẽ được sao chép trong tài liệu đã lưu.
  9. “Lưu hình ảnh.”
    Nó được xác định xem ngoài văn bản, hình ảnh có được lưu hay không.
  10. "Chất lượng hình ảnh."
    Ở đây mức độ nén của hình ảnh từ bản gốc được xác định. Nó có thể được điều chỉnh theo ba hướng - thông qua các thuật toán nén khác nhau, thông qua độ phân giải của hình ảnh đã lưu và thông qua độ sâu màu trong đó. Bạn có thể xem chi tiết nếu bạn chọn tùy chọn “Tùy chỉnh” trong dòng “Chất lượng hình ảnh”. Điều thực tế nhất là sử dụng nó chứ không phải cài đặt trước “Kích thước nhỏ (150 dpi)” và “Chất lượng cao (độ phân giải hình ảnh nguồn)”.


Cơm. 28. Cửa sổ cài đặt chất lượng hình ảnh

Vì khi giảm độ phân giải gốc và quá trình nén sau đó, có thể xảy ra hiện tượng biến dạng khó dự đoán, tốt hơn hết bạn nên bỏ chọn hộp kiểm “Giảm độ phân giải ảnh gốc”.

Đặt độ sâu màu tùy theo tình huống. Nếu bạn cần hình ảnh như hiện tại thì hãy chọn “Không thay đổi màu hình ảnh”. Nếu chỉ nhìn tổng thể là đủ, không cần tái tạo màu chính xác thì hãy chọn “Chuyển đổi hình ảnh màu sang màu xám”. Tốt hơn hết là không nên chọn chuyển đổi hình ảnh màu và xám sang đen trắng, vì quá trình nhị phân hóa có thể tạo ra nhiều biến dạng (và những biến dạng khó dự đoán). Tốt hơn hết là bạn không nên chọn tùy chọn "Tự động" - không rõ logic ở đó là gì và kết quả là bạn sẽ nhận được gì.

Cài đặt để lưu ở định dạng PDF và PDF/A


Cơm. 29. Cài đặt lưu PDF

Ngoài ra còn có bốn chế độ lưu: “Chỉ văn bản và hình ảnh”, “Văn bản trên hình ảnh trang”, “Văn bản dưới hình ảnh trang”, “Chỉ hình ảnh”.

  1. “Chỉ văn bản và hình ảnh.”
    Tại đây, bạn thực sự sẽ nhận được phiên bản PDF của những gì được tạo trong “Bản sao chính xác” - văn bản và hình minh họa được nhận dạng từ cửa sổ “Văn bản” ở dạng gần giống với bản gốc nhất có thể. Chất lượng tái tạo bản gốc ở đây cao hơn so với DOC/DOCX/RTF, vì định dạng PDF có nhiều khả năng hơn đáng kể cho việc này.
  2. "Văn bản trên hình ảnh trang."
    Đây là một tệp PDF bao gồm hai lớp - hình ảnh gốc (lớp dưới cùng), trên đó văn bản được nhận dạng được chồng lên (lớp trên cùng). Tùy chọn này khá thuận tiện nếu PDF sau này sẽ được chỉnh sửa
  3. "Văn bản bên dưới hình ảnh trang."
    Đây là một tệp PDF được tạo thành từ hai lớp giống nhau - hình ảnh gốc và văn bản được nhận dạng. Chỉ có điều chúng đi theo thứ tự ngược lại - hình ảnh là lớp trên cùng, văn bản là lớp dưới cùng (vô hình). Phương thức xuất này còn được gọi là "PDF có hỗ trợ văn bản" và được sử dụng khi bạn cần một mặt là bản sao chính xác về hình thức của bản gốc và mặt khác là khả năng sao chép văn bản của nó. nguyên bản.
  4. "Chỉ hình ảnh."
    Đây là bản PDF được tổng hợp từ những hình ảnh gốc. Không có gì khác ở đó ngoại trừ những hình ảnh.

Bây giờ về các cài đặt còn lại của cửa sổ này.

1. “Cỡ giấy mặc định.”

Trong đầu ra PDF, ý nghĩa của cài đặt này giống như trong trường hợp trước - định dạng của trang tính mà trang sẽ được in.

Trong trường hợp trước, chúng ta đã nói về quy tắc “nếu trang nhỏ hơn định dạng đã chỉ định thì sẽ có các trường trống xung quanh văn bản, nếu lớn hơn, một phần văn bản sẽ bị cắt đi”. Trong PDF, điều này thậm chí còn được tuân thủ nghiêm ngặt hơn, vì ở đây trang nguồn trong bất kỳ phiên bản nào đều được sao chép từng cái một. Do đó, sẽ hợp lý nhất khi đặt “Sử dụng kích thước gốc” ở đây.

2. “Giữ màu nền và màu chữ.”

3. “Lưu đầu trang và chân trang.”

Ý nghĩa của hai cài đặt này giống như trong trường hợp trước.

4. “Tạo mục lục.”

Nếu hộp kiểm “Phát hiện các thành phần cấu trúc → Mục lục” được chọn trong cài đặt nhận dạng thì mục lục sách được nhận dạng theo cách này có thể được sử dụng để tự động tạo mục lục trong tệp PDF.

5. “Cho phép thẻ PDF.”

Trong PDF, thẻ là một chức năng tương tự như kiểu Word, một cách đánh dấu cấu trúc nội dung của tệp PDF. Với sự trợ giúp của họ, thông tin về việc chia văn bản thành các chương, tiêu đề, mục lục, hình minh họa, bảng biểu, ghi chú, siêu liên kết, công thức toán học, v.v. sẽ được lưu lại.

Nếu bạn thường xuyên cần sao chép các đoạn văn bản từ PDF thì bạn nên chọn hộp này. Văn bản được sao chép sau đó sẽ nhất quán hơn nhiều với cách nó xuất hiện trên trang PDF.

Thẻ cũng hữu ích nếu PDF phải được xem trên các màn hình có kích thước khác nhau - từ máy tính để bàn đến điện thoại thông minh. Trong những trường hợp như vậy, trình đọc PDF phải định dạng lại nội dung của các trang để phù hợp với kích thước màn hình hiện tại và với đánh dấu được gắn thẻ, điều này diễn ra chính xác hơn nhiều mà không làm biến dạng đáng kể hình thức ban đầu.

6. “Sử dụng Nội dung raster hỗn hợp (MRC).”

MRC (Nội dung raster hỗn hợp) là tên của một công nghệ nén có khả năng tạo ra tỷ lệ nén cao hơn đáng kể so với JPEG và JPEG 2000 nổi tiếng. Nhiều người quen thuộc với nó từ định dạng DjVu - nó được xây dựng đặc biệt trên cơ sở MRC. Lựa chọn “tôi có nên chọn hộp này hay không” ở đây không rõ ràng và được xác định dựa trên tình huống của bạn.

Ưu điểm chính là kích thước của tệp PDF kết quả. Nó có thể nhỏ hơn vài lần so với một tệp PDF thu được với cùng cài đặt nén nhưng không có MRC.

Nhược điểm có thể là gì:

Nén MRC được thiết kế theo cách mà trong quá trình hoạt động, nó luôn tạo ra mức độ biến dạng khó dự đoán được. Do thực tế là độ biến dạng ở đây chỉ phụ thuộc một phần vào cài đặt nén và phần lớn phụ thuộc vào nội dung của trang. Văn bản, hình vẽ, đồ thị, ảnh - với tính năng nén MRC, tất cả chúng đều hoạt động khác nhau đáng kể và tạo ra mức độ biến dạng khác nhau.

Mức tiêu thụ tài nguyên cao hơn đáng kể khi nén và xem các tệp PDF như vậy. Ngay cả trên các máy tính ngày nay, MRC-PDF có thể được mở và cuộn không phải theo cách mượt mà thông thường mà ở dạng nhảy, khi trang tiếp theo được hiển thị trên màn hình không phải tất cả cùng một lúc mà theo từng phần.

7. “Lưu ảnh.”

8. "Chất lượng hình ảnh."

Ý nghĩa của các cài đặt này giống như trong trường hợp trước - có cần lưu hình ảnh khi tạo tệp PDF hay không và ở mức nén nào để lưu chúng. Các đề xuất cũng tương tự - bỏ chọn “Giảm độ phân giải gốc”, tốt hơn là không thay đổi màu sắc, đặt công cụ “Chất lượng” giống như cách nén trong JPEG 2000.

9. "Phông chữ".

Nếu bạn chọn “Sử dụng phông chữ Windows”, thì để nhận dạng và xuất ra tiếp theo, bộ phông chữ được cài đặt trên máy tính của bạn sẽ được sử dụng. Nếu bạn chọn “Sử dụng phông chữ được xác định trước” thì chỉ bộ phông chữ được cài đặt khi cài đặt FineReader.

Tốt nhất nên chọn tùy chọn đầu tiên, vì tùy chọn này sẽ sử dụng nhiều phông chữ lớn hơn nhiều và chương trình sẽ dễ dàng khớp với phông chữ của những cuốn sách được công nhận hơn.

10. “Nhúng phông chữ.”

Nếu bạn yêu cầu rằng khi xem tệp PDF trên máy tính khác, tệp sẽ hiển thị chính xác như khi bạn nhận được (bằng các phông chữ này), thì bạn cần chọn hộp này.

11. “Tùy chọn bảo mật PDF.”

Tại đây, bạn có thể đặt mật khẩu bảo vệ để xem, in, sao chép văn bản và hình ảnh từ đó cũng như chỉnh sửa PDF.

Nếu bạn có thắc mắc về hoạt động của FineReader mà bạn không tìm thấy câu trả lời trong nội dung bài viết, bạn có thể hỏi nhà phát triển chương trình.

Lần này tôi sẽ hướng dẫn bạn cách chuyển tài liệu giấy sang định dạng PDF điện tử, cũng như cách chuyển tài liệu giấy sang máy tính để thay đổi văn bản. Vì vậy, hãy bắt đầu.
Tôi có một tài liệu giấy trong tay.

QUÉT sang PDF

Nhiệm vụ: chuyển tài liệu này vào máy tính (dịch sang dạng điện tử). Hơn nữa, nó cần phải được thực hiện chính xác theo hình thức này để sau này không thể thay đổi được (nói đại khái là bạn cần chụp ảnh tài liệu). Sau đó, tài liệu điện tử này phải được gửi qua đường bưu điện đến địa chỉ email. Hơn nữa, khách hàng yêu cầu nó ở định dạng pdf.

Theo từng giai đoạn:
1) Tôi chuyển tài liệu qua máy quét
2) Tôi lưu bản in thu được ở định dạng pdf vào máy tính của mình
3) Tôi gửi tập tin đã nhận qua thư
Trong công việc của mình, tôi sử dụng 2 chương trình để giải quyết vấn đề này:
Foxit Phantom hoặc ABBYY FineReader. Để rõ ràng, tôi đính kèm ảnh chụp màn hình:
Trong Foxit Phantom, khi bật máy quét, bạn cần chọn FILE-CREATE PDF FROM SCANNER trong menu chính...
Quá trình quét sẽ diễn ra và bạn sẽ được nhắc lưu tệp. Chọn một vị trí, viết tên tập tin và lưu.

ABBYY FineReader có các nút lớn trên thanh công cụ. Một trong số đó được gọi là QUÉT sang PDF. Chúng tôi sử dụng nó.

Nếu bạn cần quét một tài liệu nhiều trang thì theo các giai đoạn:
1) Nhấn nút số 1 QUÉT

Chúng tôi nhận được một tài liệu được quét

Chúng ta cũng quét thêm một trang khác (nhấn nút số 1 QUÉT lần nữa).
2) Lưu dưới dạng PDF



Kết quả là chúng ta nhận được một tài liệu nhiều trang hoàn chỉnh ở dạng tệp PDF.

Bây giờ tập tin này có thể được gửi qua email.

NHẬN DẠNG VĂN BẢN

Công việc: chuyển đổi văn bản giấy sang dạng điện tử (sang máy tính)

Theo từng giai đoạn:
1) Quét (nút 1 QUÉT)

2) Nhận dạng (nút 2 NHẬN DẠNG TẤT CẢ)

Nhận dạng nên được hiểu là quá trình chuyển một bức ảnh (hình ảnh) thành văn bản (chữ cái, số, ký hiệu). Nếu bạn chụp ảnh một trang văn bản, thì sau khi nhận dạng 99% văn bản từ giấy, nó sẽ chuyển thành văn bản điện tử. Văn bản điện tử đã có thể được thay đổi (chỉnh sửa) trên máy tính theo cách bạn muốn.

3) Lưu vào trình soạn thảo văn bản (nút 4 Lưu)
Tôi khuyên bạn nên chọn CHUYỂN TẤT CẢ CÁC TRANG SANG MICROSOFT WORD

Chúng tôi nhận được

Tôi muốn chỉ ra những điểm quan trọng trong quá trình CÔNG NHẬN. Có những sắc thái khi làm việc.
Ngay sau khi công nhận, tôi khuyên bạn nên xem kết quả. Đặc biệt là trên các khối mà chương trình FineReader tạo ra.

Đây là những khu vực được đánh dấu bằng khung hình chữ nhật. Những khung này có nhiều màu sắc khác nhau. Nếu nó có màu đỏ thì khối này được nhận dạng là HÌNH ẢNH. Nếu màu đen thì TEXT. Khối có nhiều loại khác nhau. Loại khối có thể được tìm thấy bằng cách nhấp vào khối bằng nút chuột PHẢI và chọn THAY ĐỔI LOẠI KHỐI.

Một mẹo nhỏ: bạn có thể chọn một vùng tùy ý và gắn nhãn cho nó bằng bất kỳ loại khối nào. Ví dụ: hãy chọn phần văn bản khó được nhận dạng bằng nút chuột trái (nhấp, giữ và kéo, khung sẽ thay đổi kích thước).

Kết quả tài liệu trong Word sẽ có một khối văn bản và một khối hình ảnh. Hình ảnh khối sẽ có diện mạo hoàn toàn không thay đổi. Tôi sử dụng phương pháp này khi lưu tem, phông chữ không chuẩn, hình ảnh và ảnh chụp.

Tái bút: Kiến thức và khả năng làm việc với PDF, scan và nhận dạng tài liệu rất hữu ích trong công việc văn phòng. Kiến thức tiết kiệm thời gian của bạn!

Một trong những chức năng phổ biến nhất để làm việc với các loại tệp quét và xử lý khác nhau là Fine Reader. Chức năng của sản phẩm phần mềm được phát triển bởi công ty ABBYY của Nga, nó không chỉ cho phép nhận dạng mà còn xử lý tài liệu (dịch, thay đổi định dạng, v.v.). Nhiều người dùng chỉ có thể cài đặt nó nhưng không thể tìm ra ngay cách sử dụng ABBYY FineReader. Bạn có thể tìm thấy câu trả lời cho nhiều câu hỏi trong bài viết này.

Chương trình cho phép bạn quét và nhận dạng văn bản - và hơn thế nữa

Để hiểu chi tiết loại chương trình ABBYY FineReader 12 là gì, bạn cần xem xét chi tiết tất cả các khả năng của nó. Chức năng đầu tiên và đơn giản nhất là quét tài liệu. Có hai tùy chọn quét: có và không có nhận dạng. Nếu bạn quét một tờ in thông thường, bạn sẽ nhận được hình ảnh bạn đã quét trong thư mục được chỉ định trên thiết bị máy tính của bạn.

CHÚ Ý. Tờ giấy phải được đặt đều trên phần scan của máy in, dọc theo đường viền ghi trên máy in. Không để tệp nguồn bị cong vì điều này có thể dẫn đến chất lượng của lần quét cuối cùng kém.

Bạn phải tự quyết định lý do tại sao bạn cần FineReader, vì tiện ích này có chức năng quan trọng, chẳng hạn như bạn có thể độc lập chọn màu bạn muốn nhận hình ảnh, có thể chuyển đổi tất cả ảnh sang đen trắng. Ở chế độ đen trắng, khả năng nhận dạng nhanh hơn và chất lượng xử lý tăng lên.

Nếu bạn quan tâm đến chức năng nhận dạng văn bản của ABBYY FineReader, bạn cần nhấn một nút đặc biệt trước khi quét. Trong trường hợp này, có một số tùy chọn để lấy thông tin. Theo tiêu chuẩn, một mảnh trang tính được nhận dạng sẽ được hiển thị trên màn hình của bạn, bạn có thể sao chép hoặc chỉnh sửa thủ công.

Nếu bạn chọn các chức năng khác, bạn có thể nhận ngay tệp dưới dạng tài liệu Word hoặc bảng Excel. Việc lựa chọn các chức năng rất đơn giản, menu trực quan và dễ tùy chỉnh do tất cả các nút bạn cần đều ở ngay trước mắt bạn.

QUAN TRỌNG. Trước khi ABBYY FineReader có thể nhận dạng văn bản, bạn cần chọn chính xác ngôn ngữ xử lý. Mặc dù thực tế là tiện ích hoạt động hoàn toàn tự động, nhưng điều đó xảy ra là chất lượng nguồn thấp không cho phép chúng tôi hiểu loại ngôn ngữ trong nguồn. Điều này làm giảm đáng kể chất lượng của kết quả cuối cùng của ứng dụng.

Nhiều chế độ hoạt động

Để hiểu đầy đủ cách sử dụng ABBYY FineReader 12, bạn cần thử hai chế độ hoạt động: “Cẩn thận” và “Nhận dạng nhanh”. Chế độ thứ hai phù hợp với hình ảnh chất lượng cao và chế độ thứ nhất dành cho các tệp chất lượng thấp. Chế độ Kỹ lưỡng mất nhiều thời gian hơn 3-5 lần để xử lý tệp.

Hình minh họa kết quả của chương trình - nhận dạng văn bản từ hình ảnh

Có những chức năng nào khác?

Nhận dạng văn bản trong ABBYY FineReader không phải là chức năng hữu ích duy nhất. Để thuận tiện hơn cho người dùng, có thể dịch tài liệu sang các định dạng mà người dùng yêu cầu (pdf, doc, xls, v.v.).

Thay đổi văn bản

Để hiểu cách thay đổi văn bản trong Fine Reader, người dùng cần mở tab “Công cụ” - “Xác minh”. Sau đó, một cửa sổ sẽ mở ra cho phép bạn chỉnh sửa phông chữ, thay đổi ký hiệu, màu sắc, v.v. Nếu bạn đang chỉnh sửa một hình ảnh, thì bạn nên mở “Image Editor”, nó gần như hoàn toàn tương ứng với chương trình Paint đơn giản, nhưng nó sẽ cho phép bạn thực hiện những chỉnh sửa tối thiểu.

CHÚ Ý. Nếu bạn vẫn chưa thể tìm ra cách sử dụng ABBYY FineReader một cách hiệu quả, bạn có thể đọc phần “Trợ giúp”, có thể tìm thấy trong cửa sổ ứng dụng, trong tab “Giới thiệu”.

Bây giờ bạn đã biết chương trình FineReader phục vụ mục đích gì và bạn có thể sử dụng chương trình này một cách chính xác ở nhà hoặc tại văn phòng. Chức năng của ứng dụng rất lớn, hãy sử dụng nó và bạn sẽ tin chắc về sự không thể thiếu của sản phẩm phần mềm này khi xử lý tài liệu, hồ sơ trong quá trình làm việc văn phòng.