Hướng dẫn nhận biết chương trình abbyy Finereader. Làm cách nào để sử dụng ABBYY FineReader? Làm việc với chương trình

Lịch sử của Abbyy FineReader đã có hơn 20 năm. Công ty đã kỷ niệm năm 2013 bằng việc phát hành phiên bản đầy đủ (so với Express Edition từ năm 2009) Abbyy FineReader Pro cho Mac, và vài tháng sau, vào tháng 2 năm 2014, họ cũng nhận được “món quà” của mình. Người dùng Windows- Abbyy FineReader 12 Chuyên nghiệp và Doanh nghiệp. Hãy để tôi nhắc bạn rằng phiên bản trước đó đã xuất hiện vào năm 2011 và hai năm rưỡi là một khoảng thời gian dài - hãy cùng tìm hiểu xem những thay đổi đó quan trọng như thế nào.

thông tin chung

Yêu cầu hệ thống đối với phiên bản mới không hề thay đổi chút nào. Nền tảng có thể là Windows hoặc máy chủ Windows bắt đầu từ XP và 2003 tương ứng. Ngày nay, yêu cầu về phần cứng thậm chí còn khiêm tốn hơn: bộ xử lý có dung lượng bất kỳ với tần số từ 1 GHz trở lên, bộ nhớ truy cập tạm thờiít nhất 1 GB cộng với 512 MB cho mỗi lõi máy tính, v.v. Chỉ cần không gian đĩa- hiện tại, quá trình cài đặt không yêu cầu 700 mà là 850 MB (cộng với 700 MB khác cho các tệp đang hoạt động, như trước đây).

Một cách tự nhiên, Chúng ta đang nói vềồ Yêu cầu tối thiểu; Toàn bộ khả năng của Abbyy FineReader 12 Professional sẽ chỉ được tiết lộ trên các hệ thống tương đối hiện đại. Đặc biệt, hãy để tôi nhắc bạn rằng chương trình có thể xử lý song song một cách hiệu quả các trang riêng lẻ, sử dụng tất cả các lõi bộ xử lý và tải bất kỳ bộ xử lý nào gần như 100%. Nhưng nó thực sự không hề tham lam khi nói đến RAM, thậm chí vẫn giữ nguyên 32-bit.

Quy trình cài đặt cũng không thay đổi: tối thiểu các câu hỏi và tùy chọn. Abbyy FineReader 12 Professional vẫn đi kèm với Abbyy Screenshot Reader, tính năng này chỉ hoạt động sau khi người dùng đăng ký.

Sau này, quyền truy cập vào hỗ trợ kỹ thuật cũng sẽ mở.

Ngay cả trên cơ sở thông tin khiêm tốn này, chúng ta có thể cho rằng đây là kết quả của quá trình tiến hóa. Theo đó, trong thời gian tới tôi sẽ tập trung mô tả những thay đổi so với phiên bản trước, có thể chia làm 2 nhóm chính: làm việc với chương trình (giao diện, công cụ phụ trợ, dễ sử dụng) và OCR (chất lượng và hiệu suất nhận dạng). chính nó).

Làm việc với chương trình

Abbyy FineReader 12 Professional thể hiện một số cải tiến trong giao diện người dùng. Điều này có thể nhận thấy ngay lập tức trong cửa sổ Tác vụ, cửa sổ này sẽ mở theo mặc định khi chương trình khởi động. Rõ ràng là nó bắt chước khái niệm Gạch lát cửa sổ 8.x và được điều chỉnh để điều khiển bằng ngón tay, đặc biệt vì chương trình cũng hỗ trợ các cử chỉ cơ bản như cuộn và thu phóng. Trên thực tế, những thay đổi chỉ ảnh hưởng đến “mặt tiền” và chỉ một phần - bên cạnh các ô có các điều khiển thông thường và trong quá trình thiết lập bất kỳ kịch bản nào, bạn sẽ phải xử lý các kịch bản tiêu chuẩn những hộp thoại. Làm việc với chúng bằng ngón tay khá khó khăn, đặc biệt là trên màn hình 8-10 inch, màn hình đang trở nên phổ biến với máy tính bảng Windows.

Thực sự không khó để tưởng tượng rằng người dùng một chiếc máy tính bảng được trang bị máy ảnh như vậy có thể muốn nhanh chóng nhập một số tài liệu in “khi đang di chuyển”. Trong khi đó, tất cả Lịch sử Windows, bắt đầu với phiên bản đầu tiên của Tablet PC, xác nhận sự vô nghĩa của việc điều chỉnh giao diện máy tính để bàn tiêu chuẩn để điều khiển bằng cảm ứng. Rõ ràng, với những mục đích này, sẽ đúng hơn nhiều nếu tạo ra một lớp vỏ đặc biệt tương ứng với tất cả các khẩu pháo Metro, nhưng sử dụng cùng một "động cơ". Một ví dụ về giải pháp như vậy là trình duyệt web IE từ Windows 8.x. Ngoài ra, Abbyy thậm chí còn tồn đọng một lượng tồn đọng nhất định là Abbyy FineReader Touch cho Windows 8, sử dụng dịch vụ điện toán đám mây các công ty.

Nếu chúng ta buông bỏ tâm trí của mình đầu vào cảm ứng, thì sẽ có nhiều thay đổi hơn trong lớp này - từ bản cập nhật khá được mong đợi của các cửa sổ để mở/lưu tài liệu, trong số những thứ khác, cung cấp khả năng truy cập dễ dàng vào lưu trữ đám mây(nếu có một tác nhân tương ứng và thư mục của nó trong hệ thống), đến một số tác nhân quan trọng và hữu ích hơn.

Quá trình xử lý trang trong Abbyy FineReader 12 Professional hiện được thực hiện ở chế độ nền. Điều này hàm ý sự vắng mặt của cái trước cửa sổ phương thức với tình hình hoạt động (hiện nay vai trò này dòng trạng thái ở cuối màn hình sẽ phát) và theo đó, khả năng truy cập vào giao diện. Do đó, người dùng có cơ hội làm việc với chương trình song song với quá trình nhận dạng (tất nhiên là nếu nó đủ dài), chẳng hạn như sao chép các đoạn văn bản nhận được hoặc thậm chí điều chỉnh bố cục trang - phần sau sẽ là xếp hàng và xử lý lại.

Không giống như phiên bản trước, tính năng này cũng không có tính năng lật trang trong quá trình nhận dạng hoặc khi tài liệu được tải lần đầu nếu tính năng nhận dạng tự động bị tắt. Trong Abbyy FineReader 12 Professional, tài liệu được tải và chia thành các trang gần như ngay lập tức và hình thu nhỏ của chúng chỉ được tạo khi bạn cuộn qua bảng điều khiển bên trái theo cách thủ công. Trong số những thứ khác, điều này giúp tiết kiệm tài nguyên máy tính, đặc biệt đáng chú ý trên các tài liệu lớn nhiều trang.

Những thay đổi còn lại trong lớp này không quá thú vị, mặc dù chúng có thể hữu ích trong một số trường hợp, vì vậy chúng ta sẽ nói ngắn gọn về chúng.

Nếu bạn không cần xử lý toàn bộ tài liệu mà chỉ trích dẫn từng đoạn riêng lẻ, thì bạn có thể tắt tất cả các thao tác tự động và chọn các đoạn cần thiết thuộc bất kỳ loại nào, sao chép ngay chúng vào bảng tạm - trong khi quá trình phân tích và nhận dạng sẽ được thực hiện nhanh chóng .

Để có được kết quả có cấu trúc đơn giản hơn bản gốc, bạn có thể tắt tính năng tạo lại đầu trang, chân trang và các thành phần bố cục khác. Điều này có thể hữu ích, chẳng hạn như khi chuẩn bị sách điện tử.

Tiếp tục về sách điện tử - Abbyy FineReader 12 Professional hỗ trợ định dạng EPUB 2.0.1 và 3.0.

Các tùy chọn chuyển đổi sang XLSX đã được mở rộng, ví dụ: giờ đây có thể xóa định dạng hoặc lưu hình ảnh.

Khi lưu tài liệu thu được sang PDF bằng lớp văn bản bây giờ bạn có thể sử dụng công nghệ mới Quét chính xác Abbyy, bao gồm làm mịn các ký tự trên hình ảnh gốc trang. Nhân tiện, nó chỉ khả dụng ở chế độ màu.

Hiệu quả từ công việc của cô ấy khá đáng chú ý, mặc dù không phải lúc nào cũng vậy, hãy nói là “học thuật”. Tuy nhiên, khả năng đọc của các ký tự khử răng cưa sẽ cao hơn trong mọi trường hợp và trong trong ví dụ này Bản gốc thực sự có chất lượng rất thấp.

OCR

Bây giờ chúng ta hãy xem những cải tiến nào đã xảy ra trong chính cơ chế nhận dạng.

Các nhà phát triển báo cáo giai đoạn tiếp theo trong việc cải tiến công nghệ ADRT, để tôi nhắc bạn, phân tích và tái tạo cấu trúc logic của tài liệu. Người ta tuyên bố rằng nó đã bắt đầu hoạt động chính xác hơn nhiều, đặc biệt là với các bảng, danh sách và sơ đồ. Chứng minh điều này bằng những ví dụ đầy đủ không phải là điều dễ dàng nhưng không phải là không thể. Ví dụ: đây là kết quả nhận dạng (với cài đặt mặc định) của cùng một trang trong Abbyy FineReader 11 Professional (ở trên) và Abbyy FineReader 12 Professional (bên dưới).

Phiên bản cũ chỉ chọn lọc và xử lý khối văn bản chính, có lẽ coi những phần tử còn lại là “rác” do chất lượng của bản gốc không cao. Ngược lại, cái mới đã xác định chính xác danh sách và cố gắng tạo lại nó. Tuy nhiên, kết quả không lý tưởng: thực tế là không phải tất cả các điểm đánh dấu đều được nhận dạng, một lần nữa, có thể được quy cho chất lượng của hình ảnh, nhưng rõ ràng là chương trình vẫn không hiểu rằng có nội dung phía trước nó, nếu không thì nó sẽ không hiểu các con số là các chữ cái. Tuy nhiên, sự tiến bộ là hiển nhiên và những tuyên bố như vậy có thể không được đưa ra với những bản gốc chất lượng cao hơn.

Và đây là cách xử lý bảng “ngầm” không có đường phân chia - Abbyy FineReader 11 Professional (ở trên) và Abbyy FineReader 12 Professional (bên dưới).

Có thể thấy rõ rằng phiên bản cũ, không giống như phiên bản mới, hoàn toàn không thấy cấu trúc bảng ở đây và bị giới hạn ở một tập hợp các khối văn bản không liên quan. Hãy dành thời gian nhấp vào hình ảnh và so sánh kết quả nhận dạng - Abbyy FineReader 12 Professional gần như lý tưởng.

Thật không may, điều này không phải lúc nào cũng xảy ra và trên các trang lân cận Abbyy FineReader 12 Professional đã hiển thị kết quả tương tự như Abbyy FineReader 11 Professional. Mặc dù ADRT lẽ ra phải theo dõi những “mũ” giống hệt nhau và hiểu rằng phía trước nó là một loại bàn chảy.

Nhưng vẫn có thể nhận thấy rõ ràng rằng các thuật toán cập nhật chú ý đến số lượng lớn chi tiết hơn trước. Ví dụ: trong quá trình thử nghiệm Abbyy FineReader 12 Professional, thậm chí còn có nỗ lực diễn giải một bức ảnh có vị trí được sắp xếp trên đó dưới dạng một cái bàn. thông tin văn bản. Thông thường, phiên bản mới cũng cố gắng tạo lại các sơ đồ và sơ đồ khác nhau dựa trên hình nền, thay vì từ các khối văn bản và đồ họa riêng lẻ.

Có một số tính năng mới khác được thiết kế để cải thiện chất lượng nhận dạng trong Abbyy FineReader 12 Professional. Như bạn đã biết, một trong những điều kiện tiên quyết cho điều này là chất lượng của bản gốc, đặc biệt nếu nó được lấy bằng máy ảnh chứ không phải máy quét. Đó là lý do vì sao FineReader đã từng giới thiệu các công cụ xử lý trước bản gốc. Trong phiên bản mới, danh sách của họ đã được mở rộng, cắt dọc theo các cạnh của trang, làm sáng và cân bằng độ sáng nền cũng như thêm các thành phần loại bỏ màu. Cái sau có thể hữu ích, ví dụ, để xử lý các tài liệu có con dấu và tem. Ngoài ra, người dùng hiện có thể kết nối Các phương pháp khác nhau riêng lẻ.

Hỗ trợ ngôn ngữ cũng đã được cải thiện. Thứ nhất, bảng chữ cái tiếng Nga có dấu đã xuất hiện, thứ hai là chất lượng nhận dạng tiếng Trung, tiếng Nhật và tiếng Hàn (lên tới 20%), tiếng Ả Rập (lên tới 60%) và tiếng Do Thái (lên tới 10%) đã tăng lên. đã tuyên bố - điều này rõ ràng đã đạt được thông qua việc cải tiến và đào tạo bổ sung các bộ phân loại.

Và cuối cùng, một trong những câu hỏi hóc búa nhất của nhiều độc giả: tốc độ của chương trình có tăng lên không? Không dễ để trả lời câu hỏi này một cách hợp lý, đặc biệt là với những con số - có quá nhiều ngôn ngữ, mỗi ngôn ngữ đều có những sắc thái riêng; sự đa dạng của bản gốc quá lớn; Có quá nhiều yếu tố chưa biết ảnh hưởng đến hoạt động của thuật toán. Vì vậy, ngay cả bản thân các nhà phát triển cũng khá kiềm chế khi nói về việc tăng hiệu suất của Abbyy FineReader 12 Professional thêm 10-15%.

Những số liệu như vậy thường thu được từ kết quả xử lý các mảng tài liệu khá lớn và theo đó, đại diện cho một cái gì đó như “ nhiệt độ trung bình xung quanh bệnh viện.” Vì vậy, sẽ rất hữu ích nếu nghiên cứu chi tiết hơn một số trường hợp đặc biệt minh họa, chẳng hạn như hai trường hợp sau:

được quét màu với độ phân giải 300 dpi 10 trang tập sách đủ màu ở định dạng A4. Chất lượng tốt, ngôn ngữ là tiếng Nga và tiếng Anh, bố cục phức tạp;
PDF với Hình ảnh đồ hoạ Cuốn sách dày 138 trang có một số ít hình minh họa màu và đen trắng, một số bảng. Chất lượng thấp (rõ ràng bắt đầu từ việc in "mù" trong sách giấy), ngôn ngữ là tiếng Ukraina và tiếng Nga, bố cục đơn giản.

Cả hai tài liệu đều được nhận dạng ở chế độ màu và tài liệu thứ hai cũng được nhận dạng ở chế độ đen trắng, nhằm mục đích mô phỏng quá trình chuẩn bị sách điện tử. Tất cả các cài đặt mặc định đều được giữ nguyên, ngoại trừ bộ ngôn ngữ và theo đó là các chế độ vận hành. Một PC có bộ xử lý i5-3450 và bộ nhớ 8 GB đã được sử dụng làm nơi thử nghiệm. Kết quả được trình bày ở bảng sau:

Như bạn có thể thấy, đối với PDF, tốc độ tăng tốc thậm chí còn vượt quá 15% đã hứa - có lẽ đây chỉ là một trong những trường hợp đặc biệt rất phù hợp cho những tối ưu hóa mới nhất trong thuật toán nhận dạng. Cần lưu ý rằng các chương trình, nói chung, đã thực hiện khối lượng công việc khác nhau. Chỉ cần nhìn vào các hình minh họa ở trên để xử lý bảng - thật khó để nói phiên bản nào khó hơn.

Về số lượng lỗi, thực tế là cả hai phiên bản đều giống nhau, mặc dù có thể nhận thấy rằng đôi khi vẫn nảy sinh nghi ngờ những mảnh khác nhau và các ký hiệu - đây dường như là bằng chứng của việc đào tạo thuật toán. Trong mọi trường hợp, phần lớn các ký tự được nhận dạng không chắc chắn đã được xác định chính xác tuyệt đối bằng cách sử dụng từ điển và các lỗi “tổng thể” (giải thích không chính xác các ký hiệu đặc biệt và trang trí, văn bản trên đồ họa, v.v.) đều trùng khớp. Vì vậy sự khác biệt có thể được coi là biến mất hoàn toàn.

Một câu hỏi khác là, việc cải thiện năng suất như vậy có ý nghĩa như thế nào? Rõ ràng, nửa phút thu được trên 138 trang vẫn cần được kiểm tra và có thể sửa chữa là không có giá trị bao nhiêu. Nếu công việc như nhiệm vụ kiểm tra thỉnh thoảng được thực hiện thì bạn chắc chắn không phải lo lắng về hiệu suất. Vấn đề lại khác khi xử lý ngoại tuyến khối lượng lớn tài liệu có sẵn trong Abbyy FineReader 12 Corporate. Trong trường hợp này, việc tiết kiệm được 15% thời gian là khá đáng chú ý.

Bản tóm tắt

Mặc dù thực tế là Abbyy FineReader 12 Professional mới không hứa hẹn bất cứ điều gì mang tính cách mạng, nhưng ít nhất một vài thay đổi trong nó cũng đáng được khen ngợi. Trước hết, đây là những cải tiến của công nghệ ADRT về mặt nhận dạng bảng, biểu đồ và nói chung cấu trúc logic trang, trong một số trường hợp cho phép bạn nhận được đáng kể điểm cao nhất, Và chế độ nền xử lý, mở ra những cơ hội mới cho công việc tương tác với các tài liệu lớn.

Ngoài ra còn có nhiều thay đổi khác nhưng không đáng kể. Phong trào hướng tới hỗ trợ điều khiển cảm ứng ngày nay chắc chắn là hợp lý, nhưng con đường được chọn là một con đường luẩn quẩn - cung cấp điều tương tự trong một giao diện công việc thoải máiĐiều đó khó có thể thực hiện được với chuột và ngón tay. Tuy nhiên, hiện tại, máy tính bảng Windows chỉ đang cố gắng thâm nhập thị trường và các nhà phát triển từ Abbyy vẫn còn thời gian.

Giá Abbyy FineReader 12 Professional:

phiên bản đóng hộp: 4990 RUR;
phiên bản tải xuống: 4.490 RUB;
cập nhật: 2690 chà.

Như thường lệ, câu trả lời cho câu hỏi “đổi phiên bản cũ sang phiên bản mới có đáng không?” tùy theo hoàn cảnh. Trong mọi trường hợp, điều đáng xem xét là vòng đời FineReader tồn tại khá lâu và nếu bất kỳ cải tiến nào được mô tả đóng vai trò quan trọng đối với bạn, thì sau 2-3 năm, chi phí cập nhật chắc chắn sẽ được đền đáp - nếu không phải về mặt tài chính thì về mặt đạo đức. Việc tự mình giải quyết câu hỏi này cuối cùng sẽ có ích.

Xin chào. Hôm nay tôi sẽ nói về cách sử dụng chương trình Abbyy FineReader để nhận dạng văn bản từ hình ảnh mà bạn có thể nhận được sau quá trình quét. Văn bản được quét của bạn sẽ hoàn toàn có trong tài liệu Phần mềm soạn thảo văn bản và văn bản được công nhận này có thể được chỉnh sửa! Nhận dạng văn bản bằng Abbyy Finereader có thể hữu ích cho những người nghiên cứu, làm việc với văn bản và bản dịch. Thật không may, chương trình này được trả tiền. Tôi đã từng có cơ hội thử một trong những tùy chọn miễn phí các chương trình tương tự, nhưng văn bản được quét rất tốt được nhận dạng một cách đơn giản khủng khiếp... Và nhận dạng văn bản trong Abbyy FineReader hóa ra có chất lượng rất cao! Bây giờ tôi sẽ hướng dẫn bạn cách sử dụng chương trình Abbyy FineReader để nhận dạng nhanh văn bản từ hình ảnh.

ABBYY FineReader có phiên bản dùng thử trong 30 ngày với khả năng nhận dạng lên tới 100 trang và lưu không quá 3 trang từ một tài liệu. Những thứ kia. Trong thời gian này, bạn có thể xem các khả năng của chương trình và đưa ra quyết định sáng suốt - liệu bạn có cần nó hay không, liệu nó có đáng mua hay không.

Cách cài đặt Abbyy FineReader!

Trước khi sử dụng Abbyy Finereader bạn cần cài đặt nó. Hãy xem quá trình cài đặt của chương trình này...

Đầu tiên, chọn ngôn ngữ chương trình. Nhấp vào "OK".

Chúng tôi chấp nhận các điều khoản thỏa thuận cấp phép(Nếu muốn, bạn có thể đọc thỏa thuận cấp phép nếu bạn quan tâm đến nội dung của nó). Bấm tiếp".

Tiếp theo, bạn phải chọn chế độ cài đặt. Tại chế độ bình thường chương trình sẽ không hỏi bạn và sẽ cài đặt những gì được chỉ định trong chương trình theo mặc định, cụ thể là tất cả các thành phần: chính chương trình nhận dạng văn bản Abbyy Finereader, một thành phần dành cho các chương trình Microsoft Office và một thành phần dành cho Windows Explorer (cho phép bạn nhanh chóng nhận dạng hình ảnh mà không cần mở chương trình riêng). Tôi khuyên bạn nên kiểm tra cài đặt tùy chỉnh để định cấu hình nó theo cách bạn cần. Hơn nữa, sẽ không mất tới 15 phút :) Dưới đây là thư mục nơi chương trình sẽ được cài đặt. Nên để lựa chọn mặc định để sau này không gặp vấn đề gì khi sử dụng chương trình. Bấm tiếp".

Các thành phần chương trình. Cửa sổ này sẽ xuất hiện nếu bạn chọn kiểu cài đặt “Tùy chỉnh”. Các thành phần giống như các ứng dụng phụ trợ cho một chương trình. Hợp phần đầu tiên “Tích hợp với chương trình Microsoft Văn phòng và Windows Explorer" Thành phần này sẽ được hiển thị trong trình đơn Microsoft Office và nếu bạn click vào hình ảnh trên máy tính click chuột phải chuột thì sẽ có một mục có chương trình này. Đây là giao diện menu của bạn trong Microsoft Office sau khi thêm thành phần này.

Đây là những gì xảy ra nếu bạn nhấp chuột phải vào hình ảnh:

Những thứ kia. Một menu sẽ xuất hiện trong đó bạn có thể thực hiện nhận dạng văn bản nhanh chóng và gửi kết quả tới Word, Excel hoặc PDF.

Thành phần thứ hai sẽ cho phép bạn nhận dạng văn bản từ màn hình máy tính. Điều này có nghĩa là bạn có thể chụp ảnh màn hình và nhận dạng văn bản. Nếu bạn không muốn cài đặt một trong các thành phần này hoặc không muốn cài đặt cả hai, thì bạn cần nhấp vào mũi tên xuống và chọn “Thành phần này sẽ không khả dụng”. Sau đó thành phần sẽ không được cài đặt. Tôi đã bỏ cả hai.

Tiếp theo là 4 điểm. Điều đầu tiên có nghĩa là thông tin về cách bạn sử dụng chương trình Abbyy Finereader sẽ được chuyển đến nhà phát triển. Tôi khuyên bạn không nên chọn mục này để chương trình không một lần nữa lên mạng gửi thông tin về cách làm việc với nó. Hơn nữa, bạn không bao giờ biết những thông tin nào khác sẽ được gửi :) Điểm thứ 2 tạo lối tắt đến chương trình trên màn hình. Thứ 3 có nghĩa là chương trình sẽ khởi động khi bạn bật máy tính và thứ 4 sẽ kiểm tra các bản cập nhật chương trình. Tôi chỉ để lại cái thứ hai và để lại dấu tích bên cạnh. Đóng mọi thứ Ứng dụng của Microsoft Office, vì trình cài đặt yêu cầu nó và nhấp vào “Cài đặt”.

Bạn cần đợi vài phút để chương trình tải và nhấp vào “Tiếp theo”.

Thế là xong, quá trình cài đặt đã hoàn tất! Nhấp vào “Hoàn tất”.

Làm cách nào tôi có thể sử dụng Abbyy Finereader để nhận dạng văn bản từ hình ảnh được quét hoặc bất kỳ hình ảnh nào khác?

Hãy xem cách sử dụng chương trình. Ví dụ: bạn đã quét văn bản. Bây giờ, để nhận dạng văn bản trong Abbyy FineReader, hãy mở chương trình. Nhấp vào “Mở”.

Chọn hình ảnh chúng ta cần và nhấp vào mở.

Khi bạn mở tài liệu mong muốn, Abbyy Finereader sẽ bắt đầu nhận dạng văn bản. Làm sao thêm tài liệu, sự công nhận sẽ mất nhiều thời gian hơn. Quá trình nhận dạng một trang có thể mất vài giây.

Sau khi văn bản được nhận dạng, tất cả những gì bạn phải làm là lưu kết quả vào tài liệu Microsoft Word để sau đó bạn có thể chỉnh sửa bất cứ điều gì trong đó. Để thực hiện việc này, hãy nhấp vào nút “Lưu” trên thanh công cụ trên cùng, sau đó chọn thư mục sẽ lưu nó. Tài liệu văn bản và dưới tên gì.

Nếu bạn có máy quét được kết nối với máy tính thì bạn có thể bắt đầu quét trực tiếp từ chương trình và sau đó tài liệu đã quét sẽ được nhận dạng ngay lập tức. Để thực hiện việc này, hãy nhấp vào nút “Quét” trên thanh công cụ trên cùng. Các bước tiếp theo sẽ phụ thuộc vào chương trình trình điều khiển cho máy in của bạn. Bạn chỉ cần làm theo hướng dẫn của trình hướng dẫn quét.

Như bạn có thể thấy, mọi thứ đều rất đơn giản và nhanh chóng. Bây giờ bạn đã biết cách sử dụng Abbyy FineReader để nhận dạng văn bản từ hình ảnh! Tôi hy vọng thông tin này sẽ giúp ích được nhiều người :) Chúc may mắn!

Lần này tôi sẽ hướng dẫn bạn cách chuyển tài liệu giấy sang định dạng PDF điện tử, cũng như cách chuyển tài liệu giấy sang máy tính để thay đổi văn bản. Vì vậy, hãy bắt đầu.
Tôi có một tài liệu giấy trong tay.

QUÉT sang PDF

Nhiệm vụ: chuyển tài liệu này vào máy tính (dịch sang dạng điện tử). Hơn nữa, nó cần phải được thực hiện chính xác theo hình thức này để sau này không thể thay đổi được (nói đại khái là bạn cần chụp ảnh tài liệu). Sau đó, tài liệu điện tử này phải được gửi qua đường bưu điện đến địa chỉ email. Hơn nữa, khách hàng yêu cầu nó ở định dạng pdf.

Theo giai đoạn:
1) Tôi chuyển tài liệu qua máy quét
2) Tôi lưu bản in thu được ở định dạng pdf vào máy tính của mình
3) Tôi gửi tập tin đã nhận qua thư
Trong công việc của mình, tôi sử dụng 2 chương trình để giải quyết vấn đề này:
Foxit Phantom hoặc ABBYY FineReader. Để rõ ràng, tôi đính kèm ảnh chụp màn hình:
Trong Foxit Phantom, khi bật máy quét, bạn cần chọn FILE-CREATE PDF FROM SCANNER trong menu chính...
Quá trình quét sẽ diễn ra và bạn sẽ được nhắc lưu tệp. Chọn một vị trí, viết tên tập tin và lưu.

ABBYY FineReader có các nút lớn trên thanh công cụ. Một trong số đó được gọi là QUÉT sang PDF. Chúng tôi sử dụng nó.

Nếu bạn cần quét một tài liệu nhiều trang thì theo các giai đoạn:
1) Nhấn nút số 1 QUÉT

Chúng tôi nhận được một tài liệu được quét

Chúng ta cũng quét thêm một trang khác (nhấn nút số 1 QUÉT lần nữa).
2) Lưu dưới dạng PDF

Kết quả là chúng ta nhận được một tài liệu nhiều trang hoàn chỉnh ở dạng tệp PDF.

Bây giờ tập tin này có thể được gửi qua email.

NHẬN DẠNG VĂN BẢN

Công việc: chuyển đổi văn bản giấy sang dạng điện tử (sang máy tính)

Theo giai đoạn:
1) Quét (nút 1 QUÉT)

2) Nhận dạng (nút 2 NHẬN DẠNG TẤT CẢ)

Nhận dạng nên được hiểu là quá trình chuyển một bức ảnh (hình ảnh) thành văn bản (chữ cái, số, ký hiệu). Nếu bạn chụp một bức ảnh trang văn bản, sau khi nhận dạng 99% văn bản từ giấy sẽ chuyển thành văn bản điện tử. văn bản điện tử Bạn đã có thể thay đổi (chỉnh sửa) trên máy tính theo cách mình muốn.

3) Lưu vào trình soạn thảo văn bản (nút 4 Lưu)
Tôi khuyên bạn nên chọn CHUYỂN TẤT CẢ CÁC TRANG SANG MICROSOFT WORD

Chúng tôi nhận được

Tôi muốn chỉ ra những điểm quan trọng trong quá trình CÔNG NHẬN. Có những sắc thái khi làm việc.
Ngay sau khi công nhận, tôi khuyên bạn nên xem kết quả. Đặc biệt là trên các khối mà chương trình FineReader tạo ra.

Đây là những khu vực được đánh dấu bằng khung hình chữ nhật. Những khung này có nhiều màu sắc khác nhau. Nếu nó có màu đỏ thì khối này được nhận dạng là HÌNH ẢNH. Nếu nó màu đen thì TEXT. Có những khối các loại khác nhau. Loại khối có thể được tìm thấy bằng cách nhấp vào khối phím PHẢI chuột và chọn THAY ĐỔI LOẠI KHỐI.

Một mẹo nhỏ: bạn có thể chọn một vùng tùy ý và gắn nhãn cho nó bằng bất kỳ loại khối nào. Ví dụ: hãy chọn phần văn bản khó được nhận dạng bằng nút chuột trái (nhấp, giữ và kéo, khung sẽ thay đổi kích thước).

Kết quả tài liệu trong Word sẽ có một khối văn bản và một khối hình ảnh. Hình ảnh khối sẽ có diện mạo hoàn toàn không thay đổi. Phương pháp này Tôi sử dụng nó khi lưu tem, phông chữ tùy chỉnh, hình ảnh, ảnh chụp.

Tái bút: Kiến thức và khả năng làm việc với PDF, quét và nhận dạng tài liệu thường xuyên giúp ích rất nhiều trong việc công việc văn phòng. Kiến thức tiết kiệm thời gian của bạn!

Mặc dù các khoản tạm ứng được phát hành trí tuệ nhân tạo(AI) trong hơn 50 năm qua đã không đưa những cỗ máy “thông minh” đến gần hơn một chút với khả năng nhận thức của con người; sẽ là không công bằng nếu phủ nhận hoàn toàn những thành công theo hướng này. Ví dụ rõ ràng và nổi bật nhất là cờ vua (chưa kể thêm trò chơi đơn giản). Máy tính chưa thể bắt chước suy nghĩ của chúng ta, nhưng nó hoàn toàn có khả năng bù đắp khoảng cách này bằng âm lượng lớn hơn. bộ nhớ chuyên dụng và tốc độ tìm kiếm. Vladimir Kramnik mô tả trò chơi của chương trình Deep Fritz đã đánh bại ông vào năm 2006 là “vô nhân đạo” theo nghĩa là nó thường mâu thuẫn với các quy tắc chiến lược và chiến thuật (con người) đã được thiết lập.

Và chỉ hơn một năm trước, một đứa con tinh thần khác của IBM, đã từng đặt nền móng cho những chiến thắng cờ vua toàn thắng của máy tính (Deep Blue nổi tiếng), có tên là Watson, đã tạo ra bước đột phá mới, đánh bại hai nhà vô địch của trò chơi đố vui nổi tiếng của Mỹ Jeopardy với tỷ số cách biệt. Tuy nhiên, điều quan trọng là mặc dù Watson độc lập đưa ra câu trả lời nhưng các câu hỏi vẫn được truyền đến anh dưới dạng văn bản. Điều này cho thấy những thành công trong nhiều lĩnh vực ứng dụng AI - nhận dạng giọng nói và hình ảnh, dịch máy - còn khá khiêm tốn, mặc dù điều này không ngăn cản chúng ta sử dụng chúng trong thực tế ngày nay. Những thành công lớn nhất có lẽ được thể hiện bằng hệ thống nhận dạng ký tự quang học (OCR, Nhận dạng ký tự quang học), mà hầu hết người dùng PC đều quen thuộc theo cách này hay cách khác. Hơn nữa, sự phát triển của Nga trong lĩnh vực này chiếm một vị trí xứng đáng trên thế giới - ý tôi là ABBYY FineReader.

Một ít lịch sử

Phiên bản hiện tại của ABBYY FineReader là số 11, tức là ứng dụng đã trải qua một chặng đường phát triển khá dài và thậm chí lịch sử của quá trình này cũng đáng quan tâm. Không giả vờ là một biên niên sử đầy đủ, tôi sẽ chỉ đưa ra những cột mốc quan trọng chính trong thập kỷ qua, trong đó tôi ít nhiều đã theo dõi FineReader:

Năm	Phiên bản	Những đặc điểm chính
2003	7.0	Tăng độ chính xác nhận dạng lên tới 25%. Điều này được thể hiện rõ nhất trong các bảng, đặc biệt là các bảng phức tạp, với các ô màu, các ngăn ẩn, v.v.
2005	8.0	Tối ưu hóa hơn nữa các thuật toán nhận dạng, chủ yếu nhằm mục đích làm việc không phải với quét tài liệu mà với bức ảnh kỹ thuật số. Vì mục đích này đã có chức năng bổ sung chuẩn bị bản gốc (loại bỏ biến dạng, căn chỉnh các dòng, v.v.).
2007	9.0	Sự xuất hiện của công nghệ ADRT, tính đến cấu trúc logic của toàn bộ tài liệu được xử lý (nhiều trang) và có thể làm nổi bật các phần tử lặp lại (đầu trang và chân trang), kết nối các đối tượng “chảy” (bảng), v.v.
2009	10.0	Cải tiến hơn nữa ADRT và thuật toán nhận dạng, tăng độ chính xác xử lý của bản gốc có độ phân giải thấp lên tới 30%.
2011	11.0	Sự chú ý chính được trả cho tốc độ của chương trình. “Lần thứ hai” của chế độ đen trắng, chế độ này trên các bản gốc chất lượng tốt mang lại khả năng tăng tốc bổ sung lên tới 30%.

Đương nhiên, trong cùng thời gian đó, FineReader đã mở rộng hỗ trợ cho các định dạng tài liệu, cải tiến các công cụ và giao diện tích hợp, cải thiện việc tái cấu trúc cấu trúc của bản gốc, v.v. Tuy nhiên, các điểm nổi bật có liên quan trực tiếp đến công nghệ OCR và thể hiện rõ quá trình phát triển không liên tục đặc điểm của các hệ thống thâm dụng tri thức phức tạp khi sau lần “đột phá” tiếp theo sẽ có một khoảng thời gian “im lặng” nhất định, cần thiết để cải tiến các thuật toán mới. Chúng đại diện cho giá trị chính của bất kỳ chương trình OCR nào và do đó ở một mức độ nào đó thông tin chi tiết người dùng hiếm khi nghe về chúng. Tuy nhiên, ABBYY vui lòng đồng ý vén bức màn bí mật và hôm nay chúng ta có cơ hội khám phá những điều thiêng liêng của FineReader.

Nguyên tắc cơ bản

Vì vậy, vì OCR thuộc lĩnh vực AI, nên điều hợp lý là các nhà phát triển cố gắng bắt chước hoạt động của bộ não chúng ta ít nhất ở một mức độ nào đó. Tất nhiên, cấu trúc của hệ thống thị giác của chúng ta vô cùng phức tạp, nhưng các nguyên tắc hoạt động cơ bản của “khối lớn” đã được nghiên cứu đầy đủ, thường có ba nguyên tắc sau:

Chính trực- một đối tượng được coi là một tập hợp các bộ phận của nó và (đối với hình ảnh trực quan) các mối quan hệ không gian giữa chúng. Ngược lại, các bộ phận chỉ nhận được sự diễn giải như một phần của toàn bộ đối tượng. Nguyên tắc này giúp xây dựng và làm rõ các giả thuyết, loại bỏ nhanh chóng những giả thuyết khó xảy ra.
Mục đích- vì bất kỳ việc giải thích dữ liệu nào đều theo đuổi một mục tiêu cụ thể, nên việc ghi nhận là một quá trình đưa ra các giả thuyết về một đối tượng và kiểm tra chúng một cách có mục đích. Một hệ thống vận hành theo nguyên tắc này sẽ không những tiết kiệm hơn khả năng tính toán nhưng cũng ít mắc lỗi hơn.
Khả năng thích ứng- hệ thống lưu thông tin tích lũy trong quá trình hoạt động và tái sử dụng nó, tức là nó tự học. Nguyên tắc này cho phép bạn tạo ra và tích lũy kiến thức mới và tránh giải quyết nhiều lần những vấn đề tương tự.

FineReader là hệ thống OCR duy nhất trên thế giới hoạt động theo các nguyên tắc được mô tả ở trên ở tất cả các giai đoạn xử lý tài liệu. Công nghệ tương ứng được gọi là IPA- theo các chữ cái đầu tiên của thuật ngữ tiếng Anh. Ví dụ, theo nguyên tắc toàn vẹn, một mảnh hình ảnh sẽ chỉ được hiểu là biểu tượng nếu nó chứa tất cả các phần cấu trúc của các đối tượng tương tự và những phần có mối quan hệ nhất định. Điều này giúp thay thế việc tìm kiếm một số lượng lớn các tiêu chuẩn (để tìm kiếm một tiêu chuẩn ít nhiều phù hợp) bằng việc kiểm tra có chủ đích một số lượng giả thuyết hợp lý, dựa trên thông tin đã tích lũy trước đó về những nét phác thảo có thể có của một nhân vật trong một tài liệu được công nhận. .

Tuy nhiên, nguyên tắc IPA được áp dụng khi phân tích không chỉ các đoạn tương ứng (có lẽ) với các ký tự riêng lẻ mà còn cả toàn bộ hình ảnh nguồn của trang. Hầu hết các hệ thống OCR đều dựa trên việc nhận dạng cấu trúc phân cấp của tài liệu, tức là trang được chia thành các thành phần cấu trúc cơ bản như bảng, hình ảnh, khối văn bản, sau đó được chia thành các đối tượng đặc trưng khác - ô, đoạn văn - và vân vân, cho đến từng ký tự riêng lẻ.

Việc phân tích như vậy có thể được thực hiện theo hai cách chính: từ trên xuống, tức là từ các yếu tố cấu thành đến các ký tự riêng lẻ hoặc ngược lại, từ dưới lên. Thông thường một trong số chúng được sử dụng, nhưng ABBYY đã phát triển thuật toán đặc biệt MDA(phân tích tài liệu đa cấp), kết hợp cả hai. Tóm lại, nó trông như thế này: cấu trúc của trang được phân tích bằng phương pháp từ trên xuống và việc xây dựng lại tài liệu điện tử sau khi hoàn thành, việc ghi nhận diễn ra từ dưới lên, nhưng ở mọi cấp độ đều có cơ chế phản hồi bổ sung. Kết quả là, khả năng xảy ra lỗi nghiêm trọng liên quan đến việc nhận dạng không chính xác các đối tượng cấp cao sẽ giảm đáng kể.

ADRT

Trong lịch sử, các hệ thống OCR đã phát triển từ việc nhận dạng các ký tự riêng lẻ. Nhiệm vụ này vẫn là nhiệm vụ quan trọng nhất và khó khăn nhất; các thuật toán phức tạp nhất đều gắn liền với nó. Tuy nhiên, người ta sớm nhận ra rằng thông tin cấp cao hơn (ví dụ: về ngôn ngữ của tài liệu và cách viết đúng của các từ được nhận dạng) có thể giúp giải quyết vấn đề này - đây là cách xuất hiện kiểm tra ngữ cảnh và từ điển. Sau đó mong muốn duy trì định dạng và tái tạo cấu trúc vật lý (tức là vị trí tương đối các đồ vật khác nhau) tài liệu dẫn đến sự cần thiết phân tích chi tiết toàn bộ trang. Rõ ràng là điều này cũng ảnh hưởng đáng kể đến chất lượng nhận dạng tổng thể, vì nó giúp xử lý chính xác bố cục nhiều cột, bảng và các phương pháp sắp xếp văn bản “phi tuyến tính” khác.

Hầu hết OCR hiện đại hoạt động chính xác ở ba cấp độ này - ký tự, từ, trang - thực hành, như đã đề cập, cách tiếp cận từ trên xuống hoặc từ dưới lên. Tuy nhiên, ABBYY, theo nguyên tắc của IPA, đã giới thiệu thêm một cấp độ nữa vào FineReader - tổng cộng tài liệu nhiều trang. Trước hết, điều này là cần thiết để tái tạo chính xác cấu trúc logic, cấu trúc ngày càng trở nên phức tạp hơn trong các tài liệu hiện đại. Nhưng còn có những phần thưởng bổ sung: tăng độ chính xác và xử lý các đối tượng lặp lại nhanh hơn, nhận dạng chính xác hơn (và do đó nhận dạng) các đối tượng “chảy” từ trang này sang trang khác.

Đây chính xác là lý do tại sao nó được phát triển ADRT(Công nghệ nhận dạng tài liệu thích ứng) - công nghệ phân tích và tổng hợp tài liệu ở mức logic. Cuối cùng, nó giúp làm cho kết quả của FineReader hoạt động giống với kết quả gốc nhất có thể. Để làm điều này, hình ảnh của toàn bộ tài liệu sẽ được phân tích và các từ được nhận dạng sẽ được kết hợp thành các nhóm (cụm) tùy thuộc vào phong cách, môi trường và vị trí trên trang. Bằng cách này, chương trình dường như nhìn thấy “logic” của đánh dấu tài liệu và sau đó có thể thống nhất thiết kế của kết quả.

Nhờ ADRT, FineReader, bắt đầu từ phiên bản 9.0, đã học cách phát hiện, nhận dạng và tái tạo các bộ phận cấu trúc và thành phần định dạng tài liệu sau:

văn bản chính;
đầu trang và chân trang;
Số trang;
đề mục cùng cấp;
mục lục;
chèn văn bản;
chú thích cho bản vẽ;
những cái bàn;
chú thích cuối trang;
vùng chữ ký/con dấu;
phông chữ và phong cách.

Quá trình công nhận

Theo thuật toán MDA, việc nhận dạng thực tế bắt đầu từ trên xuống dưới, từ cấp độ trang. Rõ ràng là càng có nhiều quyết định sai lầm được đưa ra trong giai đoạn đầu của quá trình này thì càng có nhiều quyết định sai lầm ở những giai đoạn tiếp theo. Đây là lý do tại sao độ chính xác của nhận dạng phụ thuộc rất nhiều vào chất lượng của bản gốc nhưng thuật toán xử lý trước của chúng cũng có thể có tác động đáng kể. Vì vậy, khi sự phổ biến của tài liệu màu trong FineReader ngày càng tăng, một quy trình đã xuất hiện nhị phân hóa thích ứng(nhị phân thích ứng, AB). Nếu bạn quét tài liệu ngay lập tức ở chế độ đen trắng, nơi có hình mờ hoặc văn bản nằm trên nền có họa tiết hoặc màu, thì "rác" sẽ luôn xuất hiện trên hình ảnh, khi đó sẽ khá khó để tách khỏi " hữu ích” (vì thông tin ban đầu về anh ta đã bị mất). Đó là lý do tại sao FineReader thích làm việc với hình ảnh màu hoặc thang độ xám, chuyển đổi chúng một cách độc lập thành đen trắng (quá trình này được gọi là nhị phân hóa). Nhưng đó không phải là tất cả. Vì màu sắc của văn bản và nền có thể khác nhau trong trang và thậm chí trong từng dòng riêng lẻ, AB xác định các từ có ít nhiều đặc điểm giống nhau và chọn tham số nhị phân tối ưu cho mỗi từ theo quan điểm về chất lượng nhận dạng. Đây chính xác là khả năng thích ứng của thuật toán, do đó là một ví dụ về việc sử dụng phản hồi trong MDA. Rõ ràng là hiệu quả của AB phụ thuộc rất nhiều vào thiết kế của tài liệu nguồn - trên cơ sở thử nghiệm ABBYY, thuật toán này đã giúp tăng độ chính xác nhận dạng lên 14,5%.

Nhưng tất nhiên, điều thú vị nhất bắt đầu khi quá trình nhận dạng diễn ra ở mức cao nhất. mức thấp. Cái gọi là thủ tục chia tuyến tính chia các dòng thành các từ và các từ thành các chữ cái riêng lẻ; sau đó, theo nguyên tắc IPA, nó tạo thành một tập hợp các giả thuyết (tức là những lựa chọn khả thiđó là loại ký hiệu gì, từ được chia thành những ký hiệu nào, v.v.) và, cung cấp cho mỗi ký hiệu một ước tính xác suất, chuyển nó đến đầu vào của cơ chế nhận dạng ký tự. Sau này bao gồm một số cái gọi là phân loại, mỗi giả thuyết cũng tạo ra một số giả thuyết được xếp hạng theo mức độ xác suất dự kiến của chúng. Đặc điểm quan trọng nhất của bất kỳ bộ phân loại nào là vị trí trung bình của giả thuyết đúng. Rõ ràng là càng cao thì ít việc hơn cho các thuật toán tiếp theo - ví dụ: kiểm tra từ điển. Nhưng đối với các bộ phân loại được thiết lập đầy đủ, các đặc điểm như độ chính xác nhận dạng dựa trên ba giả thuyết đầu tiên hoặc chỉ dựa trên giả thuyết đầu tiên thường được đánh giá nhiều nhất - tức là nói một cách đại khái là khả năng đoán câu trả lời đúng trong ba hoặc một lần thử. ABBYY sử dụng trong hệ thống của mình các loại sau phân loại: raster, tính năng, tính năng khác biệt, đường viền, cấu trúc và cấu trúc khác biệt - được nhóm theo hai cấp độ logic.

Nguyên lý hoạt động RK, hoặc trình phân loại raster, dựa trên sự so sánh từng pixel của hình ảnh ký tự với các tiêu chuẩn. Cái sau được hình thành do kết quả của việc lấy trung bình các hình ảnh từ tập huấn luyện và giảm xuống một dạng tiêu chuẩn nhất định; Theo đó, kích thước, độ dày của các phần tử và độ dốc cũng được chuẩn hóa trước cho hình ảnh được nhận dạng. Trình phân loại này được đặc trưng bởi tính dễ thực hiện, tốc độ hoạt động và khả năng chống lại các lỗi hình ảnh, nhưng cung cấp độ chính xác tương đối thấp và đó là lý do tại sao nó được sử dụng ở giai đoạn đầu tiên - để nhanh chóng tạo ra danh sách các giả thuyết.

Bộ phân loại tính năng ( máy tính), như tên gọi của nó, dựa trên sự hiện diện của các dấu hiệu của một biểu tượng cụ thể trong hình ảnh. Nếu có tổng cộng N đặc điểm như vậy thì mỗi giả thuyết có thể được biểu diễn bằng một điểm trong không gian N chiều; theo đó, độ chính xác của giả thuyết sẽ được đánh giá bằng khoảng cách từ nó đến điểm tương ứng với tiêu chuẩn (cũng được phát triển trên mẫu huấn luyện). Rõ ràng là loại và số lượng đặc điểm quyết định phần lớn chất lượng nhận dạng nên thường có khá nhiều đặc điểm. Bộ phân loại này cũng tương đối nhanh và đơn giản, nhưng không hiệu quả lắm đối với các lỗi hình ảnh khác nhau. Ngoài ra, PC không hoạt động với hình ảnh gốc mà với một mô hình nhất định, một sự trừu tượng, tức là nó không tính đến một số thông tin: chẳng hạn, thực tế về sự hiện diện của một số yếu tố quan trọng không nói lên bất cứ điều gì về vị trí tương đối của họ. Vì lý do này, PC không được sử dụng thay thế mà cùng với RK.

Bộ phân loại đường viền ( Kiểm soát chất lượng) đại diện trương hợp đặc biệt PC khác ở chỗ nó phân tích các đường viền của biểu tượng dự định, được trích xuất từ hình ảnh gốc. TRONG trường hợp chungđộ chính xác của nó thấp hơn so với một PC chính thức.

Bộ phân loại vi sai tính năng ( MPC) cũng tương tự như PC, nhưng chỉ được sử dụng để phân biệt giữa các đối tượng tương tự như "m" và "rn". Theo đó, nó chỉ phân tích những lĩnh vực mà sự khác biệt bị che giấu và nó nhận được đầu vào không chỉ là hình ảnh gốc mà còn cả các giả thuyết được hình thành ở giai đoạn đầu nhận dạng. Tuy nhiên, nguyên lý hoạt động của nó hơi khác so với PC. Ở giai đoạn huấn luyện, hai “đám mây” (nhóm điểm) có giá trị có thể có cho mỗi tùy chọn trong số hai tùy chọn được hình thành trong không gian N chiều, sau đó một siêu phẳng được xây dựng để phân tách các “đám mây” với nhau và xấp xỉ cách đều chúng. Kết quả nhận dạng phụ thuộc vào nửa không gian mà điểm tương ứng với ảnh gốc rơi vào.

Bản thân MPC không đưa ra các giả thuyết mà chỉ sàng lọc những giả thuyết hiện có (danh sách thường được sắp xếp bằng phương pháp bong bóng), do đó không thực hiện đánh giá trực tiếp về hiệu quả của nó mà gián tiếp đánh đồng với các đặc điểm của toàn bộ cấp độ nhận dạng OCR đầu tiên. Tuy nhiên, rõ ràng là nó phụ thuộc vào tính đúng đắn của các đặc điểm được lựa chọn và tính đại diện của mẫu tiêu chuẩn, đảm bảo đây là một công việc khá tốn công.

Phân loại vi sai cấu trúc ( KFOR) ban đầu được sử dụng để xử lý văn bản viết tay. Nhiệm vụ của nó là phân biệt giữa các đối tượng tương tự như “C” và “G”. Do đó, SDK dựa trên các tính năng đặc trưng của từng cặp ký tự, quá trình học của nó thậm chí còn phức tạp hơn MDC và tốc độ hoạt động của nó thấp hơn tất cả các bộ phân loại trước đó.

Phân loại cấu trúc ( SK) là nguồn tự hào của ABBYY; ban đầu nó được phát triển để nhận dạng cái gọi là văn bản viết tay, tức là khi một người viết bằng chữ "in", nhưng sau đó được sử dụng để in. Nó được sử dụng ở giai đoạn nhận biết cuối cùng và hiếm khi có hiệu lực, cụ thể là chỉ khi có ít nhất hai giả thuyết có xác suất đủ cao đạt đến nó.

Các đặc tính chất lượng của tất cả các phân loại được thu thập trong bảng sau. Tuy nhiên, chúng chỉ cho phép người ta đánh giá tính hiệu quả của các thuật toán so với nhau, vì chúng không mang tính tuyệt đối mà thu được dựa trên quá trình xử lý một mẫu thử nghiệm cụ thể. Có vẻ như vậy giai đoạn cuối nhận dạng, cuộc đấu tranh theo nghĩa đen chỉ là một phần trăm, nhưng trên thực tế, mỗi bộ phân loại đóng góp đáng kể vào việc tăng độ chính xác nhận dạng - ví dụ: SC giảm số lượng lỗi xuống 20%.

	RK	máy tính	Kiểm soát chất lượng	MPC*	KFOR**	SK**
Độ chính xác cho ba tùy chọn đầu tiên, %	99,29	99,81	99,30	99,87	99,88	-
Độ chính xác theo phương án thứ nhất, %	97,57	99,13	95,10	99,26	99,69	99,73

* đánh giá toàn bộ cấp độ đầu tiên của thuật toán ABBYY OCR
** đánh giá toàn bộ thuật toán sau khi thêm bộ phân loại thích hợp

Tuy nhiên, điều đáng tò mò là mặc dù khá độ chính xác cao, bản thân thuật toán nhận dạng không đưa ra quyết định cuối cùng. Theo nguyên tắc MDA, các giả thuyết được đưa ra ở mỗi cấp độ logic và số lượng của chúng có thể tăng theo cấp số nhân. Theo đó, việc kiểm tra tuần tự tất cả các giả thuyết khó có thể có hiệu quả và do đó hệ thống ABBYY OCR sử dụng phương pháp cấu trúc các giả thuyết, tức là gán chúng cho mô hình này hoặc mô hình khác. Có vài chục loại sau, đây chỉ là một vài loại: từ từ điển, từ không phải từ điển, chữ số Ả Rập, chữ số La Mã, URL, biểu hiện thông thường- và mỗi mô hình có thể bao gồm nhiều mô hình cụ thể (ví dụ: một từ trong một trong các ngôn ngữ đã biết, tiếng Latin, tiếng Cyrillic, v.v.).

Tất cả các hành động cuối cùng được thực hiện với các giả thuyết được xây dựng bằng mô hình. Ví dụ: kiểm tra theo ngữ cảnh sẽ xác định ngôn ngữ của tài liệu và ngay lập tức giảm đáng kể khả năng các mô hình sử dụng bảng chữ cái không chính xác và kiểm tra từ điển sẽ bù đắp cho các lỗi trong trường hợp nhận dạng không chắc chắn các ký tự nhất định: ví dụ: từ “chuyển” là có trong từ điển bằng tiếng Anh- trái ngược với “tum” (trong mọi trường hợp, nó không nằm trong số những cái phổ biến). Mặc dù mức độ ưu tiên của từ điển cao hơn bất kỳ trình phân loại nào, nhưng đó không nhất thiết là biện pháp cuối cùng và nói chung không dừng việc kiểm tra thêm: thứ nhất, như đã đề cập ở trên, có một mô hình từ không phải từ điển, và thứ hai , cách tổ chức đặc biệt của từ điển cho phép bạn đoán xem một từ chưa biết nào đó có thể thuộc về một ngôn ngữ cụ thể với xác suất cao hay không. Tuy nhiên, việc kiểm tra từ điển (và tính đầy đủ của từ điển) có tác động đáng kể đến kết quả nhận dạng và trong các thử nghiệm của chính ABBYY, việc này giúp giảm gần một nửa số lỗi.

Không chỉ OCR

Các tài liệu in không phải là tài liệu duy nhất được quan tâm xét từ quan điểm số hóa và xử lý tự động. Bạn thường phải làm việc với các biểu mẫu, tức là các tài liệu có các trường cố định và được xác định trước, được điền thủ công nhưng tương đối chính xác (cái gọi là ký tự in bằng tay) - nhiều bảng câu hỏi khác nhau có thể dùng làm ví dụ. Công nghệ xử lý của họ có một tên riêng - ICR(nhận dạng ký tự thông minh) - và khác biệt khá nhiều so với OCR. Vì vậy, vì trong trường hợp này, nhiệm vụ không phải là tạo lại toàn bộ tài liệu mà là trích xuất dữ liệu cụ thể từ đó, nên nhiệm vụ này được chia thành hai nhiệm vụ phụ chính: tìm các trường cần thiết và thực sự nhận dạng nội dung của chúng.

Đây là một lĩnh vực khá cụ thể và ABBYY cung cấp một sản phẩm phần mềm hoàn toàn riêng biệt, ABBYY FlexiCapture, cho lĩnh vực đó. Nó được thiết kế để tạo các hệ thống tự động và bán tự động, bao gồm việc tùy chỉnh cho các loại tài liệu cụ thể mà các mẫu đặc biệt được tạo, có thể tìm thấy các trường khác nhau trên các trang một cách thông minh và xác minh dữ liệu trong đó, v.v. Tuy nhiên, cốt lõi là nhận dạng ký tự các thuật toán tương tự như các thuật toán được sử dụng trong FineReader và sơ đồ chung rất tương đồng:

Tuy nhiên, sự khác biệt quan trọng tuy nhiên, vẫn có: bộ phân loại cấu trúc là người tham gia bắt buộc trong quá trình - điều này là do tính đặc thù của các ký hiệu được in bằng tay. Ngoài ra, ICR giả định con số lớn cụ thể kiểm tra bổ sung: Ví dụ: ký tự có bị gạch bỏ hay ký tự được nhận dạng có thực sự tạo thành ngày tháng hay không.

Một trong những chức năng phổ biến nhất để làm việc với chức năng quét và xử lý tệp nhiều loại khác nhau- Người đọc tốt. chức năng sản phẩm phần mềmđược phát triển bởi công ty ABBYY của Nga, nó cho phép bạn không chỉ nhận dạng mà còn xử lý tài liệu (dịch, thay đổi định dạng, v.v.). Nhiều người dùng chỉ có thể cài đặt nó nhưng không thể tìm ra ngay cách sử dụng ABBYY FineReader. Bạn có thể tìm thấy câu trả lời cho nhiều câu hỏi trong bài viết này.

Chương trình cho phép bạn quét và nhận dạng văn bản - và hơn thế nữa

Để hiểu chi tiết loại chương trình ABBYY FineReader 12 là gì, bạn cần xem xét chi tiết tất cả các khả năng của nó. Chức năng đầu tiên và đơn giản nhất là quét tài liệu. Có hai tùy chọn quét: có và không có nhận dạng. Nếu bạn quét một tờ in thông thường, bạn sẽ nhận được hình ảnh bạn đã quét trong thư mục được chỉ định trên thiết bị máy tính của bạn.

CHÚ Ý. Tờ giấy phải được đặt đều trên phần scan của máy in, dọc theo đường viền ghi trên máy in. Không để tệp nguồn bị cong vì điều này có thể dẫn đến chất lượng của lần quét cuối cùng kém.

Bạn phải tự quyết định lý do tại sao bạn cần FineReader, vì tiện ích này có chức năng quan trọng, chẳng hạn như bạn có thể độc lập chọn màu bạn muốn nhận hình ảnh, có thể chuyển đổi tất cả ảnh sang đen trắng. Ở chế độ đen trắng, khả năng nhận dạng nhanh hơn và chất lượng xử lý tăng lên.

Nếu bạn quan tâm đến chức năng nhận dạng văn bản của ABBYY FineReader, trước khi quét bạn cần nhấp vào nút đặc biệt. Trong trường hợp này, có một số tùy chọn để lấy thông tin. Theo tiêu chuẩn, một mảnh trang tính được nhận dạng sẽ được hiển thị trên màn hình của bạn, bạn có thể sao chép hoặc chỉnh sửa thủ công.

Nếu chọn các chức năng khác, bạn có thể nhận ngay file dưới dạng tài liệu Word hoặc bảng Excel. Việc lựa chọn các chức năng rất đơn giản, menu trực quan và dễ tùy chỉnh do tất cả các nút bạn cần đều ở ngay trước mắt bạn.

QUAN TRỌNG. Trước khi ABBYY FineReader có thể nhận dạng văn bản, bạn cần chọn chính xác ngôn ngữ xử lý. Mặc dù thực tế là tiện ích này hoạt động hoàn toàn tự động nhưng vẫn xảy ra trường hợp chất lượng thấp nguồn không cho phép chúng tôi hiểu loại ngôn ngữ trong nguồn. Điều này làm giảm đáng kể chất lượng của kết quả cuối cùng của ứng dụng.

Nhiều chế độ hoạt động

Để hiểu đầy đủ cách sử dụng ABBYY FineReader 12, bạn cần thử hai chế độ hoạt động: “Cẩn thận” và “Nhận dạng nhanh”. Chế độ thứ hai phù hợp với hình ảnh chất lượng cao và chế độ thứ nhất dành cho các tệp chất lượng thấp. Chế độ Kỹ lưỡng mất nhiều thời gian hơn 3-5 lần để xử lý tệp.

Hình minh họa kết quả của chương trình - nhận dạng văn bản từ hình ảnh

Có những chức năng nào khác?

Nhận dạng văn bản trong ABBYY FineReader không phải là duy nhất tính năng hữu ích. Để thuận tiện hơn cho người dùng, có