Nhập bằng giọng nói của bạn vào máy tính. OK Google - Trợ lý giọng nói Android

Một trong chức năng hữu ích trong Android là quay số bằng giọng nói. Bằng cách học cách sử dụng nó một cách khéo léo, bạn có thể tiết kiệm rất nhiều thời gian và thực hiện nhiều thao tác mà không cần dùng đến bàn phím tiêu chuẩn.

Kiểu gõ này sẽ giúp bạn không bị phân tâm khi đôi khi nhấn những phím rất nhỏ. Điều này rất thuận tiện, ví dụ như khi bạn đang lái xe. Để thực hiện các hành động cần thiết, bạn chỉ cần ra lệnh cho thiết bị. Nhưng điều này đi trước một số hành động cơ bản phải được thực hiện trước.

Để bắt đầu, hãy đặt con trỏ sao cho bàn phím tiêu chuẩn. Bấm vào hình micro và thiết bị sẽ chuyển sang chế độ nhập giọng nói. Hành động nàyđược thực hiện khác nhau tùy thuộc vào thiết bị và phiên bản hệ thống. Trong hầu hết các trường hợp, bạn cần tìm biểu tượng micrô trên một trong các nút (phím cách hoặc thay đổi ngôn ngữ) và giữ nó.

Sau các bước này, bảng nhập liệu bằng giọng nói sẵn sàng sử dụng sẽ xuất hiện trên màn hình. Bạn có thể sử dụng nó không chỉ để gọi điện hoặc quay số tin nhắn SMS mà còn trong trình duyệt. Điều này rất thuận tiện, đặc biệt khi bạn cần gõ tin nhắn dàiđể gửi hoặc bất kỳ văn bản nào khác.

Lúc này, trên màn hình thiết bị sẽ xuất hiện một chỉ báo dưới dạng micrô. Hãy chú ý đến khung màu đỏ xung quanh nó. Độ dày của nó cho biết âm lượng giọng nói của bạn. Sau khi phát âm một từ, nó sẽ được xử lý và nhận dạng ngay lập tức, sau đó nó sẽ được hiển thị trong một trường đặc biệt.

Nhận dạng giọng nói là một công nghệ có thể tăng đáng kể năng suất cả ở nơi làm việc và ở nhà. Bạn có thể đọc chính tả một tài liệu nhanh hơn ba lần so với việc gõ nó.

Nhận dạng giọng nói trực tuyến

Để chuyển lời nói thành văn bản, bạn có thể sử dụng dịch vụ trực tuyến thích hợp trong trình duyệt của mình. Theo quy định, các trang web nhận dạng giọng nói không yêu cầu đăng ký hoặc thanh toán và chúng rất dễ sử dụng. Trước hết bạn cần cài đặt trình duyệt Google Chrome. Điều này là do tất cả các dịch vụ đều chạy trên cùng một công cụ nhận dạng giọng nói của Google. Chất lượng nhận dạng phụ thuộc vào micrô cũng như nhịp điệu và độ rõ của giọng nói.

Đọc thêm: Kích hoạt micrô trên Windows 8

Cách 1: Phát biểu

Quả diêm là nhất dịch vụ phổ biến về nhận dạng giọng nói trực tuyến, cung cấp sự lựa chọn lớn ngôn ngữ, các tùy chọn nâng cao để đặt dấu câu và gửi văn bản chính tả đến các ứng dụng của bên thứ ba.

Dịch vụ phát biểu trực tuyến

Thủ tục:

1. Nhấp vào biểu tượng micrô ở bên phải.
2. Lựa chọn "Cho phép" trong một cửa sổ trình duyệt bật lên. Một vòng tròn màu đỏ nhấp nháy sẽ xuất hiện ở bên trái phía trên biểu tượng micrô - điều này có nghĩa là tính năng ghi âm đã được bật.

1. Chọn ngôn ngữ tiếng Nga từ menu thả xuống.

1. Bắt đầu đọc chính tả.
2. Để dừng ghi âm, hãy nhấp lại vào biểu tượng micrô.
3. Sao chép văn bản vào clipboard (A) hoặc gửi đến dịch vụ của bên thứ ba sử dụng thanh công cụ ở bên trái (B).

Có ba cách đặt dấu chấm câu:

1. Đọc chính tả: bên phải có danh sách các dấu hiệu với cách phát âm tương ứng;

1. Gõ bàn phím là sướng nhất đường tắt, vì nó thêm một dấu hiệu ngay cả trước khi bài phát biểu kết thúc. Điều chính ở đây là đợi cho đến khi lời nói chính tả xuất hiện trong bộ đệm (xem ảnh chụp màn hình) và chỉ sau đó nhấn nút, nếu không dấu chấm câu sẽ xuất hiện trước lời nói chính tả chứ không phải sau đó;

Nút trên trang web - chỉ cần nhấp vào dấu chấm câu tương ứng ở bảng bên phải (xem điểm 1).

Kết quả nhận dạng sẽ phụ thuộc phần lớn vào chất lượng của micrô và khả năng đọc chính tả. Vì kết quả tốt nhất bạn cần nói chậm và rõ ràng. Điều này áp dụng cho tất cả các dịch vụ nhận dạng giọng nói.

Phương pháp 2: Speechlogger

Speechlogger là một dịch vụ nhận dạng giọng nói đa chức năng mà bạn không chỉ có thể đọc chính tả văn bản mà còn dịch chúng sang các ngôn ngữ khác trong thời gian thực với Google dịch và cũng có thể chép lại các tập tin âm thanh.

Dịch vụ trực tuyến Speechlogger

Để bắt đầu ghi trên trang web Speechlogger, hãy làm theo các bước sau:

1. Truy cập trang web, cuộn xuống một chút đến khối có nền màu xanh lam và nhấp vào biểu tượng micrô.
2. Lựa chọn "Cho phép".
3. Tìm tiếng Nga trong danh sách nếu cần thiết.
4. Nhấp vào nút ở trên cùng bên phải để khối nhận dạng giọng nói lấp đầy toàn bộ màn hình (điều này không cần thiết nhưng sẽ thuận tiện hơn khi làm việc).

1. Bắt đầu đọc chính tả.
2. Văn bản có thể chứa lỗi sẽ được đánh dấu màu đỏ. Điều này cho phép bạn nhanh chóng tìm thấy những điểm không chính xác và sửa chúng.

1. Sau khi hoàn thành công việc, hãy nhấp lại vào biểu tượng micrô.
2. Chọn tất cả văn bản bằng nút Tất cả(A) và sao chép bằng cách nhấp chuột phải và chọn "Sao chép"(phim tăt Ctrl+C không hoạt động), hoặc sử dụng thanh công cụ (B) để gửi văn bản tới e-mail, lưu ở định dạng .txt, .doc, tải lên Google Drive hoặc in.

Cách đặt dấu câu:

1. Đọc chính tả: để tìm hiểu cách phát âm một dấu câu cụ thể, hãy di chuột qua dấu câu đó và một gợi ý sẽ xuất hiện trong cửa sổ bật lên.
2. Chỉ cần nhấp vào dấu chấm câu trong bảng nằm phía trên vùng văn bản.

1. Tự động chấm câu: trên trang web, bạn có thể đặt cài đặt cho dấu câu tự động. Không tốt lựa chọn thuận tiện, vì ở mỗi lần tạm dừng, hệ thống sẽ đặt một dấu chấm, trong khi ngôn ngữ tiếng Nga quá linh hoạt và đa dạng - không thể đặt điều kiện rõ ràng để đặt một số dấu câu nhất định. Do đó, nên tắt tính năng này bằng cách bỏ chọn hộp tương ứng.

Cài đặt bổ sung nằm ở góc trên bên trái.

Sử dụng chúng, bạn có thể bật hoặc tắt các chức năng sau:

- Tự động lưu văn bản: nếu chức năng này được bật, tất cả các phiên có thể được truy cập bằng cách nhấp vào biểu tượng thư mục trên thanh công cụ;

Đánh dấu các từ bằng phông chữ màu đỏ;
Dấu thời gian trong văn bản (được bật theo mặc định).

Ngoài ra, bạn có thể thiết lập cài đặt cho dấu câu tự động và thay đổi màu nền.

Phương pháp 3: Đọc chính tả trực tuyến

Đọc chính tả trực tuyến - dịch vụ tiện lợi với một giao diện laconic. Ưu điểm chính là dễ sử dụng.

Dịch vụ viết chính tả trực tuyến

1. Dịch vụ tự động phát hiện ngôn ngữ mặc định được cấu hình trong trình duyệt. Nếu ngôn ngữ chưa được cài đặt hoặc bạn đang sử dụng tài khoản khách Mục nhập Chrome, bạn cần cài đặt tiếng Nga: danh sách thả xuống các ngôn ngữ nằm bên dưới vùng văn bản.

1. Nhấn vào nút "Bắt đầu đọc chính tả".

1. Cho phép sử dụng micrô trên trang web.

1. Bắt đầu đọc chính tả. Để thêm dấu câu, hãy sử dụng lệnh thoại: “dấu chấm”, “dấu phẩy”, “ dấu chấm hỏi», « Dấu chấm than", các ký tự khác được nhập bằng bàn phím. Để bắt đầu một đoạn mới, hãy sử dụng lệnh thoại “đoạn mới”, để đi tới dòng mới- "dòng mới".
2. Khi bạn đọc chính tả xong, hãy nhấn "Ngừng lắng nghe".

Khi văn bản đã sẵn sàng, bạn có thể:
- Sao chép bằng cách nhấp vào nút "Sao chép" (1);
- Lưu dưới dạng .txt bằng cách nhấp vào nút "Cứu" (2);
- Xóa bằng cách nhấn nút "Thông thoáng" (3).

Phương pháp 4: SpeechTexter

Dịch vụ nhận dạng giọng nói SpeechTexter có thiết kế nhỏ gọn đẹp mắt và cho phép bạn chỉnh sửa văn bản trực tiếp trên trang web. Định dạng được giữ nguyên khi bạn chuyển văn bản sang trình chỉnh sửa của bên thứ ba.

Dịch vụ trực tuyến SpeechTexter

1. Để dừng ghi, nhấn "Dừng lại".

1. Sau khi văn bản được viết, nó có thể được định dạng bằng cách sử dụng các công cụ trong bảng nằm phía trên văn bản.

1. Văn bản hoàn thành có thể được sao chép (1), lưu ở định dạng .txt (2) hoặc in (3).

Mã để nhúng vào trang web.

Mẹo: bạn có thể thay đổi thuộc tính nhận dạng.lang và thay thế ‘ru-RU’ thay vì ‘en-US’, khi đó ngôn ngữ mặc định sẽ được đặt thành tiếng Nga.

Mỗi dịch vụ đều có những ưu điểm và nhược điểm riêng. Bạn nên thử làm việc trên từng cái một và chọn cái phù hợp nhất dựa trên mục tiêu và sở thích của bạn.

Chào mọi người! Trong bài viết hôm nay tôi muốn nói về rất hữu ích Ứng dụng Google. Những ứng dụng này sẽ hữu ích cho các blogger, người viết quảng cáo và tất cả những người liên quan đến việc làm việc với văn bản. Nếu bạn viết blog, bạn cần phải viết nhiều và thường xuyên. Những ứng dụng này sẽ giúp cuộc sống của bạn dễ dàng hơn về nhiều mặt.

Weisnot||

Một trong những phần mở rộng được gọi là Weisnot||. Rất tiện ích mở rộng tiện lợi, tiết kiệm rất nhiều thời gian, bao gồm sổ ghi chú và từ điển. Weisnot|| được phát triển bởi các chuyên gia của Google cho trình duyệt Google Chrome 25 trở lên.

Rất dễ dàng để làm việc với nó, hãy theo liên kết và biểu tượng này, tìm tiện ích mở rộng, cài đặt nó trong trình duyệt của bạn, sau đó biểu tượng sẽ xuất hiện trong dấu trang trực quan, nó cũng có thể được gắn trên máy tính để bàn. Việc cài đặt rất đơn giản, chỉ cần chọn ngôn ngữ tiếng Nga và các mẹo bật lên sẽ giúp bạn thành thạo việc này sổ ghi chú bằng giọng nói. Sau khi cài đặt, bạn có thể thay đổi giao diện menu theo ý thích của mình.

Để bắt đầu ghi âm, bạn cần nhấp vào nút có hình ảnh micrô. Khi cô ấy đổi màu thành màu đỏ, quá trình ghi âm bắt đầu và tất cả những gì còn lại là nói nội dung bạn muốn ghi. Theo quy định, để làm việc với sổ ghi chú bằng giọng nói, tốt hơn là bạn nên kết nối micrô bên ngoài, ngay cả đối với máy tính xách tay.

Bạn nên nói rõ ràng, phát âm các từ đều và rõ ràng, nếu không bạn sẽ phải mất nhiều thời gian soạn thảo văn bản. Đây là một trong những lợi thế của sổ ghi âm trong việc luyện tập phát âm rõ ràng.

Nhận diện giọng nói

Đầu tiên, trang web sẽ yêu cầu bạn cho phép sử dụng micrô, hãy nhấp vào “cho phép” và notepad đã sẵn sàng để sử dụng.Đừng sợ notepad bằng tiếng Anh, ở cuối trang bạn đặt ngôn ngữ là “ Tiếng Nga” và viết ra mọi thứ bạn cần. Trong phần trợ giúp ở trên cùng, khi bạn mở nó, hãy nhấp vào nút bên phải chuột và chọn “Dịch sang tiếng Nga”.

Nhận dạng giọng nói còn hữu ích cho việc gì nữa? Google đã quan tâm đến việc tích hợp ứng dụng này với Dropbox ( lưu trữ đám mây) và Google Drive ( Google Drive) mà bạn có thể xuất tài liệu của mình hoặc chỉ cần gửi chúng qua email.

Sau khi đọc chính tả một cách nhàn nhã và rõ ràng, văn bản có thể được chọn và sao chép bằng phím Ctrl+C rồi dán vào khay nhớ tạm.

Hãy thử làm việc với những ứng dụng này, tôi hy vọng bạn sẽ thích chúng và thấy chúng hữu ích, đồng thời tôi sẽ giới thiệu cho bạn một chương trình nghiêm túc hơn mà bản thân tôi sử dụng.

Xin chào các độc giả thân mến. Hôm nay tôi sẽ kể chi tiết cho bạn về cài đặt kỹ thuật và sắc thái của việc gõ giọng nói trên máy tính. Như bạn đã biết, phương pháp mà tôi đề xuất trong khóa học video miễn phí “” là phương pháp di động và không cần máy tính và chương trình trả phí. Dựa trên rất nhiều lá thư, có thể thấy rằng tôi thực sự thích khóa học. Nhưng cũng có rất nhiều câu hỏi: Làm thế nào để gõ văn bản bằng giọng nói trên máy tính? Hơn nữa, từ những con chữ tôi hiểu rằng không chỉ thú vị ở phương pháp gõ văn bản bằng giọng nói trên máy tính mà còn là việc dịch âm thanh thành văn bản.

Tất nhiên, trong các bình luận và thư, tôi đã trả lời và đề xuất cái duy nhất, theo tôi, phù hợp cho việc này dịch vụ trực tuyến"Notepad để nhập giọng nói". Và bây giờ tôi đã nhận được những lá thư yêu cầu tôi kể về cài đặt kỹ thuật máy tính (micro và card âm thanh) và cách dịch âm thanh thành văn bản.

Nói chung, bí quyết để làm việc với dịch vụ này rất đơn giản - bạn phải có một chiếc micro tốt, nhạy. Ngược lại, chất lượng nhận dạng rất kém. Nhưng cũng có một lối thoát cho trường hợp này.

1. Gõ qua micrô.

2. Gõ qua âm thanh ảo cáp.

Trước khi bắt đầu nhập bằng giọng nói bằng Voice Notepad, bạn cần thực hiện một số cài đặt trong trình duyệt Google Chrome. TRÊN khoảnh khắc này, chỉ trong trình duyệt này mới có khả năng nhập văn bản bằng giọng nói. Chúng tôi sẽ cần cài đặt thêm hai phần mở rộng.

Cách gõ văn bản bằng giọng nói trong notepad bằng giọng nói

Đối với phương pháp đầu tiên, cài đặt thêm không cần phải làm điều đó. Mọi thứ đã sẵn sàng để nhập văn bản bằng giọng nói bằng sổ ghi chú bằng giọng nói.

Chúng ta hãy đi đến trang chủ sổ ghi chú, màn hình hiển thị thông số bắt buộc và bạn có thể đọc chính tả văn bản bằng giọng nói. Biểu tượng micrô được sử dụng để nhập từng cụm từ hoặc câu riêng lẻ. Để nhập văn bản liên tục, hãy sử dụng nút “Bật ghi âm”.

Lưu ý: Lần đầu tiên bạn cố gắng nhập bằng giọng nói, một thông báo cảnh báo sẽ xuất hiện ở đầu trình duyệt yêu cầu bạn truy cập micrô của mình. Bạn cần nhấp vào nút “Cho phép”.

Cách điền vào bất kỳ trường và biểu mẫu nào bằng giọng nói của bạn trong trình duyệt Google Chrome

Sử dụng tiện ích mở rộng “Nhập văn bản bằng giọng nói” đã cài đặt trước đó, bạn có quyền truy cập vào chức năng điền vào bất kỳ trường nào trong trình duyệt. Ví dụ, trong Mẫu đăng ký hoặc để lại bình luận.

Để điền vào một trường riêng trong biểu mẫu, hãy nhấp chuột phải vào trường này và chọn “SpeechPad” trong menu phân biệt ngữ cảnh.

Cho phép truy cập vào micrô và đọc chính tả văn bản.

Và nếu bạn cần viết chính tả một vài câu, chẳng hạn như một bình luận hoặc một bài đăng trên diễn đàn, bạn cần làm theo các bước sau.

Nhấp vào nút chuột phải bên cạnh trường nhập liệu và chọn cùng mục “SpeechPad” trong menu phân biệt ngữ cảnh. Nhưng lần này một cửa sổ mới sẽ mở ra và quá trình ghi sẽ bắt đầu. Đọc chính tả văn bản, sau đó sử dụng bảng nhớ tạm để chuyển văn bản sang dạng mong muốn.

Phím tắt để làm việc với bảng nhớ tạm:

Ctrl+A – chọn văn bản

Ctrl+C – sao chép vào clipboard

Ctrl+V – dán từ clipboard

Đây là cách mà không cần bất kỳ cài đặt đặc biệt nào, nếu bạn có quyền truy cập Internet, bạn có thể nhập văn bản bằng giọng nói trên máy tính. Chất lượng nhận dạng sẽ phụ thuộc vào micrô và cách phát âm của bạn.

Bây giờ hãy xem xét khả năng dịch âm thanh thành văn bản. Phương pháp này được gọi là phiên âm. Dịch vụ này cho phép bạn dịch âm thanh thành văn bản từ các tập tin âm thanh và video. Một lần nữa, điểm nhấn là một chiếc micro tốt.

Nhưng trong Thông số kỹ thuật Tôi không hiểu micro và tôi sẽ không nói cái nào tốt và cái nào không. Hãy để tôi nói rằng tôi có một chiếc micro để bàn Genius thông thường và nó phù hợp với tôi. Hôm qua tôi bắt đầu chuẩn bị cho bài viết này bằng micro này, nhận dạng giọng nói không có nhiều lỗi. Trong đêm, thú cưng (con mèo) của chúng tôi đã phá hoại và nhai dây micro. Đừng nghĩ rằng đó chỉ là một chiếc micro - không, không chỉ vậy.

Và để tiếp tục chuẩn bị cho bài viết, mình đã sử dụng tai nghe có kèm micro. Và tôi phải nói rằng, đó chỉ là đất và trời. Micro trên tai nghe chỉ là một cái ống. Hoặc là do tuổi già, hoặc có lẽ là do quá nghèo nên chỉ là kẻ giết chết tế bào thần kinh. Vì vậy, hãy rút ra kết luận của riêng bạn.

Được rồi, hãy chuyển sang hoàn thành nhiệm vụ trước mắt.

Cách chuyển đổi âm thanh thành văn bản

Phương pháp số 1

Phương pháp này không yêu cầu bất kỳ cài đặt nào. Nguyên tắc như sau. Bạn đang tái tạo tập tin âm thanh hoặc video, âm thanh sẽ phát qua loa và micrô sẽ thu âm thanh từ loa. Bạn cũng có thể bật ghi âm trên máy ghi âm hoặc điện thoại thông minh của mình và micrô sẽ ghi lại âm thanh từ các thiết bị đó.

Dịch vụ này cung cấp khả năng thu âm thanh từ video YouTube, tệp video và tệp âm thanh. Các tập tin video và âm thanh có thể được tìm thấy cả trên Internet và trên máy tính của bạn.

Trước tiên, hãy xem ví dụ về mở video từ YouTube. Để làm điều này, bạn sẽ cần ID của video này. ID này phải được chèn vào trường “URL của tệp phương tiện để phát” và nhấp vào nút “Cập nhật”.

Mỗi video trên YouTube đều có ID duy nhất này. Bạn có thể nhìn thấy anh ấy trong thanh địa chỉ browser.

Bây giờ hãy xem một ví dụ về mở một tập tin trên máy tính của bạn.

Đầu tiên, chỉ định loại tệp, âm thanh hoặc video. Sau đó nhấp vào nút “Chọn tệp” và chọn tệp trên máy tính của bạn. Sau khi chọn tập tin, nhấp vào nút "Mở".

Bước tiếp theo là đặt micrô bên cạnh loa của máy tính hoặc máy ghi âm hoặc điện thoại thông minh của bạn và bật ghi âm.

Phương pháp số 2

Phương pháp này cho phép bạn loại trừ micrô khỏi chuỗi chuyển đổi âm thanh thành văn bản. Âm thanh sẽ được truyền trực tiếp từ máy nghe nhạc tới sổ ghi chú giọng nói. Và việc bạn có loại micrô nào không quan trọng.

Nhưng điều này sẽ đòi hỏi chương trình riêng biệt- Cáp âm thanh ảo. Chương trình này tạo cáp âm thanh ảo và truyền luồng âm thanh giữa các ứng dụng. Chương trình này được trả phí, chi phí từ $25 đến $50. Nhưng bạn có thể sử dụng phiên bản miễn phí. Phiên bản miễn phí có giới hạn về số lượng cáp ảo. Chỉ có thể tạo được 3 dây cáp. Và cũng giọng nữ liên tục nhắc nhở tôi rằng đây là phiên bản miễn phí nếu bạn sử dụng bộ lặp âm thanh. Nhưng tôi sẽ thành thật nói với bạn rằng bạn có thể làm mà không cần nó. Nhưng phiên bản dùng thử không bị giới hạn về thời gian. Trong video hướng dẫn tôi sẽ chỉ cho bạn thủ thuật này.

Vì vậy, trước tiên hãy tải xuống chương trình “Cáp âm thanh ảo”, liên kết ở trên.

Sau khi bạn tải xuống tập tin lưu trữ trên máy tính của bạn, bạn cần giải nén nó. Để làm điều này, bạn có thể sử dụng một trình lưu trữ hoặc sao chép đơn giản các tập tin từ kho lưu trữ vào một thư mục mới.

Cài đặt chương trình VAC

Quá trình cài đặt là tiêu chuẩn và không yêu cầu bạn phải có thêm kiến thức và kỹ năng. Chỉ cần làm theo trình hướng dẫn cài đặt.

Bây giờ bạn sẽ không nghe thấy một âm thanh nào từ loa của mình mà tất cả âm thanh sẽ được truyền qua cáp âm thanh ảo đến sổ ghi chú giọng nói. Đúng thứ chúng ta cần.

Lưu ý: nếu bạn vẫn muốn nghe âm thanh, bạn nên vào thư mục nơi bạn đã giải nén kho lưu trữ chương trình và khởi chạy bộ lặp âm thanh. Bằng cách chỉ định cáp ảo làm thiết bị đầu vào và loa làm thiết bị đầu ra.

Đó là tất cả điểm kỹ thuật gõ văn bản bằng giọng nói trên máy tính bằng notepad giọng nói, được tiết lộ. Nếu điều gì tôi nói chưa rõ ràng, hãy viết bình luận, tôi sẽ cố gắng bổ sung và giúp đỡ bằng lời khuyên. Ngoài ra, nếu vì lý do nào đó bạn không thể tự mình viết bài cho trang web, thì bạn có thể tham gia thị trường chứng khoán. Ngày nay, nhiều chủ trang web làm việc này, giao phó công việc cho các chuyên gia.

Tôi chúc mọi người may mắn.

Nếu bạn gõ bàn phím quá chậm và học phương pháp mười ngón lười gõ quá, bạn có thể thử dùng chương trình hiện đại và dịch vụ nhập văn bản bằng giọng nói.

Bàn phím chắc chắn là đủ công cụ tiện dụngđiều khiển máy tính. Tuy nhiên, khi gõ Văn bản dài, chúng tôi hiểu tất cả những điểm không hoàn hảo của nó (và thành thật mà nói là của chúng tôi :))... Bạn cũng cần có khả năng gõ nhanh vào nó!

Cách đây vài năm, vì muốn đơn giản hóa công việc viết bài của mình, tôi quyết định tìm một chương trình cho phép tôi chuyển giọng nói thành văn bản. Tôi nghĩ sẽ tuyệt biết bao nếu tôi chỉ cần nói tất cả những gì tôi cần vào micro và máy tính sẽ gõ cho tôi :)

Hãy tưởng tượng sự thất vọng của tôi khi nhận ra rằng vào thời điểm đó không có giải pháp nào thực sự hiệu quả (chứ đừng nói là miễn phí) cho vấn đề này. Tuy nhiên, đã có những sự phát triển trong nước, như “Gorynych” và “Dictograph”. Họ hiểu tiếng Nga, nhưng than ôi, chất lượng nhận dạng giọng nói khá thấp và cần thiết thiết lập lâu với việc tạo ra một cuốn từ điển theo giọng nói của chính bạn, và nó cũng khá tốn kém...

Sau đó, Android ra đời và tình hình đã tiến xa hơn một chút so với điểm chết. Trong hệ thống này Dữ liệu giọng nói thu được xuất hiện như một giải pháp thay thế tích hợp (và khá tiện lợi) cho đầu vào ảo bàn phím trên màn hình. Và gần đây, trong một bình luận, tôi được hỏi liệu có tùy chọn nhập giọng nói cho Windows không? Tôi chưa trả lời điều đó, nhưng tôi quyết định xem xét và hóa ra, có thể không hoàn toàn chính thức, nhưng cơ hội như vậy vẫn tồn tại! Bài viết hôm nay sẽ nói về kết quả nghiên cứu của tôi.

Vấn đề nhận dạng giọng nói

Trước khi chúng tôi bắt đầu phân tích các giải pháp hiện tại cho việc nhập giọng nói trong Windows, tôi muốn làm sáng tỏ bản chất của vấn đề nhận dạng giọng nói của máy tính. Để hiểu chính xác hơn về quy trình, tôi khuyên bạn nên xem sơ đồ sau:

Như bạn có thể thấy, việc chuyển lời nói thành văn bản xảy ra theo một số giai đoạn:

Số hóa giọng nói. Ở giai đoạn này, chất lượng phụ thuộc vào độ rõ ràng của phát âm, chất lượng của micro và card âm thanh.
So sánh một mục với các mục trong từ điển. Nguyên tắc “càng nhiều càng tốt” được áp dụng ở đây: từ điển càng chứa nhiều từ được ghi lại thì khả năng từ của bạn được nhận dạng chính xác càng cao.
Đầu ra văn bản. Hệ thống tự động, dựa trên các lần tạm dừng, cố gắng xác định các từ vựng riêng lẻ từ luồng giọng nói tương ứng với các từ vựng mẫu từ từ điển, sau đó hiển thị các kết quả khớp được tìm thấy dưới dạng văn bản.

Vấn đề chính, như bạn có thể đoán, nằm ở hai sắc thái chính: chất lượng của đoạn giọng nói được số hóa và khối lượng từ điển với các mẫu. Vấn đề đầu tiên có thể được giảm thiểu một cách thực tế ngay cả khi có micro giá rẻ và một card âm thanh tiêu chuẩn. Chỉ cần nói chậm và rõ ràng là đủ.

Với vấn đề thứ hai, than ôi, không phải mọi thứ đều đơn giản như vậy... Máy tính, không giống như con người, không thể nhận dạng chính xác cùng một cụm từ được nói bởi một người phụ nữ và một người đàn ông. Để làm được điều này, cả hai tùy chọn diễn xuất bằng giọng nói với các giọng nói khác nhau phải tồn tại trong cơ sở dữ liệu của nó!

Đây là nơi đánh bắt chính. Về nguyên tắc, việc tạo một cuốn từ điển cho một người không quá khó, tuy nhiên, vì mỗi từ phải được viết thành nhiều phiên bản nên việc này rất dài và tốn nhiều công sức. Do đó, hầu hết các chương trình nhận dạng giọng nói hiện nay đều quá đắt hoặc không có từ điển riêng, khiến người dùng phải tự tạo ra chúng.

Không phải vô cớ mà tôi đã đề cập đến Android cao hơn một chút. Thực tế là Google, công ty đang phát triển nó, cũng đã tạo ra từ điển trực tuyến toàn cầu duy nhất hiện có để nhận dạng giọng nói (và đa ngôn ngữ!) có tên là API giọng nói của Google. Yandex cũng đang tạo một từ điển tương tự cho tiếng Nga, nhưng than ôi, cho đến nay nó vẫn không phù hợp để sử dụng trong điều kiện thực tế. Vì thế, hầu như mọi thứ giải pháp miễn phí, mà chúng ta sẽ xem xét bên dưới, hoạt động cụ thể với từ điển Google. Theo đó, chúng đều có chất lượng nhận dạng như nhau và sắc thái chỉ nằm ở khả năng bổ sung...

Chương trình nhập liệu bằng giọng nói

Không có nhiều chương trình nhập liệu bằng giọng nói đầy đủ cho Windows. Và những người tồn tại và hiểu được tiếng Nga hầu hết đều phải trả phí... Ví dụ, chi phí của một ngôn ngữ phổ biến hệ thống người dùng Chuyển đổi giọng nói thành văn bản RealSpeaker bắt đầu ở mức 2.587 rúp và tổ hợp Caesar-R chuyên nghiệp bắt đầu ở mức 35.900 rúp!

Nhưng trong số tất cả những phần mềm đắt tiền này, có một chương trình không tốn một xu nhưng đồng thời cung cấp chức năng quá đủ cho hầu hết người dùng. Nó được gọi là MSpeech:

Cửa sổ chương trình chính có giao diện đơn giản nhất có thể - chỉ báo mức âm thanh và chỉ có ba nút: bắt đầu ghi, dừng ghi và mở cửa sổ cài đặt. MSpeech cũng hoạt động khá đơn giản. Bạn cần nhấn nút ghi, đặt con trỏ vào cửa sổ nơi văn bản sẽ được hiển thị và bắt đầu đọc chính tả. Để thuận tiện hơn, tốt hơn hết bạn nên ghi và dừng nó bằng phím nóng, có thể đặt trong Cài đặt:

Ngoài phím nóng, bạn có thể cần thay đổi kiểu truyền văn bản sang windows chương trình cần thiết. Đầu ra mặc định được đặt thành cửa sổ đang hoạt động, tuy nhiên, bạn có thể chỉ định chuyển sang các trường không hoạt động hoặc đến các trường của một chương trình cụ thể. Từ Tính năng bổ sungĐiều đáng chú ý là nhóm cài đặt “Lệnh”, cho phép bạn thực hiện điều khiển giọng nói máy tính bằng cách sử dụng các cụm từ bạn chỉ định.

Nhìn chung, MSpeech khá chương trình tiện lợi, cho phép bạn nhập văn bản bằng giọng nói ở bất kỳ cửa sổ Windows. Lưu ý duy nhất khi sử dụng là máy tính phải kết nối Internet mới có thể truy cập từ điển Google.

Nhập liệu bằng giọng nói trực tuyến

Nếu bạn không muốn cài đặt bất kỳ chương trình nào trên máy tính của mình nhưng muốn thử nhập văn bản bằng giọng nói, bạn có thể sử dụng một trong nhiều dịch vụ trực tuyến hoạt động trên cùng một từ điển Google.

Tất nhiên, điều đầu tiên đáng nói đến là dịch vụ “bản địa” của Google có tên là Web Speech API:

Dịch vụ này cho phép bạn dịch không giới hạn các phần lời nói thành văn bản bằng hơn 50 ngôn ngữ! Bạn chỉ cần chọn ngôn ngữ mình nói, nhấn vào biểu tượng micro bên phải góc trên cùng biểu mẫu, nếu cần, hãy xác nhận quyền để trang web truy cập micrô và bắt đầu nói.

Nếu bạn không sử dụng bất kỳ thuật ngữ chuyên môn cao nào và nói rõ ràng, bạn có thể nhận được một kết quả rất tốt. Ngoài từ ngữ, dịch vụ còn “hiểu” dấu câu: nếu bạn nói “dấu chấm” hoặc “dấu phẩy”, ký hiệu bắt buộc sẽ xuất hiện ở dạng đầu ra.

Khi quá trình ghi hoàn tất, văn bản được nhận dạng sẽ tự động được đánh dấu và bạn có thể sao chép nó vào khay nhớ tạm hoặc gửi qua thư.

Trong số những thiếu sót, điều đáng chú ý là dịch vụ này chỉ có thể hoạt động trên trình duyệt Google Chrome phiên bản cũ hơn 25, cũng như thiếu khả năng nhận dạng đa ngôn ngữ.

Nhân tiện, trên trang web của chúng tôi ở trên cùng, bạn sẽ tìm thấy một phiên bản hoàn toàn bằng tiếng Nga của cùng một hình thức nhận dạng giọng nói. Hãy tận hưởng nó vì sức khỏe của bạn ;)

Có khá nhiều tài nguyên nhận dạng giọng nói trực tuyến tương tự dựa trên dịch vụ của Google. Một trong những trang web được chúng tôi quan tâm là Dictation.io:

không giống Bài phát biểu trên web API, Dictation.io có nhiều hơn thế Thiết kế thời trang dưới dạng một cuốn sổ ghi chú. Ưu điểm chính của nó so với dịch vụ của Google là cho phép bạn dừng ghi rồi bắt đầu lại và văn bản đã nhập trước đó sẽ được lưu cho đến khi bạn nhấn nút "Xóa".

Giống dịch vụ của Google Dictation.io “biết cách” sử dụng dấu chấm, dấu phẩy, cũng như dấu chấm than và dấu chấm hỏi, nhưng không phải lúc nào cũng bắt đầu một câu mới bằng chữ in hoa.

Nếu bạn đang tìm kiếm một dịch vụ có chức năng tối đa thì có lẽ một trong những dịch vụ tốt nhất về mặt này sẽ là:

Ưu điểm chính của dịch vụ:

sự sẵn có của giao diện tiếng Nga;
khả năng xem và chọn các tùy chọn nhận dạng;
sự hiện diện của lời nhắc bằng giọng nói;
tự động tắt ghi âm sau một thời gian dài tạm dừng;
được xây dựng trong soạn thảo văn bản với các chức năng sao chép văn bản vào khay nhớ tạm, in trên máy in, gửi qua thư hoặc Twitter và dịch nó sang các ngôn ngữ khác.

Hạn chế duy nhất của dịch vụ (ngoài những nhược điểm chung đã được mô tả của Web API lời nói) là một thuật toán vận hành không mấy quen thuộc với các dịch vụ như vậy. Sau khi nhấn nút ghi và đọc chính tả văn bản, bạn cần kiểm tra, chọn phương án phù hợp nhất với điều bạn muốn nói rồi chuyển sang trình soạn thảo văn bản bên dưới. Sau đó thủ tục có thể được lặp lại.

Plugin dành cho Chrome

Ngoài các chương trình chính thức và dịch vụ trực tuyến, còn có một cách khác để nhận dạng giọng nói thành văn bản. Phương pháp này được triển khai bằng cách sử dụng plugin cho trình duyệt Google Chrome.

Ưu điểm chính của việc sử dụng plugin là với sự trợ giúp của chúng, bạn có thể nhập văn bản bằng giọng nói không chỉ trong hình thức đặc biệt trên trang web dịch vụ mà còn trong bất kỳ trường nhập liệu nào trên bất kỳ tài nguyên web nào! Trên thực tế, các plugin chiếm một vị trí trung gian giữa các dịch vụ và các chương trình đầy đủđể nhập bằng giọng nói.

Một trong tiện ích mở rộng tốt nhấtđể dịch lời nói thành văn bản là SpeechPad:

Tôi sẽ không nói dối nếu nói rằng SpeechPad là một trong những ứng dụng hay nhất dịch vụ tiếng Nga dịch lời nói thành văn bản. Trên trang web chính thức, bạn sẽ tìm thấy một notepad trực tuyến khá mạnh mẽ (mặc dù có thiết kế hơi cũ) với nhiều chức năng nâng cao, bao gồm:

ủng hộ khẩu lệnhđiều khiển máy tính;
cải thiện hỗ trợ dấu câu;
chức năng tắt âm thanh trên PC;
tích hợp với Windows (mặc dù trên cơ sở trả phí);
khả năng nhận dạng văn bản từ bản ghi video hoặc âm thanh (chức năng "Phiên âm");
dịch văn bản được công nhận sang bất kỳ ngôn ngữ nào;
lưu văn bản vào tập tin văn bản, Có sẵn để tải xuống.

Đối với plugin, nó cung cấp cho chúng tôi chức năng dịch vụ đơn giản nhất. Đặt con trỏ vào trường nhập liệu bạn cần, gọi menu ngữ cảnh và nhấp vào mục "SpeechPad". Bây giờ hãy xác nhận quyền truy cập vào micrô và khi trường nhập chuyển sang màu hồng, hãy đọc chính tả văn bản mong muốn.

Sau khi bạn ngừng nói (tạm dừng hơn 2 giây), plugin sẽ ngừng ghi và hiển thị mọi thứ bạn nói trong trường. Nếu muốn, bạn có thể vào cài đặt plugin (nhấp chuột phải vào biểu tượng plugin ở trên cùng) và thay đổi các tham số mặc định:

Thật kỳ lạ, trong toàn bộ cửa hàng trực tuyến tiện ích mở rộng của Google, tôi chưa tìm thấy một plugin đáng giá nào cho phép nhập bằng giọng nói vào bất kỳ trường văn bản nào. Phần mở rộng tương tự duy nhất là phần mở rộng tiếng Anh. Nó thêm biểu tượng micrô vào tất cả các trường nhập trên trang web, nhưng không phải lúc nào nó cũng định vị chính xác, vì vậy nó có thể tắt màn hình...