Làm cách nào để tạo phụ đề tự động cho chương trình tự động tạo phụ đề bằng lời nói thành văn bản? Tải lên tệp phụ đề tùy chỉnh

Tôi có một video muốn tạo phụ đề. Có chương trình nào có thể chuyển lời nói thô sơ thành văn bản không?

  1. đặt điểm bắt đầu/dừng chính xác cho từng phụ đề riêng lẻ
  2. tạo phụ đề văn bản thô sơ (sử dụng một số lời nói trong văn bản)

Tôi biết về phụ đề gnome. Tuy nhiên, việc tạo ra những phụ đề này đòi hỏi rất nhiều công sức. Bạn cần phải tự chọn điểm bắt đầu và điểm dừng cho mỗi câu.

Youtube có các chức năng được liệt kê ở trên (tạo phụ đề văn bản thô sơ với thời gian chính xác bằng văn bản nói). Tuy nhiên, tôi không muốn tải video lên Youtube để lấy phụ đề. Có thể làm phụ đề hiệu quả trong Ubuntu không?

Cập nhật: Tôi định chỉ sử dụng phụ đề.srt và bạn không cần phải mã hóa chúng vào video. Yêu cầu lớn nhất của tôi là chương trình tự động tìm điểm bắt đầu/dừng cho mỗi câu nên tôi viết văn bản vào đó.

Cập nhật số 2: Có phần mềm Chuyển giọng nói thành văn bản dành cho Linux với gói CMU Sphinx. Có thể sử dụng CMU Sphinx với chương trình tạo phụ đề theo http://sourceforge.net/projects/cmusphinx/forums/forum/5471/topic/3949891 Ngoài ra, một công cụ tạo phụ đề cũng biết về tính năng CMU Sphinx này, http:// google.com/group/universal-subtitles-testing/browse_thread/thread/613361ffb921b43b (công cụ web) tuy nhiên không có liên kết nào trong mã nguồn mới nhất nơi họ đã thêm CMU Sphinx. Nhiệm vụ tiếp tục là tìm một chương trình sử dụng CMU Sphinx để chuyển lời nói thành văn bản thô sơ (cũng có thời gian phù hợp), giống như Youtube.

Tôi đã sử dụng Aegisub cho Windows vài năm trước và rất hài lòng với nó. Rõ ràng nó có sẵn cho Linux. Nó khá tự nhận thức.

Aegisub chỉ tạo tệp phụ đề, chẳng hạn như tệp .srt. Để kết hợp video và phụ đề để tạo phụ đề được mã hóa cứng, bạn vẫn cần sử dụng chương trình thứ hai.
Trên Windows, tôi đã sử dụng VirtualDub nhưng nó không có sẵn cho Linux. Bạn có thể tìm thấy một chương trình phù hợp cho Wikipedia.

Ngoài ra còn có các trình soạn thảo phụ đề khác

Cập nhật:
Tôi không nhớ Aegisub có chức năng tự động đặt phần đầu và phần cuối của câu nói trong tệp phụ đề. Và tôi không thấy bất kỳ đề cập nào về tính năng như vậy ở bất kỳ đâu trên trang web. Tuy nhiên, bằng cách sử dụng (phím tắt), việc đặt thời gian này theo cách thủ công khá dễ dàng.

Có chương trình nào có tính năng như vậy (trong bất kỳ hệ điều hành nào) không?

Tôi chưa tìm được cách để chương trình phụ đề tự động thêm phụ đề thô sơ bằng cách phân tích giọng nói trong video.

Vì vậy, giải pháp thay thế tôi sử dụng là

  1. Tải video lên Youtube (chẳng hạn như ở chế độ riêng tư) và sử dụng công cụ tích hợp sẵn để tự động tạo phụ đề thô sơ.
  1. Thêm video vào http://www.universalsubtitles.org/ và tạo khung thời gian cho mỗi câu theo cách thủ công nếu cách tự động trong Youtube không hoạt động hoặc các đề xuất đang hoàn thiện.
  2. Sử dụng Phụ đề Gnome (trong Trung tâm phần mềm) để xóa phụ đề và sửa mọi thời gian.

Cá nhân tôi thích phụ đề Gnome có sẵn trong kho.

Sudo apt-get cài đặt phụ đề gnome

Được rồi, tôi đã tìm thấy một số công cụ trông rất đẹp và giống như một hội thảo phụ đề - trình chỉnh sửa phụ đề (apt-get install subtitleeditor).

Cố gắng so sánh nó với phụ đề Gnome, trình chỉnh sửa phụ đề có vẻ cao cấp hơn.

Đối với KDE, trình soạn thảo phụ đề tốt là Subtitles. Cài đặt nó bằng lệnh

Sudo apt-get cài đặt trình soạn thảo phụ đề

hoặc sử dụng liên kết liên kết phụ đề

Thiết lập chuyển đổi

Camtasia Studio có khả năng tự động tạo phụ đề bằng cách chuyển lời nói thành văn bản.

Khả năng chuyển đổi này phụ thuộc vào hệ điều hành được sử dụng trên máy tính. Để kiểm tra khả năng chuyển đổi trong cửa sổ Camtasia Studio trong menu Công cụ chọn đội Lời nói, sau đó trong menu con - lệnh Thuộc tính lời nói(Hình 8.16).

Hiện tại, Microsoft Windows không có mô-đun nhận dạng giọng nói tiếng Nga.

Để bắt đầu quá trình chuyển đổi, hãy chuyển đến tab Chú thích(Hình 8.1) nhấn nút Chuyển giọng nói thành văn bản. Khi bạn khởi chạy nó lần đầu tiên, một cửa sổ sẽ xuất hiện (Hình 8.17), sử dụng các liên kết, bạn có thể truy cập cài đặt của mô-đun nhận dạng giọng nói.

Xin lưu ý rằng mô-đun này thuộc về hệ điều hành chứ không phải Camtasia Studio. Chỉ có thể cài đặt nếu ngôn ngữ nhận dạng khớp với ngôn ngữ giao diện hệ điều hành. Tuy nhiên, việc chuyển đổi giọng nói thành văn bản phụ đề vẫn có thể thực hiện được trong mọi trường hợp, miễn là hệ điều hành có chứa mô-đun cần thiết.

Nếu bạn định nhận dạng và chuyển lời nói của chính mình thành phụ đề, bạn có thể nhấp vào liên kết Bắt đầu luyện giọng(Hình 8.17) để huấn luyện mô-đun nhận dạng.

  • Trong cửa sổ tiếp theo xuất hiện, nhấp vào nút Kế tiếp.
  • Trong cửa sổ tiếp theo (Hình 8.18), đọc to các cụm từ xuất hiện ở đó. Sẽ có rất nhiều cụm từ. Quá trình đào tạo có thể mất 30 phút hoặc hơn.

Khi hoàn tất, một cửa sổ sẽ xuất hiện (Hình 8.19). Bạn có thể tiếp tục tập luyện bằng cách nhấn nút Đào tạo thêm. Để kết thúc tập luyện bạn phải nhấn nút Kế tiếp.

Tính năng này chưa có trong Creative Studio mới. Để về giao diện cổ điển nhấn Phiên bản cổ điển trong menu bên trái.

Nếu bạn muốn nội dung của mình dễ hiểu đối với tất cả người xem, hãy thêm phụ đề vào nội dung đó. Bạn có thể kích hoạt tính năng tạo phụ đề tự động trên YouTube. Nó dựa trên công nghệ nhận dạng giọng nói bằng thuật toán học máy.

Tự động tạo phụ đề video

Tạo phụ đề tự động có sẵn cho các ngôn ngữ sau: tiếng Anh, tiếng Tây Ban Nha, tiếng Ý, tiếng Hàn, tiếng Đức, tiếng Hà Lan, tiếng Bồ Đào Nha, tiếng Nga, tiếng Pháp và tiếng Nhật.

Phụ đề sẽ được thêm vào video nếu tính năng này khả dụng cho ngôn ngữ của bạn. Xin lưu ý rằng thời gian xử lý phụ thuộc vào độ phức tạp của bản âm thanh. Vì vậy, phụ đề có thể không xuất hiện ngay lập tức.

Các chuyên gia của chúng tôi không ngừng cải tiến công nghệ nhưng đôi khi giọng nói được nhận dạng không chính xác. Thông thường, lỗi trong phụ đề tự động là do phát âm, giọng hoặc phương ngữ của người nói không chính xác hoặc do tiếng ồn không liên quan. Về vấn đề này, chúng tôi khuyên bạn nên xem phụ đề được tạo tự động và nếu cần, hãy chỉnh sửa chúng.

Đây là cách kiểm tra phụ đề:

  1. Đăng nhập vào tài khoản của bạn và nhấp vào biểu tượng kênh ở góc trên bên phải của trang. Đi đến Studio sáng tạo, mở phần Trình quản lý video và chọn Băng hình.
  2. Tìm video bạn muốn và nhấp vào menu thả xuống ở bên phải nút Thay đổi.
  3. Lựa chọn phụ đề.
  4. Tìm phụ đề được tạo tự động. Rất dễ dàng để phân biệt chúng - trong danh sách "Đã xuất bản", nằm ở bên phải của video, nó sẽ được chỉ định bên cạnh ngôn ngữ của phụ đề đó (tự động).
  5. Đọc phụ đề và thay đổi hoặc xóa chúng nếu cần thiết.

Các vấn đề

Sự cố khi tạo phụ đề tự động có thể xảy ra vì một trong những lý do sau:

  • Phụ đề vẫn chưa có vì bản âm thanh phức tạp vẫn đang được xử lý.
  • Tính năng tạo phụ đề tự động không khả dụng cho ngôn ngữ đã chọn.
  • Video quá dài.
  • Video có chất lượng âm thanh thấp hoặc chứa giọng nói mà YouTube không thể nhận dạng được.
  • Video bắt đầu bằng một đoạn dài không có âm thanh.
  • Nhiều người nói cùng một lúc.

Tự động tạo phụ đề cho chương trình phát sóng

Bạn chỉ có thể bật phụ đề tự động cho các chương trình phát sóng bằng tiếng Anh có độ trễ bình thường.

Phụ đề tự động không được lưu sau khi kết thúc chương trình phát sóng. Khi xem chương trình phát sóng trong bản ghi, chúng sẽ được tạo lại.

Đọc thêm về phụ đề cho chương trình phát sóng trực tiếp.

Hãy tưởng tượng một tình huống có một video bằng tiếng Đức (tiếng Nhật, tiếng Hàn, tiếng Anh) và bạn cần nhanh chóng tìm hiểu xem họ đang nói về điều gì. Nhưng khả năng hiểu ngôn ngữ nói bằng ngôn ngữ này của bạn rất kém hoặc không có. Phải làm gì?

Hãy nói về một số thủ thuật có thể hữu ích trong tình huống như vậy.

1. Tải phụ đề

Việc có phiên bản văn bản của video sẽ giúp ích rất nhiều trong tình huống này. Nó có thể được sao chép vào Google Translate hoặc đọc bằng từ điển.

Sao chép liên kết tới video và dán vào biểu mẫu tại. Hoạt động với Youtube, DramaFever, ViKi, DailyMotion, OnDemandKorea, Drama, Vlive, VIU. Phụ đề được tải xuống dưới dạng tệp .srt. Bạn có thể mở nó bằng bất kỳ trình soạn thảo văn bản nào.

Dịch vụ này cung cấp bản dịch tự động sang các ngôn ngữ khác. Chúng cũng có thể được tải xuống trong tệp .srt. Nhưng nếu bạn biết ít nhất một chút về ngôn ngữ được nói trong video thì tốt hơn hết bạn nên tải xuống phụ đề bằng ngôn ngữ gốc và tự dịch chúng một cách chu đáo.

2. Tìm video có phụ đề

Nếu Downsub đưa ra thông báo về việc không có phụ đề, thì bạn có thể thử tìm kiếm bản sao của nó trên YouTube nhưng có phụ đề. Điều này có thể được thực hiện bằng cách sử dụng tìm kiếm nâng cao.

3. Tự động tạo phụ đề

Nếu không có phiên bản có phụ đề cho video mà bạn quan tâm trên YouTube thì bạn có thể tải tệp gốc lên kênh của mình (đừng quên chỉ định cài đặt “Truy cập qua liên kết” hoặc “Truy cập có giới hạn”) và sử dụng chức năng tạo phụ đề tự động.

Nếu bạn không có tệp nguồn kèm theo video mà chỉ có liên kết đến video đó thì hãy thử tải xuống bằng cách sử dụng trang web ru.savefrom.net.

Làm thế nào để tự động tạo phụ đề? Rất đơn giản. YouTube tự động cố gắng dịch tất cả các video bằng tiếng Nga, tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý, tiếng Hà Lan, tiếng Bồ Đào Nha, tiếng Hàn và tiếng Nhật thành văn bản.

Liên kết tới phụ đề được tạo tự động sẽ xuất hiện một lúc sau khi video được tải. Để có một đoạn video dài ba phút, họ phải đợi hơn năm phút. Phụ đề cho video đăng trên kênh của bạn có thể được tải xuống trực tiếp từ YouTube.

Đôi khi văn bản trở nên khá giống với video. Nhưng nếu lời nói trong đó nghe có vẻ khó hiểu thì kết quả có thể khiến bạn bật cười và ngạc nhiên. Trợ giúp YouTube cảnh báo rằng phụ đề có thể không được tạo tự động cho những video có chất lượng rất kém.

Phương pháp này không tệ hack cuộc sống cho sinh viên. Được yêu cầu xem một đoạn video dài ba giờ với một bài giảng? Tệp được tạo tự động có phụ đề và Command+F sẽ giúp bạn nhanh chóng tìm thấy phần nào của video đề cập đến chủ đề bạn cần.

4. Chuyển đổi âm thanh thành video

Nếu bạn không có video mà chỉ có bản ghi âm thì bạn có thể chuyển đổi nó sang .mp4. Ví dụ: tải tệp kết quả lên YouTube.

5. Chuyển lời nói thành văn bản

Nếu bạn không cần dịch toàn bộ video mà chỉ hiểu từng đoạn ngắn thì sử dụng plugin sẽ thuận tiện hơn Phát biểu cảm nghĩ cho trình duyệt Google Chrome.

Đương nhiên, bạn có thể sử dụng nó để chuyển đổi toàn bộ video thành văn bản. Plugin giúp thuận tiện khi làm việc với các đoạn văn bản (viết ra từng cụm từ một và sửa lỗi ngay lập tức).

Giống như phụ đề tự động, chất lượng của kết quả là xổ số. Lời nói nhàn nhã của một người có khả năng diễn đạt tốt về một chủ đề đơn giản hàng ngày có thể được nhận ra một cách hoàn hảo. Và plugin có thể bỏ qua đoạn độc thoại nhanh có tiếng ồn xung quanh.

6. Thay đổi cài đặt phát lại

Phương pháp này rất tầm thường, nhưng rất hiệu quả. Nếu bạn giảm một nửa tốc độ phát lại, âm thanh sẽ được cảm nhận hoàn toàn khác. Điều này không chỉ áp dụng cho con người mà còn áp dụng cho các plugin/ứng dụng nhận dạng giọng nói. Tốc độ càng chậm thì họ càng mắc ít lỗi hơn.

7. Đánh thức bộ não của bạn

Phương pháp này phù hợp với những người hiểu rất tốt văn bản in bằng tiếng nước ngoài nhưng hơi chậm trong việc hiểu ngôn ngữ nói. Điều này xảy ra khi bạn phải đọc báo và sách hàng ngày nhưng lại ít xem video/nghe âm thanh hơn hoặc gần như không bao giờ.

Trước khi xem video về một chủ đề nhất định, bạn cần lấy một số bài viết về cùng một chủ đề (để có nhiều thuật ngữ hơn) và nghe chúng bằng cách sử dụng plugin Nói đi. Đồng thời, đừng quên đọc kỹ văn bản và liên hệ nó với âm thanh. Trong cài đặt tiện ích mở rộng, bạn có thể thay đổi giọng nữ thành giọng nam, âm thanh dễ chịu và rõ ràng hơn.

Đối với một số người, 20 phút là đủ để đánh thức kỹ năng hiểu lời nói (với điều kiện là bạn đã thực hành chúng vào một thời điểm nào đó), trong khi đối với những người khác thì thời gian này dài hơn đáng kể. Hiệu quả cũng giống như khi đến thăm một quốc gia khác. Lúc đầu, có một chút sốc, nhưng trong vòng vài ngày, tất cả các từ và cụm từ đã từng học đều được ghi nhớ và lời nói của những người xung quanh dần dần chuyển từ tiếng ồn xung quanh thành một điều gì đó có ý nghĩa và dễ hiểu.

Tóm lại, cần nhớ lại rằng dịch thuật là một dịch vụ rất rẻ tiền. Trong trường hợp tiếng Anh, sẽ tốn không quá 100 rúp cho mỗi phút giải mã âm thanh/video + 200-400 rúp cho mỗi trang văn bản dịch. Đối với các ngôn ngữ khác thì sẽ đắt hơn một chút.