Ưu điểm và nhược điểm của giao diện giọng nói. Giao diện lời nói từ Speereo

Giao diện giọng nói(hoặc "giao diện người dùng giọng nói"), sử dụng nền tảng giọng nói/lời nói, cho phép tương tác giữa người và máy tính để chạy một dịch vụ hoặc quy trình tự động.

Trước đây, việc điều khiển thiết bị bằng giọng nói chỉ có thể thực hiện được trong khoa học viễn tưởng. Cho đến gần đây, nó được coi là lĩnh vực trí tuệ nhân tạo. Tuy nhiên, với sự phát triển của công nghệ, GI ngày càng trở nên phổ biến và mọi người ngày càng tận dụng công nghệ không tiếp xúc này.

Tuy nhiên, sử dụng GI cũng có những khó khăn riêng. Mọi người có chút kiên nhẫn đối với một “cái máy không hiểu”. Do đó, GI phải hoạt động gần như không có lỗi và do đó phản ứng ổn định với dữ liệu đầu vào, nếu không người dùng sẽ không sử dụng GI, nếu không GI sẽ trở thành đối tượng bị chế giễu. Việc tạo ra một giao diện giọng nói đáng giá đòi hỏi kiến thức liên ngành về khoa học máy tính, ngôn ngữ học và tâm lý học—những kỹ năng đắt giá không dễ dàng có được. Ngay cả với các công cụ phát triển tiên tiến, khi tạo GI hiệu quả, bạn cần phải biết GI sẽ thực hiện nhiệm vụ gì và đối tượng mục tiêu mà nó hướng tới. GI càng phù hợp với mô hình nhận thức về nhiệm vụ của người dùng thì càng dễ dàng sử dụng GI mà không cần hoặc chỉ cần đào tạo tối thiểu, điều này sẽ làm tăng tính hiệu quả và sự hài lòng của người dùng.

Các tính năng rất quan trọng khán giả mục tiêu. Ví dụ: khi tạo GI cho công chúng, bạn cần đặc biệt chú ý đến tính dễ sử dụng cũng như nhiều hướng dẫn và mẹo dành cho người mới bắt đầu. Khi nghĩ ra GI cho một nhóm nhỏ người dùng nâng cao (bao gồm cả hỗ trợ kỹ thuật), bạn cần suy nghĩ nhiều hơn về năng suất hơn là các mẹo và hướng dẫn. Các ứng dụng như vậy nên hệ thống hóa việc xử lý cuộc gọi, giảm thiểu số lượng lời nhắc, loại bỏ sự lặp lại không cần thiết và sử dụng nguyên tắc “sáng kiến hỗn hợp” cho phép người gọi nhập các loại thông tin khác nhau trong một lần phát âm và theo bất kỳ thứ tự hoặc sự kết hợp nào. Nói cách khác, GI phải được tạo đặc biệt cho các quy trình công nghệ cụ thể cần được tự động hóa.

Giao diện giọng nói không phù hợp với tất cả mọi người Quy trình công nghệ. Nói chung, các truy vấn và thao tác càng phức tạp thì chúng càng khó tự động hóa và khả năng GI sẽ không phù hợp để sử dụng cho công chúng càng lớn. Trong một số trường hợp, việc tự động hóa quy trình về cơ bản là không thể, vì vậy lối thoát duy nhất là sử dụng chuyên gia tư vấn con người. Ví dụ, sẽ rất khó để tự động hóa đường dây nóng hỗ trợ pháp lý. Mặt khác, GI lại hoàn hảo để xử lý các thao tác nhanh chóng và đơn điệu, chẳng hạn như thay đổi trạng thái của đơn hàng, điền vào cột “thời gian” hoặc “chi phí” hoặc chuyển tiền giữa các tài khoản.

YouTube bách khoa toàn thư

1 / 2

Yandex.SpeechKit - tổ hợp công nghệ giọng nói Yandex

phụ đề

Sử dụng thêm

TRONG thiết bị cầm tay các thiết bị, chẳng hạn như PDA hoặc điện thoại di động, sử dụng các nút nhỏ để nhập thông tin được tích hợp trong tiện ích hoặc một phần của giao diện màn hình cảm ứng, chẳng hạn như trên Apple iPod Touch hoặc iPhone. Việc nhấn liên tục các nút của các thiết bị như vậy rất tẻ nhạt và cũng có thể dẫn đến lỗi, do đó, giao diện giọng nói dễ sử dụng, chính xác và đáng tin cậy có thể là bước đột phá toàn cầu trong việc sử dụng các thiết bị cầm tay. Ngoài ra, GI có thể có hiệu quả trong việc sử dụng máy tính xách tay và máy tính để bàn bằng cách giải quyết các vấn đề liên quan đến việc sử dụng bàn phím và chuột, bao gồm các chấn thương liên quan đến căng thẳng như hội chứng ống cổ tay, cũng như loại bỏ các rào cản đối với hình thức tốc độ in thấp. quan trọng đối với người dùng mới làm quen. Hơn nữa, nếu bạn sử dụng bàn phím, điều này giả định rằng bạn thường xuyên ở phía trước màn hình, trong khi giao diện giọng nói cho phép bạn di chuyển tự do, vì Dữ liệu giọng nói thu được thông tin hoàn toàn không ngụ ý rằng bạn sẽ nhìn vào bàn phím.

Những cải tiến như vậy theo nghĩa đen sẽ thay đổi thiết kế của thiết bị cũng như thay đổi hoàn toàn sự tương tác với chúng. Màn hình thiêt bị di động sẽ trở nên lớn hơn vì bàn phím sẽ không còn cần thiết nữa. Trên các thiết bị cảm ứng sẽ không cần phải chia màn hình thành nội dung và bàn phím trên màn hình, có nghĩa là thông tin có thể được xem trong Toàn màn hình. Máy tính xách tay thực sự sẽ có kích thước giảm đi một nửa, vì không cần bàn phím, tất cả các bộ phận bên trong sẽ nằm gọn phía sau màn hình, do đó, máy tính xách tay sẽ đơn giản biến thành máy tính bảng. Máy tính desktop sẽ bao gồm một đơn vị hệ thống và một màn hình, đồng thời không gian trên màn hình được chiếm bởi một bàn phím đơn giản cũng như bàn phím có thể thu vào sẽ được giải phóng. Điều khiển từ xa của TV và bảng điều khiển trên hàng chục thiết bị - từ lò vi sóng đến máy photocopy - cũng sẽ trở nên không cần thiết.

Tuy nhiên, có rất nhiều vấn đề cần phải khắc phục để biến GI thành hiện thực. Đầu tiên, GI phải được thiết kế tốt đến mức có thể phân biệt giữa lệnh thoại và cuộc trò chuyện thông thường; nếu không, việc nhập dữ liệu không chính xác sẽ được ghi lại và thiết bị sẽ phản hồi không chính xác. Dòng tiêu chuẩn “Máy tính!” như các nhân vật trong bộ sử thi khoa học viễn tưởng nổi tiếng Star Trek đã nói, cô ấy có thể kích hoạt GI và chuẩn bị cho thiết bị nhận thông tin từ cùng một chiếc loa. Có lẽ, GI có thể có hình dáng giống con người: một giọng nói hoặc một nhân vật trên màn hình, chẳng hạn, có thể trả lời và duy trì một cuộc đối thoại để làm rõ yêu cầu của người dùng.

Thứ hai, GI có thể tương tác với phần mềm công nghệ cao để xử lý và tìm kiếm (nhận) thông tin một cách cẩn thận hoặc thực hiện hành động theo sở thích của người dùng. Ví dụ: nếu bạn cần thông tin từ một tờ báo nhất định và ở dạng danh sách, thì bạn có thể nói: “Máy tính, tìm thông tin về trận lũ lụt xảy ra ngày hôm qua ở miền nam Trung Quốc” và để đáp lại GI, có tính đến sở thích , sẽ “tìm” sự thật về “lũ lụt” ở “miền nam Trung Quốc” từ nguồn mong muốn, chuyển nó thành dạng danh sách và trình bày trên màn hình hoặc dưới dạng âm thanh, trích dẫn một câu trích dẫn. Do đó, sẽ cần một cơ chế nhận dạng giọng nói chính xác, với trí tuệ nhân tạo ở mức độ nào đó trong thiết bị GI.

Giới thiệu
Trong thế giới máy tính, công nghệ giọng nói có nghĩa là toàn bộ tập hợp phần mềm và phần cứng cho phép, trước hết, tổng hợp và nhận dạng giọng nói của con người, cũng như phát triển các công cụ cho phép tạo ra hệ thống xử lý giọng nói. Việc tạo ra và phát triển giao diện giọng nói hiện là một trong những nhiệm vụ khó khăn và gây tranh cãi nhất. Một mặt, chủ đề này hoàn toàn không mới, mặt khác, sự phát triển và ứng dụng tích cực của công nghệ này chỉ mới bắt đầu. Một mặt, những định kiến và định kiến ổn định đã có thời gian hình thành, mặt khác, dù đã nỗ lực bền bỉ gần nửa thế kỷ nhưng những vấn đề mà những người sáng lập đầu vào lời nói phải đối mặt vẫn chưa được giải quyết. Dù vậy, việc tìm kiếm một giao diện phù hợp với mọi người sẽ vẫn tiếp tục. Trên thực tế, đây chính xác là điều mà nhân loại luôn nỗ lực đạt được khi giao tiếp với máy tính.
Từ những năm 70, người ta đã rất quan tâm đến việc giải quyết vấn đề đối thoại lời nói của người dùng bằng công nghệ máy tính. Điều này được giải thích bởi một số tính năng của việc nhập và xuất thông tin bằng giọng nói trong máy tính:

tính tự nhiên nhất của giao tiếp và kết quả là mức độ tập trung vào công việc đang được thực hiện tăng lên

tăng tốc độ và độ tin cậy của thông tin đầu vào

giải phóng các kênh xúc giác và hình ảnh để thực hiện các hoạt động khác

khả năng làm việc trong phòng tối và với vị trí hoặc chuyển động tùy ý của người vận hành

cung cấp thông tin liên lạc với máy tính bằng các thiết bị (điện thoại)

Các nhà nghiên cứu đã đạt được rất ít tiến bộ trong những thập kỷ qua, điều này khiến một số chuyên gia cực kỳ nghi ngờ về khả năng triển khai giao diện giọng nói trong tương lai gần. Những người khác tin rằng vấn đề đã được giải quyết trên thực tế. Tuy nhiên, tất cả phụ thuộc vào những gì nên được coi là giải pháp cho vấn đề này.
Vì vậy, Bill Gates, người đại diện cho lý tưởng của chủ nghĩa thực dụng, hóa ra không thoát khỏi những khuôn mẫu đã được thiết lập trong lịch sử. Bắt đầu từ năm 95-96 với sự phát triển của chúng ta hệ thống phổ quát nhận dạng giọng nói, ông tuyên bố kỷ nguyên tiếp theo vào năm 1997 triển khai rộng rãi giao diện lời nói. Các phương tiện nhập liệu giọng nói đã được lên kế hoạch đưa vào giao hàng tiêu chuẩn một phiên bản mới của Windows NT - một hệ điều hành văn phòng thuần túy. Để đánh giá công việc họ đã làm, việc cài đặt một số loại “động cơ” âm thanh tương tác trực tiếp với Microsoft SAPI được tích hợp vào hệ thống của bạn là đủ.
Tất cả những ai có liên quan đến sự phát triển của công nghệ giọng nói đều phải đối mặt với những câu hỏi sau: câu hỏi đầu tiên - và có lẽ là câu hỏi chính - liên quan đến phạm vi ứng dụng. Việc tìm kiếm các ứng dụng trong đó nhận dạng giọng nói có thể thể hiện tất cả những ưu điểm của nó, trái ngược với niềm tin phổ biến, không phải là một nhiệm vụ tầm thường. Thực tiễn sử dụng máy tính hiện nay hoàn toàn không có lợi cho việc giới thiệu rộng rãi giao diện giọng nói. Để đưa ra các mệnh lệnh liên quan đến định vị trong không gian, con người đã luôn và sẽ tiếp tục sử dụng cử chỉ, đó là hệ thống “tay-mắt”. Giao diện đồ họa hiện đại được xây dựng trên nguyên tắc này. Viễn cảnh thay thế bàn phím và chuột bằng bộ phận nhận dạng giọng nói đã bị loại bỏ hoàn toàn. Đồng thời, lợi ích từ việc giao một phần chức năng điều khiển cho nó quá nhỏ đến mức nó không thể cung cấp đủ cơ sở ngay cả để triển khai thử nghiệm trên máy tính đại chúng trong hơn ba mươi năm. Đây là giai đoạn đánh giá sự tồn tại của các hệ thống nhận dạng giọng nói có thể áp dụng về mặt thương mại.
Để so sánh: lời nói tự phát được phát âm bằng tốc độ trung bình 2,5 từ mỗi giây, gõ chuyên nghiệp - 2 từ mỗi giây, không chuyên nghiệp - 0,4. Vì vậy, thoạt nhìn, đầu vào bằng giọng nói có lợi thế về hiệu suất đáng kể. Tuy nhiên, ước tính tốc độ đọc chính tả trung bình trong điều kiện thực tế giảm xuống còn 0,5-0,8 từ mỗi giây do nhu cầu phát âm rõ ràng các từ trong khi nhập giọng nói và tỷ lệ lỗi nhận dạng khá cao cần sửa.
Giao diện lời nói là tự nhiên đối với con người và mang lại sự thuận tiện hơn khi nhập văn bản. Tuy nhiên, ngay cả một diễn giả chuyên nghiệp cũng có thể không hài lòng với viễn cảnh phải đọc chính tả cho một chiếc máy tính “khó hiểu” trong vài giờ. Ngoài ra, kinh nghiệm hiện có trong việc vận hành các hệ thống như vậy cho thấy khả năng cao mắc bệnh ở dây thanh âm của người vận hành, điều này có liên quan đến sự đơn điệu không thể tránh khỏi của lời nói khi đọc chính tả cho máy tính.
Thông thường, ưu điểm của việc nhập văn bản lời nói bao gồm việc không cần đào tạo sơ bộ. Tuy nhiên, một trong những điểm yếu nhất hệ thống hiện đại nhận dạng giọng nói - độ nhạy với sự rõ ràng của cách phát âm - dẫn đến mất đi lợi thế tưởng chừng như hiển nhiên này. Một nhà điều hành học cách gõ trên bàn phím trung bình trong 1-2 tháng. Việc phát âm đúng có thể mất vài năm.
Có một hạn chế khó chịu khác về khả năng ứng dụng: người vận hành tương tác với máy tính thông qua giao diện giọng nói buộc phải làm việc trong phòng riêng biệt cách âm hoặc sử dụng mũ bảo hiểm cách âm. Nếu không, anh ta sẽ cản trở công việc của những người hàng xóm trong văn phòng của anh ta, những người này sẽ tạo ra thêm tiếng ồn xung quanh, sẽ làm phức tạp đáng kể công việc của bộ nhận dạng giọng nói. Như vậy, giao diện lời nói có mâu thuẫn rõ ràng với cơ cấu tổ chức hiện đại của các doanh nghiệp tập trung vào công việc tập thể. Tình hình có phần dịu đi hơn với sự phát triển của các hình thức làm việc từ xa, nhưng trong một thời gian khá dài, hình thức giao diện người dùng có năng suất tự nhiên và có khả năng phổ biến rộng rãi nhất dành cho con người lại phải chịu một phạm vi ứng dụng hẹp.
Những hạn chế trong khả năng ứng dụng của hệ thống nhận dạng giọng nói trong khuôn khổ các ứng dụng truyền thống phổ biến nhất dẫn đến kết luận rằng cần phải tìm kiếm các ứng dụng có tiềm năng hứa hẹn để triển khai giao diện giọng nói bên ngoài phạm vi văn phòng truyền thống, điều này đã được khẳng định bởi sự thành công về mặt thương mại. của các hệ thống tiếng nói có tính chuyên môn cao. Dự án thành công nhất cho đến nay về ứng dụng thương mại nhận dạng giọng nói là mạng điện thoại AT&T. Khách hàng có thể yêu cầu một trong năm loại dịch vụ, sử dụng bất kỳ từ nào. Anh ta nói cho đến khi một trong năm từ khóa xuất hiện trong lời nói của anh ta. Hệ thống này hiện xử lý khoảng một tỷ cuộc gọi mỗi năm.
Mặc dù thực tế rằng một trong những lĩnh vực hứa hẹn nhất để triển khai hệ thống nhận dạng giọng nói có thể là lĩnh vực trò chơi máy tính, các chương trình phục hồi chức năng chuyên môn cao dành cho người khuyết tật, hệ thống điện thoại và thông tin, các nhà phát triển hàng đầu về nhận dạng giọng nói đang tăng cường nỗ lực để đạt được sự phổ cập và tăng âm lượng của từ điển, thậm chí phải giảm cài đặt trước của loa thủ tục.
Tương lai của giao diện giọng nói phụ thuộc không ít vào khả năng của các nhà nghiên cứu và phát triển hiện đại không chỉ trong việc tạo ra cơ sở công nghệ cho đầu vào giọng nói mà còn kết hợp hài hòa các khám phá công nghệ thành một hệ thống tương tác giữa con người và máy tính hoàn chỉnh về mặt logic. Công việc chính vẫn còn ở phía trước.

Chương 1

1.1.Khái niệm chung về giao diện giọng nói

Hãy bắt đầu với thuật ngữ chính. Lời nói là gì? Nói về lời nói, chúng ta phải phân biệt các khái niệm như “lời nói”, “lời nói âm thanh”, “tín hiệu âm thanh”, “tin nhắn”, “văn bản”. Trong trường hợp của chúng tôi, khi áp dụng cho vấn đề nhận dạng, các khái niệm như “lời nói” và “lời nói âm thanh” có nghĩa giống nhau - một thông điệp âm thanh do con người tạo ra có thể được ghi lại, đo lường, lưu trữ, xử lý và quan trọng là được sao chép một cách khách quan. sử dụng các công cụ và thuật toán. Nghĩa là, lời nói có thể được biểu diễn dưới dạng một tín hiệu giọng nói nhất định, từ đó có thể sử dụng tín hiệu này để tái tạo lời nói ngược lại. Nghĩa là, chúng ta có thể đặt dấu tương đương giữa lời nói âm thanh và biểu diễn của nó dưới dạng tín hiệu giọng nói . Hơn nữa, theo khái niệm “thông điệp” Bất kỳ thông tin nào hữu ích cho người nhận, không chỉ văn bản, đều có thể bị ẩn. Ví dụ, nếu bạn không quan tâm đến từ ngữ mà quan tâm đến ngữ điệu, thì thông điệp sẽ là sắc thái nhịp điệu của lời nói. Đối với nhận dạng giọng nói, trong trường hợp của chúng tôi, nhiệm vụ là trích xuất văn bản từ giọng nói.
Nhưng ở đây chúng ta phải đối mặt với một mâu thuẫn. Văn bản, như bạn biết, bao gồm các chữ cái, từ, câu - nghĩa là nó rời rạc. Lời nói trong điều kiện bình thường nghe có vẻ mượt mà. Lời nói của con người, không giống như văn bản, hoàn toàn không bao gồm các chữ cái. Nếu chúng ta ghi lại âm thanh của từng chữ cái riêng lẻ vào băng hoặc trên đĩa máy tính, sau đó cố gắng soạn bài phát biểu từ những âm thanh này, chúng ta sẽ không thành công.
Mọi người đã nhận ra từ khá lâu rằng các âm cơ bản tạo nên lời nói không tương đương với các chữ cái. Vì vậy, họ đã đưa ra khái niệm âm vị để chỉ những âm thanh cơ bản của lời nói. Mặc dù các chuyên gia vẫn chưa thể quyết định có bao nhiêu âm vị khác nhau. Thậm chí còn có một nhánh ngôn ngữ học - ngữ âm. Hầu hết các tác giả thậm chí còn đưa ra số lượng âm vị khác nhau cho cùng một phương ngữ. Trong tiếng Nga, theo một số nguồn, có 43 âm vị, theo những nguồn khác - 64, theo những nguồn khác - hơn một trăm... Nhưng thực tế là có một huyền thoại về tính bất khả xâm phạm của khái niệm âm vị. . Và tín hiệu giọng nói bao gồm trực tiếp các phần tín hiệu, mỗi phần là một âm vị. Thật không may, mọi thứ không đơn giản như vậy.
Lúc đầu, các nhà khoa học coi tín hiệu giọng nói là một tập hợp các phổ quát nhất định nằm lần lượt trên trục thời gian và coi âm vị là những phổ quát này. Tuy nhiên, những nghiên cứu sâu hơn về tín hiệu lời nói không tiết lộ bất kỳ âm vị nào. Sau đó, một số nhà nghiên cứu đã quyết định đúng rằng khi tạo ra tín hiệu lời nói, sự kết hợp được quan sát, tức là sự thâm nhập lẫn nhau của các âm thanh lân cận (cơ mặt, lưỡi và hàm có quán tính khác nhau). Điều này có nghĩa là tín hiệu giọng nói không nên bao gồm các âm vị mà là các âm vị - sự kết hợp của các âm vị "gắn chặt với nhau".
Các nhà nghiên cứu khác, giống như các nhà vật lý, đã tấn công ý tưởng về bản chất cơ bản của âm vị và bắt đầu tranh luận rằng các âm vị nên được chia thành các phần ngắn hơn hoặc thậm chí từ bỏ khái niệm này hoàn toàn và “phân chia” tín hiệu lời nói theo một cách khác. Đây là cách mà các phonoit và rất nhiều tên gốc khác của các âm cơ bản ra đời.

Mọi người bắt đầu kiểm tra tín hiệu lời nói từ vị trí của mình và báo cáo những thành công rất mơ hồ. Điều thứ hai rất có thể được giải thích là do mong muốn bảo tồn bí quyết.

Khó khăn chính của phương pháp ngữ âm là tốc độ nói rất khác nhau, thường là nhiều lần. Trong trường hợp này, nhiều âm thanh lời nói khác nhau bị kéo dài hoặc nén không theo tỷ lệ. Ví dụ, nguyên âm thay đổi nhiều hơn so với bán nguyên âm và đặc biệt là phụ âm tắc. Cái gọi là âm thanh ma sát có mô hình riêng của chúng. (Bán nguyên âm là những âm thanh được tạo ra nhờ sự tham gia của dây thanh âm, cũng như đối với các nguyên âm, nhưng trong cuộc sống hàng ngày, bản thân chúng được coi là phụ âm. Ví dụ: “m”, “n”, “l” và “r” thường âm thanh như thế này. Âm dừng được hình thành bằng cách đóng và mở đột ngột các cơ quan phát âm. Ví dụ: “b”, “l”, “d”, “t”. Sự hình thành các âm thanh khe có liên quan đến tiếng rít và sự hỗn loạn khác tác dụng lên các cơ quan phát âm. Có thể gọi là “v”, “g”, “s” cũng như “sh” và các âm xuýt khác. Tính chất này được gọi là tính không cố định theo thời gian của các mẫu tín hiệu giọng nói. Phát âm cùng một từ hoặc cụm từ trong thời điểm khác nhau, dưới ảnh hưởng của các yếu tố khác nhau (tâm trạng, tình trạng sức khỏe, v.v.), chúng ta tạo ra sự phân bố năng lượng quang phổ-thời gian khác nhau đáng chú ý. Điều này đúng ngay cả với những từ được nói hai lần liên tiếp. Hiệu ứng này mạnh hơn nhiều khi so sánh các ảnh phổ của cùng một cụm từ được nói bởi những người khác nhau. Hiệu ứng này thường được gọi là mạng phổ không cố định của các mẫu tín hiệu giọng nói. Những thay đổi về tốc độ nói và độ rõ ràng của cách phát âm là nguyên nhân gây ra tình trạng không ổn định về kết cấu, có nghĩa là sự thay đổi trong ảnh hưởng lẫn nhau của các âm thanh lân cận từ mẫu này sang mẫu khác. Vấn đề phân cụm lời nói liên tục cũng cần được nêu bật. Rất khó để tách bất kỳ đơn vị giọng nói nào khỏi luồng giọng nói liên tục. Nhiều âm thanh “dính vào nhau” hoặc có ranh giới không rõ ràng.

Các ngành ngôn ngữ học và khoa học ngôn ngữ khác nhau rất được các nhà khoa học làm việc trong lĩnh vực nhận dạng giọng nói quan tâm. Có lẽ sự tổng hợp thành công những thành tựu của các ngành khoa học này và lý thuyết xử lý tín hiệu giọng nói sẽ dẫn đến việc tạo ra thành công các hệ thống nhận dạng.
Việc xây dựng giao diện giọng nói được chia thành ba thành phần. Nhiệm vụ đầu tiên là máy tính phải có khả năng “hiểu” được những gì một người đang nói với nó, tức là nó phải có khả năng trích xuất thông tin hữu ích từ bài phát biểu của một người. Cho đến nay, ở giai đoạn hiện tại, nhiệm vụ này tập trung vào việc trích xuất phần ngữ nghĩa của lời nói, văn bản (việc hiểu các thành phần như ngữ điệu, vẫn chưa được xem xét). Nghĩa là, nhiệm vụ này liên quan đến việc thay thế bàn phím bằng micrô.
Nhiệm vụ thứ hai là để máy tính hiểu được ý nghĩa của những gì được nói. Miễn là thông báo lời nói bao gồm một bộ lệnh tiêu chuẩn nhất định mà máy tính có thể hiểu được (chẳng hạn như sao chép các mục menu), thì không có gì phức tạp trong việc thực hiện nó. Tuy nhiên, cách làm này khó có thể thuận tiện hơn việc nhập các lệnh tương tự từ bàn phím hoặc sử dụng chuột. Lý tưởng nhất là máy tính phải “hiểu” rõ ràng lời nói tự nhiên của con người và hiểu được điều đó, chẳng hạn như từ “Đủ rồi!” và “Hoàn thành công việc của bạn!” có nghĩa là các khái niệm khác nhau trong một tình huống và điều tương tự trong một tình huống khác.
Nhiệm vụ thứ ba là cho phép máy tính chuyển đổi thông tin mà nó xử lý thành tin nhắn thoại mà con người có thể hiểu được. Vì vậy, trong ba vấn đề này, giải pháp khá rõ ràng và cuối cùng chỉ tồn tại cho vấn đề thứ ba. Về bản chất, tổng hợp giọng nói là một vấn đề toán học thuần túy, hiện nay đã được giải quyết ở mức độ đáng kể. trình độ tốt. Và trong tương lai gần, rất có thể, chỉ có việc triển khai kỹ thuật của nó sẽ được cải thiện.
Trở ngại cho giải pháp cuối cùng cho vấn đề đầu tiên là vẫn chưa có ai thực sự biết cách mổ xẻ lời nói của chúng ta để rút ra từ đó những thành phần chứa đựng ý nghĩa. Trong luồng âm thanh mà chúng ta tạo ra khi nói, không thể phân biệt được từng chữ cái hoặc âm tiết riêng lẻ. Tuy nhiên, bất chấp điều này, sau khi đào tạo sơ bộ, hệ thống nhận dạng giọng nói hiện đại hoạt động khá tốt và không mắc nhiều lỗi hơn hệ thống quang học để nhận dạng ký tự in cách đây mười năm.
Đối với nhiệm vụ thứ hai, theo hầu hết các chuyên gia, nó không thể giải quyết được nếu không có sự trợ giúp của hệ thống trí tuệ nhân tạo. Cái sau, như chúng ta biết, vẫn chưa được tạo ra, mặc dù người ta đặt nhiều hy vọng vào sự xuất hiện của cái gọi là AI lượng tử. Nếu như thiết bị tương tự sẽ xuất hiện, điều này có nghĩa là một cuộc cách mạng về chất trong công nghệ điện toán, và sau đó, ai biết được, có thể nhiều cách tiếp cận hiện tại đối với giao diện giọng nói sẽ hoàn toàn không cần thiết.
Vì vậy, hiện tại, số phận của giao diện giọng nói chỉ là sao chép các lệnh bằng giọng nói có thể nhập từ bàn phím hoặc sử dụng chuột. Nhưng ở đây lợi thế của nó rất đáng nghi ngờ. Tuy nhiên, có một lĩnh vực có thể rất hấp dẫn đối với nhiều người. Đây là cách nhập văn bản bằng giọng nói vào máy tính. Thật vậy, thay vì gõ vào bàn phím, sẽ thuận tiện hơn nhiều khi đọc chính tả mọi thứ cho máy tính để nó ghi những gì nó nghe được vào một tệp văn bản. Ở đây, máy tính không nhất thiết phải “hiểu” những gì nó nghe được và vấn đề chuyển lời nói thành văn bản ít nhiều đã được giải quyết. Không phải vô cớ mà hầu hết các chương trình “giao diện giọng nói” hiện đang phát hành đều tập trung đặc biệt vào việc nhập liệu giọng nói.

1.2. Nhập tin nhắn thoại

Theo truyền thống, quá trình nhận dạng giọng nói được chia thành nhiều giai đoạn. Ở giai đoạn đầu tiên, tín hiệu giọng nói liên tục được lấy mẫu và chuyển đổi thành dạng điện. Thông thường, tần số lấy mẫu là 10-11 kHz, độ sâu bit là 8 bit, được coi là tối ưu để làm việc với từ điển nhỏ (10-1000 từ) và tương ứng với chất lượng truyền giọng nói của kênh điện thoại (ZHz - 3,4 kHz ). rõ ràng là việc tăng dung lượng của từ điển đang hoạt động phải đi kèm với việc tăng tần suất số hóa và trong một số trường hợp - nâng cao độ sâu bit.
Ở giai đoạn thứ hai, tín hiệu giọng nói rời rạc được loại bỏ nhiễu và chuyển thành dạng nhỏ gọn hơn. Việc nén được thực hiện bằng cách tính toán cứ sau 10 ms một bộ tham số số nhất định (thường không quá 16) với mức độ mất thông tin tối thiểu mô tả một tín hiệu giọng nói nhất định. Thành phần của bộ phụ thuộc vào các tính năng của việc triển khai hệ thống. Kể từ những năm 70, phương pháp phổ biến nhất (gần như là tiêu chuẩn) để xây dựng mô tả tham số nén đã trở thành mã hóa dự đoán tuyến tính (LPC), dựa trên mô hình tuyến tính khá hoàn hảo của đường phát âm. Ở vị trí phổ biến thứ hai có lẽ là mô tả quang phổ thu được bằng cách sử dụng biến đổi Fourier rời rạc.
Tuy nhiên, kết quả rất tốt có thể đạt được bằng cách sử dụng các phương pháp khác, thường ít đòi hỏi tính toán hơn, chẳng hạn như cắt bớt. Trong trường hợp này, số lượng thay đổi về dấu của biên độ tín hiệu giọng nói và khoảng thời gian giữa chúng được ghi lại. Chuỗi giá trị kết quả, là ước tính khoảng thời gian của các khoảng thời gian khi dấu được bảo toàn theo biên độ, mặc dù tính nguyên thủy rõ ràng của phương pháp, thể hiện khá đầy đủ sự khác biệt giữa các âm thanh được phát âm. Đặc biệt, hệ thống nhận dạng giọng nói được phát triển vào cuối những năm 80 tại Viện Nghiên cứu Máy tính (Moscow) đều dựa trên phương pháp tiền xử lý này.
Khoảng thời gian (10 ms) tính toán đã được xác định và chứng minh bằng thực nghiệm vào buổi bình minh của sự phát triển công nghệ nhận dạng giọng nói tự động. Trong khoảng thời gian này, quá trình ngẫu nhiên rời rạc biểu thị tín hiệu giọng nói số hóa được coi là dừng, nghĩa là trong khoảng thời gian đó, các thông số của đường phát âm không thay đổi đáng kể.
Giai đoạn tiếp theo là sự công nhận. Các tiêu chuẩn phát âm được lưu trong bộ nhớ máy tính được so sánh lần lượt với phần hiện tại của chuỗi vectơ 10 mili giây mô tả tín hiệu giọng nói đầu vào. Tùy theo mức độ trùng hợp mà lựa chọn phương án tốt nhất và hình thành giả thuyết về nội dung của câu nói. Ở đây chúng ta phải đối mặt với một vấn đề rất quan trọng - cần phải bình thường hóa tín hiệu kịp thời. Tốc độ nói, thời lượng phát âm của từng từ và âm thanh riêng lẻ, ngay cả đối với một người nói, khác nhau trong giới hạn rất rộng. Do đó, có thể có sự khác biệt đáng kể giữa các phần riêng lẻ của tiêu chuẩn được lưu trữ và phần giống hệt nhau về mặt lý thuyết. tín hiệu đầu vào do sự không phù hợp về mặt thời gian của chúng. Giải quyết khá hiệu quả vấn đề này cho phép thuật toán lập trình động và các biến thể của nó được phát triển vào những năm 70 (thuật toán Viterbi). Một tính năng của các thuật toán như vậy là khả năng nén và kéo dãn tín hiệu một cách trực tiếp dọc theo trục thời gian trong quá trình so sánh với tiêu chuẩn. Kể từ đầu những năm 80, các mô hình Markov ngày càng được sử dụng nhiều hơn, cho phép, dựa trên cách tiếp cận xác suất đa cấp để mô tả tín hiệu, thực hiện chuẩn hóa theo thời gian và dự đoán sự tiếp tục, giúp tăng tốc quá trình liệt kê các tiêu chuẩn và tăng độ tin cậy của nhận dạng. .

Hoạt động của bất kỳ hệ thống nhập giọng nói nào đều dựa trên nguyên tắc nhận dạng mẫu. Hệ thống trích xuất từ tín hiệu giọng nói đến một tập hợp các tính năng nhất định tạo nên “mô tả” của nó, sau đó so sánh mô tả kết quả với mô tả tham chiếu được lưu trong bộ nhớ của hệ thống đầu vào, tức là. tính toán độ đo tương tự. Nếu giá trị của thước đo độ tương tự vượt quá một mức nhất định thì hệ thống sẽ “nhận dạng” tín hiệu và gán cho nó giá trị của tiêu chuẩn tương ứng. Ngoài việc nhận dạng các thành phần cơ bản của tín hiệu giọng nói, hệ thống còn phải diễn giải các thông điệp lời nói, tức là. tìm các chuỗi văn bản chính tả tương ứng, diễn giải và thực thi các lệnh, ghi nhớ và lưu trữ dữ liệu, v.v.
Yếu tố âm vị cơ bản của hầu hết các hệ thống nhận dạng và giải thích giọng nói là từ; các từ được nói có thể được kết hợp rõ ràng với cách thể hiện chính tả của chúng.
Về vấn đề này, tất cả các hệ thống đầu vào giọng nói thường được chia theo các tiêu chí sau:

khả năng nhận biết lời nói liên tục hoặc các từ được nói riêng biệt;

khối lượng từ điển các từ được công nhận (từ điển của các hệ thống hiện có chứa tới 500 từ);

nhắm mục tiêu vào một người nói hoặc một số lượng người nói tùy ý.

Hầu hết các hệ thống và thiết bị đầu vào giọng nói hiện đại đều được thiết kế cho các máy vi tính cá nhân và điều khiển; do đó, một trong những yêu cầu chính đối với các hệ thống đầu vào đó là chi phí thấp, điều này đạt được bằng cách hạn chế từ điển các từ được nói riêng lẻ và đơn giản hóa các thuật toán xử lý khi hệ thống hướng tới một người nói.
Sơ đồ khối tổng quát của hệ thống nhập giọng nói như vậy:

Tín hiệu giọng nói âm thanh được micrô (M) nhận và truyền dưới dạng tín hiệu điện tương tự đến bộ lọc tần số cao (HPF và ADC). Các mẫu kỹ thuật số từ đầu ra ADC được gửi đến bộ tiền xử lý (PP). Nhiệm vụ của PP là giảm âm lượng (và do đó giảm tốc độ) dữ liệu được truyền trong khi vẫn duy trì thông tin cần thiết cho nhận dạng giọng nói. Tùy thuộc vào bộ tính năng được chấp nhận tạo nên mô tả tín hiệu, PP có thể là máy phân tích phổ, máy dò tần số định dạng, máy phân tích LPC, v.v. Mô tả rút gọn của tín hiệu giọng nói thu được từ quá trình tiền xử lý được truyền đến bộ xử lý trích xuất tính năng (FEP) và sau đó đến hệ thống ra quyết định, bao gồm bộ phân loại (BC), bộ nhớ mô tả tham chiếu (RDM) và một đơn vị điều chỉnh (TU). Hệ thống ra quyết định hoạt động ở hai chế độ – đầu vào và học tập.
Ở chế độ đầu vào, mô tả tín hiệu giọng nói đầu vào được đưa đến BC, BC này sẽ tính toán mức độ tương tự của mô tả này với các tiêu chuẩn được lưu trong ROM. Nhờ tính toán các thước đo tương tự cho toàn bộ bộ tiêu chuẩn, có thể tìm ra thước đo tối đa và có thể đưa ra quyết định xem tín hiệu đầu vào có tương ứng với một trong các tiêu chuẩn hay không. Tín hiệu giọng nói đầu vào được gán một tên - mã định danh của tiêu chuẩn này. Sau đó, mã định danh được tìm thấy sẽ được chuyển tới chương trình ứng dụng hoặc tới máy tính trung tâm thông qua bộ giao diện US.
Trong chế độ học, các mô tả về tín hiệu giọng nói đầu vào được đưa đến bộ điều chỉnh. Trong cùng một khối, tên thường được nhập bằng bàn phím K - mã nhận dạng của tín hiệu giọng nói. BN tìm thấy mô tả “trung bình” cho các từ hoặc cụm từ được một người nói lặp lại nhiều lần, sau đó gán mô tả “trung bình” này cho một mã định danh, tức là. tạo thành một tiêu chuẩn.
Tất cả các hệ thống đầu vào tín hiệu giọng nói, cũng như các hệ thống nhận dạng hình ảnh nói chung, thường được đặc trưng bởi xác suất nhận dạng chính xác, xác suất (tần số) lỗi nhận dạng và xác suất (tần số) lỗi trong quá trình nhận dạng. Giá trị số của các đặc điểm này phụ thuộc vào kích thước của từ điển và thuật toán nhận dạng được sử dụng. Đối với những từ điển có khối lượng từ 200-300 từ và cụm từ, xác suất nhận dạng đúng là 95-98%.
Hệ thống nhập giọng nói thường cung cấp phản hồi trực quan để cải thiện sự tự tin. Trong bộ lễ phục. 3 kết nối này được hiển thị dưới dạng chỉ báo AND, trên màn hình hiển thị biểu tượng tượng trưng của từ được nói; Việc nhập trực tiếp biểu diễn này vào máy tính chỉ được thực hiện sau khi xác nhận tính chính xác của nhận dạng bằng cách nhấn phím. Nếu nhận dạng không chính xác, lệnh hủy bằng lời nói có thể được đưa ra và mục nhập từ được lặp lại. Mặc dù phản hồi trực quan như vậy làm mất đi nhiều lợi ích của hệ thống nhập giọng nói nhưng độ trung thực cao của đầu vào chứng minh việc sử dụng nó trong nhiều lĩnh vực, đặc biệt là chuẩn bị dữ liệu. Hệ thống được đề cập cung cấp tốc độ đầu vào cao hơn so với tốc độ đầu vào bàn phím.

1.3. Sự đa dạng của loài

Các hệ thống nhận dạng giọng nói hiện tại có thể được phân loại theo các tiêu chí khác nhau.
Theo mục đích:

hệ thống lệnh

hệ thống chính tả văn bản.

Theo phẩm chất người tiêu dùng:

định hướng người nói (được đào tạo cho một người nói cụ thể)

diễn giả độc lập (tôi mạo hiểm đề xuất thuật ngữ “omnivoice”)

nhận biết từng từ

nhận biết lời nói liên tục

Theo cơ chế hoạt động:

máy dò (tương quan) đơn giản nhất

hệ thống chuyên gia với theo những cách khác nhau hình thành và xử lý cơ sở tri thức

các mô hình mạng xác suất của việc ra quyết định, bao gồm cả mạng lưới thần kinh.

Khá khó để chọn một chỉ số thuận tiện về chất lượng hoạt động của hệ thống nhận dạng giọng nói. Chỉ báo chất lượng này được giới thiệu đơn giản nhất cho các hệ thống lệnh. Khi kiểm tra, tất cả các lệnh có thể được nói theo thứ tự ngẫu nhiên với số lần đủ lớn. Số lượng lệnh được nhận dạng chính xác được tính và chia cho tổng số lệnh được nói. Kết quả là ước tính xác suất nhận dạng chính xác lệnh trong môi trường âm thanh được chỉ định trong quá trình thử nghiệm. Đối với các hệ thống đọc chính tả, có thể tính toán chỉ số chất lượng tương tự khi đọc chính tả một số văn bản kiểm tra. Rõ ràng, đây không phải lúc nào cũng là một chỉ số thuận tiện về chất lượng. Trong thực tế, chúng ta gặp phải rất nhiều môi trường âm thanh khác nhau. Nhưng còn việc thay đổi diễn giả và đào tạo hệ thống đi kèm thì sao?
Để làm ví dụ, hãy để tôi xem xét một phiên bản của hệ thống nhận dạng giọng nói lệnh đơn giản nhất. Hoạt động của hệ thống dựa trên giả thuyết rằng các đặc điểm quang phổ-thời gian của lệnh từ đối với từng người nói thay đổi một chút. Mô hình âm thanh của hệ thống như vậy là một bộ chuyển đổi tín hiệu giọng nói thành ma trận quang phổ-thời gian và có thể dùng làm ví dụ điển hình về cách tiếp cận sáng tạo. Trong trường hợp đơn giản nhất, lệnh được định vị theo thời gian bằng các khoảng dừng trong tín hiệu giọng nói. Đơn vị ngôn ngữ có thể phát hiện một số lệnh giới hạn cộng thêm một lệnh nữa, có nghĩa là tất cả các từ khác mà hệ thống chưa biết. Theo quy định, một mô hình ngôn ngữ được xây dựng như một thuật toán để tìm kiếm chức năng tối đa từ mẫu đầu vào và các mẫu của toàn bộ “từ vựng” của hệ thống. Thông thường đây là một bộ tương quan hai chiều thông thường. Mặc dù việc lựa chọn thứ nguyên của không gian mô tả và số liệu của nó có thể khác nhau tùy theo nhà phát triển.
Dựa trên “thiết kế” của hệ thống được mô tả, rõ ràng nó giống một món đồ chơi hơn là một công cụ hữu ích. Hiện nay, trên thị trường có rất nhiều hệ thống nhận dạng giọng nói thương mại với khả năng vượt trội hơn nhiều:

Đọc chính tả bằng giọng nói, Voice Pilot, ViaVoice từ IBM

Sáng tạo hỗ trợ giọng nói của Techonology

Nghe cho cửa sổ từ Verbex và nhiều người khác.

Một số trong số chúng (ví dụ: ViaVoice), như các nhà phát triển tuyên bố, có khả năng giới thiệu lời nói liên tục.
Các khối ngôn ngữ của các hệ thống hiện đại thực hiện một mô hình ngôn ngữ tự nhiên phức tạp. Đôi khi nó dựa trên bộ máy toán học của chuỗi Markov ẩn, đôi khi nó sử dụng những thành tựu mới nhất của công nghệ mạng lưới thần kinh hoặc các bí quyết khác. Thiết kế các bộ phận âm thanh của các hệ thống như vậy được giữ bí mật tuyệt đối. Dựa trên một số dấu hiệu, người ta có thể đoán rằng bộ phận âm thanh của một số hệ thống đang cố gắng mô phỏng một máy trợ thính tự nhiên.

1.3. Phần mềm tổng hợp giọng nói

Bản thân nhận dạng giọng nói không có gì mới. Hệ thống đọc chính tả cho các ngành nghề cụ thể như X quang đã được biết đến từ lâu. Nhưng bản thân chúng rất đắt tiền và đòi hỏi những chiếc máy tính đắt tiền. Các chương trình ít tốn kém hơn, được sử dụng rộng rãi hơn yêu cầu một cách nói cụ thể với các khoảng dừng sau mỗi từ.
Dragon Systems, với việc phát hành NataturalSpeaking, đã đặt nền tảng cho lịch sử phát triển của hệ thống nhận dạng giọng nói - đây là chương trình đầu tiên cho phép bạn đọc chính tả văn bản một cách tự nhiên. IBM đã sớm cung cấp ViaVoice, chương trình tương tự, có giá thấp hơn hàng trăm đô la so với đối thủ cạnh tranh.
Yếu tố chính thúc đẩy sự phát triển của các chương trình nhận dạng giọng nói là sự cải tiến của máy tính.
Các chương trình nhận dạng giọng nói yêu cầu một card âm thanh khá mạnh vì chúng thực hiện công việc nặng nhọc. Đầu tiên, những lời bạn nói sẽ được micro ghi lại và xử lý bằng card âm thanh.
vân vân.................

Giao diện giọng nói (SI) nói chung là cần thiết để giúp cuộc sống của người dùng dễ dàng hơn. Cụ thể hơn, để cải thiện sự thuận tiện và tăng mức độ trí tuệ hóa đối thoại giữa con người và máy móc. Tất cả đều là những số lượng có thể đếm được. Các nhà phát triển từ lâu đã phải vật lộn với các tham số như thời gian đào tạo người dùng, thời gian đưa ra lệnh, số lần chuyển động để ra lệnh và thời gian tìm kiếm phần tử điều khiển cần thiết. Trong tất cả các khía cạnh này, việc đưa kênh thoại vào hệ thống con giao diện sẽ dẫn đến những cải tiến đáng kể. Có một số ứng dụng mà kiểm soát giọng nói thực sự là cứu cánh. Đây là những tình huống khi tay và tầm nhìn của người dùng bận rộn với các nhiệm vụ quan trọng “không có giao diện” (lái xe, kiểm tra trực quan, thao tác tinh tế, xem phim). Nếu bạn cần giúp đỡ vào lúc này hệ thống máy tính thông tin hay một trợ lý robot, việc đối thoại bằng lời nói là không thể thiếu. Những cân nhắc đơn giản này cung cấp cho chúng ta các lĩnh vực ứng dụng chính của giao diện giọng nói:

Hệ thống phức hợp hộ gia đình ( Thiết bị gia dụng, robot dịch vụ và " ngôi nhà thông minh"). Ở đây tốc độ học tập của người dùng, tính di động và đơn giản hóa giao diện được đặt lên hàng đầu.
Hệ thống hỗ trợ hoạt động của những người làm việc bên ngoài bàn làm việc văn phòng. Đó là những người lái xe, nhân viên cứu hộ, thợ sửa chữa, quân nhân, nhân viên hậu cần, thợ lắp ráp - bạn không thể đếm hết được. Kênh lời nóiở đây nó được yêu cầu như một cơ hội để giải phóng đôi tay và đôi mắt của bạn. Tính nhỏ gọn của giải pháp cũng rất quan trọng.

Từ sự hiểu biết về các lĩnh vực ứng dụng, một bộ yêu cầu đối với RI như sau:

Độ chính xác (số lỗi trên một trăm từ, WER). Hơn nữa, đối với các ứng dụng công nghiệp và dân dụng, WER phải được tính toán ở các mức nhiễu xung quanh khác nhau (tỷ lệ tín hiệu trên nhiễu SNR).
Số lượng lệnh riêng biệt tại một thời điểm. Làm sao đối tượng phức tạp hơn kiểm soát và chúng tôi muốn dạy người dùng càng ít thời gian thì tham số này càng lớn.
Chủ nghĩa nhân loại. Đây là một chỉ báo không thể thiếu chịu trách nhiệm về mức độ tương tự của giao diện với giao tiếp của con người. Một chủ đề rất rộng, nhưng rõ ràng là chỉ số này càng cao thì giao diện này càng dễ tìm hiểu. Không nên nhầm lẫn nó với tính trực giác, vốn chỉ đặc trưng cho sự quen thuộc và tương đồng với các hệ thống giao diện mà người dùng đã biết.

Công ty Dịch vụ thông tin Titan CJSC / Speereo Software được thành lập vào năm 1998. Năm 2001, các chuyên gia của công ty đã cố gắng tạo ra một hệ thống nhận dạng giọng nói tiếng Anh liên tục và vào năm 2011 - giọng nói tiếng Nga liên tục. Từ năm 2002, công ty đã phát triển và bán các sản phẩm, giải pháp dựa trên SSR (Nhận dạng giọng nói Speereo).

Công ty là nhà cung cấp chính thức của Intel, nhận được sự tài trợ chung từ Microsoft và Skolkovo, là công ty chiến thắng trong cuộc thi dành cho các dự án đổi mới của Bộ Quốc phòng Nga và là công ty giành được một số Giải thưởng Phần mềm Tốt nhất của Năm. Từ năm 2011 - cư dân Skolkovo.

Giải pháp Speereo làm gì?

Chúng tôi đã phát triển RI cho phép bạn nhận dạng lệnh thoại và tổng hợp tin nhắn thoại. Hệ thống bao gồm một phần phần mềm (Nhận dạng giọng nói tự động, ASR và chuyển văn bản thành giọng nói, TTS) và phần cứng - nhiều loại khác nhau Mặt trước âm thanh, AFE. Đối với các nhà phát triển đây là khối làm sẵn, có thể được tích hợp vào hệ thống ở giai đoạn thiết kế hoặc ở giai đoạn nâng cấp hệ thống. ASR và TTS tồn tại dưới dạng giải pháp đám mây và mã cho máy khách tối thiểu. Yêu cầu tối thiểu là 200 MIPS và 5 MB. AFE tồn tại ngày nay dưới dạng một sản phẩm nối tiếp - điều khiển từ xa giọng nói phổ thông Speaky, cũng như ở dạng nguyên mẫu thử nghiệm và sản phẩm nối tiếp của các đối tác - tai nghe ô tô, tai nghe OutDoor, tai nghe gia dụng và chơi game. AFE có thể là một người xa lạ, miễn là nó cung cấp chất lượng chấp nhận được tín hiệu. Khoảng cách thực tế từ micrô đến loa, tại đó hoạt động binh thương không tốn chi phí thiết bị đặc biệt là 10–50 cm, cần sử dụng AFE để đánh dấu phần đầu (bắt buộc) và phần cuối (mong muốn) của cụm từ lệnh. Đối với điều này, các nút phần cứng, máy ảnh, thanh quản, v.v. được sử dụng. phiên bản di độngđiều này cho phép bạn tiết kiệm pin.

Làm thế nào nó hoạt động?

Tại Yêu cầu tối thiểu theo tải hệ thống máy tính RI Speereo hoạt động với độ trễ không quá 1,5 giây từ cuối cụm từ đến đầu ra kết quả. Đồng thời, chúng tôi đã đạt được rất cấp độ cao theo các yêu cầu chính (Bảng 1). Để so sánh, chúng tôi trình bày một bảng hiếm (Bảng 2).

Như bạn có thể thấy, thậm chí không đáng để so sánh hệ thống Speereo RI và hệ thống đọc chính tả, vốn đã trở nên phổ biến. Sự khác biệt là một hoặc hai bậc độ lớn.

Bộ trưởng Quốc phòng Nga Sergei Shoigu đến thăm gian hàng Skolkovo tại Tuần lễ Đổi mới của Bộ Quốc phòngở Alabino vào tháng 8 năm 2014
Ảnh của dịch vụ báo chí Skolkovo

Số lượng lệnh có thể phân biệt đồng thời trong hệ thống của chúng tôi dao động từ vài trăm đến 10.000. Việc quản lý từ điển tức thời được giao cho nhà phát triển. Vốn từ vựng chung của hệ thống không bị giới hạn. Mảng từ điển tức thời được đưa vào hệ thống một cách linh hoạt dưới dạng văn bản. Điều này cho phép bạn xây dựng các hệ thống hộp thoại theo ngữ cảnh.

Hệ thống đọc chính tả có vốn từ vựng tức thời được giới hạn ở vài trăm nghìn (tối đa 2 triệu) từ. Nó cũng là một từ điển chung. Chỉ người phát triển hệ thống mới có thể thêm từ mới.

Tuy nhiên, giới hạn 10.000 cụm từ của từ điển tức thì trong hệ thống của chúng tôi cho phép chúng tôi xây dựng giao diện cho bất kỳ đối tượng điều khiển nào có thể hình dung được. Hơn nữa, 10.000 cụm từ hoàn toàn phù hợp với tất cả các lựa chọn hợp lý để phát âm các cụm từ mệnh lệnh tại một thời điểm cụ thể trong cuộc đối thoại. Để tạo điều kiện thuận lợi cho việc xây dựng biểu đồ trạng thái và các lệnh chuyển tiếp, bạn có thể sử dụng các ngữ pháp phổ biến. Vì vậy, chúng tôi có được một hệ thống hoàn toàn không yêu cầu đào tạo người dùng. Cách tiếp cận này khác với ảo tưởng nghiệp dư: “Tôi sẽ sử dụng hệ thống đọc chính tả và sau đó phân tích văn bản”. Tỷ lệ lỗi của hệ thống đọc chính tả và sự phức tạp của hệ thống “hiểu” văn bản luôn đặt dấu chấm hết cho những kế hoạch như vậy. Tình hình chỉ được cải thiện một chút nhờ một hệ thống sử dụng nhiều lao động để ghi lại số liệu thống kê hành vi của người dùng và xử lý ngữ nghĩa, đặc biệt là hệ thống này đã giúp xây dựng Google Voice Search và Apple SIRI, nhưng đã thất bại trong Google Glass, Apple TV và các dự án khác. Những tiện ích bổ sung như vậy không được cung cấp cho các nhà phát triển bên ngoài và việc tạo ra chúng tiêu tốn hàng chục triệu đô la. Đây là lý do tại sao có rất ít việc triển khai hệ thống đọc chính tả ngoài phạm vi được chỉ định. hốc hẹp. Một số nhà phát triển đã mất niềm tin vào khả năng ra lệnh đã tìm đến chúng tôi với tư cách là nhà cung cấp thay thế và kể những câu chuyện tương tự về sự thất bại của dự án.

Nếu chúng ta cũng tính đến việc hệ thống của chúng ta không phụ thuộc vào người nói, có khả năng chống lại giọng điệu, cách thức và tốc độ nói cũng như không yêu cầu tạm dừng giữa các từ, thì chúng ta có thể nói rằng về mặt nhân hóa, nó ở mức độ hiện đại cao nhất.

Một chút về kế hoạch

Chúng tôi sẽ tiếp tục giới thiệu hệ thống của mình vào lĩnh vực điện tử ô tô, tiêu dùng, chuyên dụng và công nghiệp. Hãy tiếp tục nghiên cứu cách tách tín hiệu giọng nói khỏi luồng nhiễu và xác định phần đầu và phần cuối của lệnh. Chúng tôi cũng đang phát triển công việc nhằm tăng phạm vi từ loa đến micrô lên vài mét, điều này sẽ giúp xây dựng các vùng giao diện trong phòng mà không cần bất kỳ thiết bị đeo nào. Chúng tôi sẽ tích lũy và cung cấp cho người tiêu dùng theo chủ đề mạng ngữ nghĩa, điều này sẽ tạo điều kiện thuận lợi cho việc xây dựng các giao diện “miễn phí” cho toàn bộ các loại thiết bị. Chúng tôi sẽ tiếp tục nỗ lực tăng kích thước của từ điển tức thì. Tất cả những điều này cùng nhau đưa chúng ta đến gần hơn với việc tạo ra một giao diện giọng nói gần với lý tưởng.

Bản ghi âm được ghi bằng máy ghi âm kỹ thuật số "Gnome R" và "Gnome 2M" đáp ứng các yêu cầu đối với bản ghi âm được gửi để kiểm tra âm thanh và phù hợp để nhận dạng các cá nhân bằng giọng nói và lời nói...

Phó trưởng phòng thứ nhất

Máy ghi âm Gnome 2M đã được sử dụng nhiều lần để ghi lại các hội nghị, hội thảo trong môi trường âm thanh khó khăn; các bản nhạc được ghi có chất lượng cao. Chức năng giảm tiếng ồn tích hợp cho phép bạn cải thiện chất lượng phát lại các bản nhạc...

Kỹ sư hàng đầu của IPK BNTU

Viện Nghiên cứu nâng cao và đào tạo lại nhân sự BNTU

Trong suốt thời gian sử dụng, "Gnome R" đã chứng tỏ được mình với mặt tích cực. Chất lượng cao ghi âm với kích thước tối thiểu, thời gian ghi âm dài, truyền nhanh thông tin tích lũy từ bộ nhớ tích hợp của máy ghi sang PC...

Cán bộ cao cấp của phòng thứ 3 của ban giám đốc thứ bảy

Bộ Tổng tham mưu Lực lượng Vũ trang Cộng hòa Belarus

Bản ghi âm được ghi bằng hệ thống Quên Tôi-Không II đáp ứng các yêu cầu đối với hệ thống kỹ thuật số đa kênh để ghi tin nhắn thoại qua các kênh liên lạc điện thoại và phù hợp để nhận dạng một người bằng giọng nói và lời nói...

Người đứng đầu trung tâm

Trung tâm Giám định Pháp y Tiểu bang

Số lượng thuê bao được thông báo không giới hạn, số lượng lớn các nhiệm vụ được xử lý đồng thời sẽ khiến "Rupor" trở thành trợ thủ đắc lực không thể thiếu trong công việc của nhân viên phòng tín dụng chi nhánh 524 OJSC "JSSB Belarusbank...

Phó Giám đốc – Giám đốc Trung tâm Kinh doanh Bán lẻ

Chi nhánh 524 của Công ty CP “ASB Belarusbank”

Hệ thống cảnh báo tự động "Rupor" hoạt động trên cơ sở tương tự Đường dây điện thoại và đã được kiểm tra để thông báo cho nhân viên. Hệ thống phục vụ 100 thuê bao, hoạt động ổn định và không cần bảo trì liên tục...

Quyền ủy viên quân sự

Ủy ban Quân sự Minsk

Hệ thống ghi âm Quên-Me-Not II đảm bảo tiếp nhận tin nhắn thoại từ cư dân, ghi âm chất lượng cao chúng vào máy tính, khả năng nghe các tin nhắn đã ghi và nhập thông tin vào cơ sở dữ liệu văn bản. Hệ thống thông báo “Rupor” tự động thông báo cho người mắc nợ…

Trưởng phòng ACS

Doanh nghiệp đơn nhất "Quận ZhREO Sovetsky của Minsk"

Hệ thống Roupor cung cấp thông báo số lượng lớn người đăng ký trong thời gian ngắn theo các thông số đã thiết lập với việc cung cấp báo cáo về thông báo được thực hiện, hoạt động đáng tin cậy, tuân thủ đầy đủ các yêu cầu đối với nó...

Giám đốc Phòng Kinh doanh Bán lẻ

TRONG hệ thống di động ghi âm và ghi lại lời nói “Giao thức” bao gồm máy ghi âm kỹ thuật số"Gnome 2M" và máy ghi âm máy tính "Caesar". Máy ghi âm Gnome 2M cho phép bạn thu được các bản ghi âm chất lượng cao của các cuộc họp và phiên họp, đồng thời bộ chuyển mã Caesar tăng đáng kể tốc độ của công việc dịch thuật thông tin âm thanh vào một tài liệu văn bản...

Chuyên gia hàng đầu

Viện Nhà nước và Pháp luật của Viện Hàn lâm Khoa học Cộng hòa Belarus

Giao diện người dùng bằng giọng nói: Khoa học viễn tưởng hay hiện thực?

Trong khu vực công nghệ thông tin Phương tiện tương tác của người dùng với hệ thống kỹ thuật thường được gọi là giao diện. Giao diện khác nhau và được thực hiện bằng nhiều cách khác nhau và các phương pháp. Ví dụ, mọi người đều biết giao diện đồ họa, dựa trên việc sử dụng đồ họa máy tính để hiển thị thông tin người dùng cần dưới dạng trực quan. Cần lưu ý rằng một trong những nhiệm vụ quan trọng nhất trong việc phát triển các hệ thống kỹ thuật hiện đại là cung cấp giao diện thân thiện với người dùng. Nói cách khác, hiện đại ứng dụng máy tính ngày càng lấy người dùng làm trung tâm.

Rõ ràng là một trong những hình thức tương tác tự nhiên nhất của con người là lời nói. Người ta tin rằng giao diện giọng nói có thể cải thiện giao diện người dùng hiện tại vì nó được cho là mang lại cách thức thuận tiện hơn và ít hạn chế hơn để một người tương tác với máy tính. Giao diện người dùng bằng giọng nói có lẽ là yếu tố thành công quan trọng của bất kỳ hệ thống nhận dạng giọng nói tự động nào và sẽ quyết định phần lớn trải nghiệm của người dùng khi sử dụng hệ thống.

Giao diện người dùng bằng giọng nói cho phép một người tương tác với máy tính để bắt đầu một quy trình hoặc dịch vụ tự động. Các thành phần của giao diện người dùng bằng giọng nói là lời nhắc hệ thống, ngữ pháp và thuật toán đối thoại. Gợi ý hoặc thông báo hệ thống là những nhận xét được ghi lại hoặc tổng hợp trước đó mà người dùng nghe được trong một cuộc đối thoại. Ngữ pháp chứa một tập hợp các truy vấn và phản hồi có thể có của người dùng. Hệ thống chỉ có thể nhận dạng những từ, câu hoặc cụm từ có trong ngữ pháp. Thuật toán đối thoại đề cập đến chuỗi hành động mà hệ thống thực hiện.

Mặc dù có mức độ liên quan lớn nhưng hiện tại không phải tất cả các nhiệm vụ phát triển giao diện giọng nói đều có thể được giải quyết. Vấn đề phát triển giao diện giọng nói khá phức tạp và phức tạp, đòi hỏi người phát triển phải có kiến thức về nhiều lĩnh vực khác nhau. Các môn học. Tạo giao diện người dùng giọng nói chất lượng cao đòi hỏi kiến thức trong lĩnh vực này khoa học máy tính, ngôn ngữ học và tâm lý học hành vi của con người. Ngay cả với các công cụ thiết kế tiên tiến, việc thiết kế giao diện người dùng bằng giọng nói hiệu quả đòi hỏi người tạo ra nó phải có hiểu biết chi tiết về cả nhiệm vụ mà hệ thống thực hiện lẫn tâm lý của người dùng hệ thống.

Khi thiết kế giao diện người dùng bằng giọng nói, điều quan trọng là phải xác định mục đích của hệ thống (ví dụ: đặt hàng cuộc trò chuyện qua điện thoại, mua vé máy bay hoặc điều chỉnh lịch làm việc) và tìm ra giao diện phù hợp nhất. phương pháp hiệu quả thành tựu của cô ấy. Để làm điều này, bạn cần trả lời các câu hỏi sau:

Một người thường thực hiện nhiệm vụ này như thế nào?
Có thể hoàn thành một nhiệm vụ với số bước ít nhất không?
Hầu hết mọi người nhìn nhận nhiệm vụ này như thế nào, tức là. “mô hình tinh thần” của họ về nhiệm vụ này?

Giao diện người dùng đồ họa sử dụng khả năng hiển thị thông tin trên màn hình máy tính. Thanh công cụ được gắn vào vị trí cố định: nó vẫn ở trên màn hình và các biểu tượng trên đó không thay đổi. Tính nhất quán của thanh công cụ giúp người dùng giảm nhu cầu ghi nhớ một loạt hành động và lệnh. Lời nói là một dòng âm thanh. Vì vậy, một người cần dựa vào trí nhớ của mình để nhớ lại những gì đã xảy ra cách đây vài giây hoặc vài phút. Điều này có nghĩa là các nhà phát triển giao diện người dùng bằng giọng nói cần kiểm soát tải mà họ đặt lên bộ nhớ của người dùng. Đảm bảo mức độ “tải nhận thức” có thể chấp nhận được là một trong những những điểm chính trong việc tạo ra một giao diện người dùng bằng giọng nói dễ sử dụng.

Như đã đề cập ở trên, dự đoán phản hồi của người dùng là công việc của một ngữ pháp được thiết kế hiệu quả. Ngữ pháp xác định những gì hệ thống có thể “hiểu” và nó sẽ phản hồi như thế nào. Một hệ thống có ngữ pháp bao gồm nhiều bộ giới hạn từ, chỉ nhận dạng các câu trả lời “có”, “không”, trong khi ngữ pháp mở rộng cho phép hệ thống nhận dạng chính xác các câu trả lời như “vâng, vui lòng”, “umm... vâng”, “à vâng”. Một số ngữ pháp cho phép bạn nhận ra các câu trả lời như “Tôi không biết”, sau đó hệ thống sẽ đưa ra một số câu trả lời khả thi để giúp người dùng quyết định.

Thật không may, đôi khi có sai sót và hiểu lầm xảy ra trong quá trình giao tiếp của người dùng với hệ thống. Bằng cách dự đoán khả năng xảy ra các lỗi phổ biến nhất, đưa ra câu hỏi rõ ràng cho người dùng và phản hồi phù hợp với câu trả lời của họ, giao diện giọng nói có thể điều chỉnh cuộc đối thoại theo đúng hướng và nhanh chóng sửa lỗi nếu chúng xảy ra. Ví dụ: nếu người dùng im lặng, rõ ràng là không biết phải nói gì, hệ thống có thể hỏi anh ta một câu hỏi chi tiết:

Nếu câu trả lời của người dùng không khớp với câu trả lời có trong ngữ pháp, có thể dẫn đến lỗi nhận dạng, do đó hệ thống phải làm rõ cách trả lời:

Nếu hệ thống vẫn không thể khắc phục được lỗi, nó sẽ nhắc người dùng chuyển cuộc gọi đến nhà điều hành.

Nếu chúng ta nói về điều hướng qua hệ thống, cần lưu ý rằng khi làm việc với ứng dụng, người dùng phải luôn có thể quay lại một bước trong đoạn hội thoại, nghe lại tin nhắn cuối cùng hệ thống hoặc bỏ qua bất kỳ cấp độ hội thoại nào và chuyển thẳng sang cấp độ tiếp theo. Các tùy chọn lệnh của người dùng để điều hướng hệ thống nên được đưa vào ngữ pháp. Ngữ pháp cũng phải chứa tất cả các từ đồng nghĩa lệnh có thể có. Ví dụ: đối với lệnh " Lặp lại"bạn cần tính đến một số từ đồng nghĩa, bắt đầu từ " Làm ơn nói lại lần nữa" trước " Cái gì?».

Sự hiện diện của các siêu liên kết cho phép người dùng kiểm soát hơn nữa luồng đối thoại thông thường. Bằng cách đi theo siêu liên kết, người dùng có thể bỏ qua một số cấp độ của đoạn hội thoại và ngay lập tức đến vị trí mong muốn trong đoạn hội thoại. Các ví dụ phổ biến bao gồm siêu liên kết đến menu chính, tạm dừng ứng dụng, kết nối với đại diện bộ phận hỗ trợ và kết thúc cuộc gọi.

Bạn cũng nên cân nhắc cẩn thận những lệnh nào người dùng phải thừa nhận và khi nào. Việc xác nhận lựa chọn của nhóm đặc biệt cần thiết trong trường hợp chi phí sai sót khá cao. Như trong trường hợp lệnh “Hủy”, khi người dùng có thể vô tình kết thúc cuộc đối thoại với hệ thống và làm gián đoạn, chẳng hạn như quá trình đặt vé.

Khả năng tạm dừng ứng dụng rất hữu ích cho những người dùng cần thêm thời gian, chẳng hạn như tìm số tài khoản hoặc lấy bút và tập giấy, hoặc những người cần bị phân tâm khi làm việc với ứng dụng, chẳng hạn như lái xe. Trong những trường hợp như vậy, cuộc đối thoại sẽ bị tạm dừng cho đến khi hệ thống nhận được lệnh thích hợp của người dùng, ví dụ: “ Tiếp tục».

Điều quan trọng là phải đặc biệt chú ý đến chất lượng thoại và ghi âm tin nhắn hệ thống. Một ngữ pháp được thiết kế phù hợp, chứa tất cả các từ đồng nghĩa có thể có, cho phép người dùng đưa ra nhiều phản hồi khác nhau nhưng thông điệp của hệ thống phải rõ ràng hơn. Khi thiết kế giao diện người dùng bằng giọng nói, bạn phải luôn nói rõ cho người dùng biết họ nên phản hồi như thế nào. Để làm điều này, nếu người dùng không thể nhắc một câu trả lời hợp lệ, thì các nhà phát triển ứng dụng sẽ cung cấp một số từ khóa giúp người dùng đưa ra câu trả lời mà hệ thống hiểu được. Ví dụ, " Bạn muốn “chọn điểm đến”, “nhận thông tin về khách sạn”” hay “đặt phòng”?

Hãy tập trung một chút vào các tin nhắn hệ thống. Thông báo hệ thống bao gồm các gợi ý, có ba loại:

Yêu cầu thông tin - yêu cầu người dùng đưa ra lựa chọn, chọn từ menu, chọn một phần thông tin cần sửa và cũng nhập dữ liệu của họ, chẳng hạn như số điện thoại.
Thông báo trạng thái hệ thống hiện tại - thông báo cho biết đã xảy ra lỗi, bản tóm tắt thông tin cần xác nhận và các cụm từ như " Vui lòng chờ”, thông báo cho người dùng rằng có sự chậm trễ trong quá trình xử lý dữ liệu. Danh mục này cũng bao gồm cái gọi là “thẻ”, cho người dùng biết họ đang ở cấp độ đối thoại nào, chẳng hạn như “ Bạn quay lại menu chính».
Thông báo thông tin – có thể được khởi tạo bởi hệ thống hoặc người dùng. Phần đầu tiên bao gồm lời chào cũng như tin nhắn gửi đến người dùng kèm theo hướng dẫn cách làm việc với ứng dụng. Phần thứ hai bao gồm thông tin mà người dùng yêu cầu, ví dụ: trợ giúp, dự báo thời tiết, v.v.

Thông báo lời nói của hệ thống là các cụm từ được tổng hợp hoặc ghi âm trước hoặc kết hợp cả hai. Tổng hợp giọng nói phù hợp hơn để nói nội dung thông tin động như tin nhắn E-mail. Mặt khác, bài phát biểu được ghi lại, tức là. các cụm từ được ghi âm trước trong phòng thu bởi một diễn viên chuyên nghiệp sẽ truyền tải chính xác hơn tính biểu cảm trong lời nói của một người và làm cho cuộc đối thoại trở nên tự nhiên hơn.

Nhiều ứng dụng còn cung cấp âm thanh cho tin nhắn thoại của hệ thống. Vì vậy, logo âm nhạc, âm thanh biểu thị lỗi xảy ra, phần mở đầu của thông báo và âm thanh môi trường thường được sử dụng.

Tuy nhiên, không phải tất cả các giao dịch kinh doanh đều có thể tự động hóa bằng giao diện người dùng bằng giọng nói. Theo quy định, các truy vấn và thao tác càng phức tạp thì chúng càng khó tự động hóa và càng có nhiều khả năng chúng sẽ không được người dùng ưa chuộng. Ví dụ: đường dây nóng tư vấn pháp luật khá khó tự động hóa, vì vậy trong trường hợp này sự hỗ trợ của nhà điều hành là lựa chọn duy nhất. Mặt khác, việc sử dụng giao diện người dùng bằng giọng nói sẽ thuận tiện cho việc tự động hóa các thao tác nhanh chóng, lặp lại liên tục, chẳng hạn như đặt hàng, ghi lại thời gian hoặc thanh toán hoặc chuyển tiền từ tài khoản này sang tài khoản khác.

Dưới đây là một số ứng dụng cụ thể của giao diện người dùng giọng nói đã được sử dụng trong nhiều hệ thống khác nhau:

hệ thống bảo vệ quyền truy cập vào cơ sở dữ liệu, thông tin và đối tượng;
hệ thống cảnh báo ở tình huống khẩn cấp(vào cơ sở trái phép, an ninh kinh tế, hỗ trợ cuộc sống của cơ sở, v.v.);
hệ thống trợ giúp bằng giọng nói theo thời gian thực cho phép bạn tự động cập nhật thông tin ngay sau khi thông tin thay đổi;
hệ thống truy cập Tài liệu tham khảo bởi vì mạng điện thoại truy cập chung;
hệ thống truy cập thông tin doanh nghiệp, chẳng hạn như đọc hoặc gửi email;
hệ thống thư thoại;
hệ thống bầu cử và cạnh tranh;
hệ thống chăm sóc khách hàng tự động, thao tác với tài khoản cá nhân, tiếp nhận và xử lý đơn hàng.

Giao diện giọng nói tốt giúp khắc phục ác cảm của người dùng đối với công nghệ vì bạn không cần phải học các kỹ năng mới để sử dụng nó. Trong khi giao tiếp với hệ thống, người dùng có thể thực hiện hoạt động khác nhau nhanh chóng và dễ dàng, như thể đang giao tiếp với một chuyên gia có trình độ. Giao diện giọng nói thay đổi về mặt chất lượng cách thức và do đó tính hiệu quả của sự tương tác của người dùng với hệ thống. Cho phép bạn làm việc với ứng dụng một cách tự nhiên hơn đối với một người.

Kể lại báo cáo của nhà nghiên cứu UX và cựu chuyên gia về giao diện giọng nói tại Google Konstantin Samoilov về khả năng của trợ lý ảo hiện có.

Để đánh dấu

Konstantin Samoilov

Báo cáo được trình bày tại cuộc thi UX marathon “Tương tác của tương lai” vào ngày 6 tháng 7 năm 2017, khi trợ lý giọng nói Yandex chưa tồn tại.

Cái này là cái gì

Để tránh nhầm lẫn, điều quan trọng là phải thống nhất được ý nghĩa cơ bản của giao diện giọng nói (GI). Vấn đề nhận dạng giọng nói đang được tích cực giải quyết. Chất lượng của nó, ngay cả đối với một ngôn ngữ không phải tiếng Anh trong điều kiện không lý tưởng (có trọng âm và ngữ điệu), là 95−98%. Nếu bạn đào tạo mô hình, chất lượng có thể được cải thiện.

1. Ngôn ngữ tự nhiên

Nếu chúng ta nói về GI như một sự thay thế cho việc gõ bàn phím hoặc chạm vào màn hình, thì việc thực hiện rất đơn giản - chỉ cần thực hiện nhập lệnh bằng giọng nói.

Nhưng điều này sẽ không hiệu quả vì ngôn ngữ lệnh không phải là ngôn ngữ tự nhiên đối với con người. Đối với người dùng, ưu điểm của giao diện giọng nói là không có đường cong học tập. Chúng tôi có thể nói chuyện, chúng tôi là chuyên gia trong việc tương tác với nhau.

Bây giờ là ngôn ngữ tương tác với mọi người hệ thống hiện có không thuộc về thiên nhiên. Bạn có thể nói “Alexa, bắt đầu phát bản nhạc như vậy”, nhưng đây là một ngữ pháp nhất định mà hệ thống đã được dạy và thực sự bị ẩn khỏi người dùng.

2. Đối thoại

Ngay cả khi chúng ta có thể truyền lệnh đến máy tính bằng giọng nói thì hệ thống vẫn không hoạt động. Giả định rằng tất cả dữ liệu được nhập ngay từ đầu. Trong lập trình, nếu nhà phát triển nhập lệnh không chính xác, hệ thống sẽ không làm rõ chính xác ý của anh ta là gì. Theo quy định, nó không hoạt động. Phải có một cuộc đối thoại.

3. Từ vựng và ngữ pháp không giới hạn

Alexa tương tự hoạt động trên một hòn đảo trách nhiệm nhỏ. Theo các thuật toán cơ bản, nó mong đợi nhận được một số đối số nhất định từ người dùng. Kỳ vọng của hệ thống giới hạn ngữ pháp và từ vựng, mà người dùng có thể sử dụng.

TRONG nhà phát triển Google suy nghĩ về ngữ pháp và các loại từ trong tiếng anh có thể được mọi người sử dụng cho những tác vụ phổ biến nhất - như đặt báo thức hoặc tạo lời nhắc.

Các cuộc thử nghiệm đã bắt đầu từ bốn năm trước. Trong lần thử nghiệm đầu tiên, người dùng đã nói điều gì đó mà các nhà phát triển không hề dự kiến. Hệ thống không hoạt động, các nhà phát triển nói, "Chết tiệt, chúng tôi không nghĩ tới điều đó."

Ba năm sau, trong phiên bản cải tiến của cùng một hệ thống, người dùng lại nói điều gì đó không hoạt động và các nhà phát triển nói: "Chết tiệt, chúng tôi cũng không nghĩ đến điều đó." Theo thời gian, cây quyết định và ngữ pháp cho nhiệm vụ cụ thể, và mọi người thử nghiệm mớiđã phát hiện một ngoại lệ mà các nhà phát triển không tính đến.

Ngôn ngữ tự nhiên, hội thoại và từ vựng/ngữ pháp là những vấn đề cơ bản cần được giải quyết để GI thực sự hoạt động.

Các loại

Các cuộc thảo luận về giao diện thoại và đàm thoại thường bao gồm nhiều hệ thống. Bắt đầu với những bot trả lời nhiều nhất câu hỏi đơn giản và nói đùa một cách không phù hợp, và cái kết hệ thống phức tạp, được sử dụng ở cấp độ công nghiệp. Ví dụ, một hệ thống cho ăn tốt đến mức đáng kinh ngạc khai thuếở Anh.

Tình trạng hiện tại

Người chơi chính:

Alexa từ Amazon.
Siri của Apple.
Được rồi Google.
Cortana của Microsoft (ít người sử dụng).

Samsung tự sản xuất hệ thống mới gọi là Vera. Alibaba - trợ lý cho người dùng Trung Quốc. Thị trường bùng nổ, mọi người đều làm việc trong lĩnh vực này.

Nhưng một tình huống nghịch lý đã nảy sinh. Các công ty có đủ nguồn lực, kiến thức và kỹ năng để thực hiện một bước tiến đáng kể và tạo ra sự thay đổi lớn trong ngành sẽ không quan tâm đến bước đi này. Trợ lý GI và giọng nói là một sự đổi mới giúp thay đổi tình trạng hiện tại (công nghệ đột phá).

Siri - đủ rồi trợ lý tốt, điều này thúc đẩy doanh số bán iPhone. Nó hoàn thành nhiệm vụ của mình và chẳng ích gì khi công ty làm điều gì đó mới sẽ thay đổi hệ sinh thái Ứng dụng Cửa hàng.

Mô hình tương tác giữa con người và máy tính hiện nay là một hộp công cụ. Chúng ta tìm một công cụ, đặt nó vào hộp và sử dụng nó vào một thời điểm nhất định để đạt được mục tiêu. Bản thân chúng ta chịu trách nhiệm tìm kiếm và sở hữu các công cụ và phải hiểu thời điểm và trình tự sử dụng chúng.

Ưu điểm của GI là chúng ta thể hiện mong muốn của mình một cách tự nhiên. Thật tự nhiên khi nói “Em yêu, mang cho anh chút trà nhé” - chúng ta đang nói về kết quả như ý, thay vì nói qua tất cả các bước cần thiết cho việc này.

Một thay đổi cơ bản trong mô hình tương tác sẽ dẫn đến thực tế là sẽ không cần đến các công cụ riêng biệt.

Thiết kế

Người dùng mong đợi rằng họ có thể bày tỏ mong muốn của mình một cách tự nhiên và hệ thống sẽ hiểu họ. Hệ thống phải thích ứng với con người chứ không phải ngược lại. Vì vậy, thiết kế GI phần lớn là công việc tìm hiểu đặc điểm con người.

Sự tự tin

Một cô gái đã tham gia thử nghiệm ba lần. Lần thứ hai, khi hệ thống đã hoạt động khá tốt, phản ứng của cô ấy là “Ôi chúa ơi, thứ này sống trong điện thoại của tôi, bây giờ cuộc sống của tôi sắp thay đổi”. Ở lần kiểm tra thứ ba một tháng sau, cô nói rằng cô chưa bao giờ sử dụng hệ thống này và cũng không có ý định sử dụng.

Mặc dù hệ thống này hoạt động trong hầu hết các trường hợp nhưng cô gái đơn giản là không tin tưởng vào nó. Niềm tin thì không câu hỏi kỹ thuật, nhưng nếu không giải quyết được thì mọi công việc còn lại sẽ trở nên vô ích.

Sự tin tưởng là đối nghịch của sự kiểm soát. Câu nói “Tin tưởng nhưng xác minh” là vô nghĩa. Chuyện bạn về nhà và vợ nói với bạn: “Anh yêu, anh về lúc 12 giờ đêm. Bạn nói bạn đang họp. Vì vậy tôi đã gọi cho tất cả bạn bè của bạn, công ty của bạn và tài xế của bạn, và thực tế là bạn đang họp. Tôi tin tưởng bạn, nhưng tôi kiểm tra. Điều này không xảy ra.

Đầu tiên, chúng tôi tìm hiểu cách hệ thống đối phó và sau đó chúng tôi bắt đầu giao nhiệm vụ cho nó. Cô ấy trở thành một chiếc hộp đen - chúng tôi không biết cô ấy làm thế nào. Giống như một trợ lý trực tiếp, chúng tôi từ bỏ quyền kiểm soát và thay thế nó bằng sự tin tưởng.

Ngay cả một nhiệm vụ đơn giản như đặt báo thức trong một bối cảnh cụ thể cũng không thể được ủy thác dễ dàng. Đặt báo thức cho thứ Bảy để không ngủ quên cho đến trưa là một việc. Việc còn lại là lúc 5 giờ sáng để ra sân bay gặp bố mẹ. Mọi người không hiểu hệ thống có thể sai đến mức nào nên họ không hề sử dụng nó.

Giao diện vô hình

Điều độc đáo về giao diện giọng nói là nó vô hình. TRONG Giao diện đồ họa chúng ta thấy các nút điều khiển: chúng có ở đó không, chúng trông như thế nào, thiết kế có hiện đại không, có các nút “Quay lại” và “Chuyển tiếp” không, chúng ta hiện đang ở bước nào - trung gian hay cuối cùng.

GI không cho phép bạn thấy điều này. Chúng tôi đang cố gắng tạo ra một mô hình tinh thần của hệ thống và trả lời các câu hỏi như: “Nếu tôi nói “Quay lại” bây giờ, tôi sẽ quay lại phần đầu của cuộc đối thoại hay trạng thái trước đó? Và đây là loại điều kiện gì vậy?”

Một mô hình tinh thần trả lời câu hỏi về khả năng của hệ thống. Hơn nữa, mô hình này luôn sai. Nếu chúng ta vừa mới tương tác với menu giọng nói "Nhấn một cái vào cái gì đó", kỳ vọng sẽ thấp. Nếu gần đây chúng ta đã xem bộ phim “Her” thì kỳ vọng sẽ rất cao.

Để GI hoạt động ít nhất bằng cách nào đó, cần phải giúp người dùng tạo và điều chỉnh mô hình tinh thần của hệ thống.

Điều chỉnh mô hình tinh thần của bạn

Hệ thống có thể đặt câu hỏi yêu cầu câu trả lời đơn giản:

Có hay không).

Và có lẽ, gợi ý những câu trả lời chi tiết:

Bạn có muốn làm gì khác không?

Di chuyển sự kiện này về phía trước nửa giờ.

Từ định dạng của câu hỏi, người dùng có thể kết luận rằng trong trường hợp đầu tiên, hệ thống khá ngu ngốc. Anh ta sẽ nói “Không, đừng lưu” và sẽ đưa ra các lệnh tiếp theo với mức độ chi tiết tương tự: “Sự kiện mới. Khi nào bạn muốn làm điều đó? Lúc 12:30. Bạn muốn làm gì? Gặp gỡ bố mẹ. Ở đâu? Trong một sân bay".

Trong trường hợp thứ hai, anh ta có thể quyết định rằng hệ thống này “thông minh” và hiểu được các câu trả lời chi tiết. Để sửa thông tin đã nhập, anh ấy sẽ nói: “Thay vào đó, tôi muốn tạo một sự kiện mới vào lúc 12:30 ngày mai để gặp bố mẹ tôi ở sân bay”.

nhân loại

Để tạo ra GI tự nhiên đối với một người, chúng ta cần hiểu tại sao cuộc trò chuyện của chúng ta với người khác được coi là tự nhiên. Do đặc điểm nào? Chúng tôi nhận ra rằng chúng tôi không biết điều này.

Ăn người thông minh, giao tiếp với ai thì dễ chịu và với ai thì không. Có những người có phản ứng khá trưởng thành: họ phản ứng khác nhau trước những sai lầm và câu hỏi của chúng tôi. 50 năm trước không hề có thứ gọi là trí tuệ cảm xúc. Chắc chắn chúng ta không biết nhiều đặc điểm khác để có thể thoải mái giao tiếp với người khác.

Nếu không biết những đặc điểm này thì không thể đưa chúng vào hệ thống và khiến việc giao tiếp với hệ thống trở nên tự nhiên. Một giải pháp khả thi là hệ thống không cần phải sẵn sàng. Bạn có thể phát hành một bán thành phẩm để nhận phản hồi từ mọi người và tìm hiểu xem nó đã làm đúng và sai.

Mặc dù chúng ta không biết những đặc điểm này là gì nhưng đến một lúc nào đó, chính hệ thống sẽ tìm ra chúng và hỗ trợ chúng.

Nhân cách

Một trong những câu hỏi được nhiều người quan tâm nhất là tính cách nhân vật trợ lý giọng nói. Bây giờ công nghệ chỉ cho phép chúng ta bắt chước sự thân thiện, thông minh, hài hước, v.v. Điều đặc biệt của một người là đây là những đặc điểm rất đa diện. Cách tiếp cận của các công ty khác nhau và phụ thuộc vào mục đích tạo ra hệ thống giọng nói và triết lý của công ty.

Siri là dự án của một công ty tạo ra phép thuật Kinh nghiệm người dùng. Mọi thứ chỉ nên hoạt động. Và nếu người dùng sử dụng đúng ngữ pháp và từ vựng thì mọi thứ đều tuyệt vời. Nhưng nếu nó không đoán đúng, hệ thống sẽ ngừng hoạt động mà không có dấu hiệu nhỏ nhất về điều gì sai hoặc cách điều chỉnh hành vi để lần sau nó hoạt động tốt hơn.

Đồng thời, rất chú trọng đến việc cá nhân hóa. Các lập trình viên đã làm việc về chất lượng giọng nói và sự tương tác của con người: Siri có thể nói đùa hoặc thêm nhận xét hài hước khi thực hiện một tác vụ tiêu chuẩn. Đôi khi trông có vẻ tự nhiên nhưng chúng tôi nhanh chóng đến được thung lũng kỳ lạ.

Tác dụng là: hơn thêm hệ thống Cô ấy trông giống một người, anh ấy càng thích cô ấy. Nhưng khi nó trở nên rất giống nhau, sự ưa thích giảm mạnh và chỉ phục hồi khi bắt chước hoàn toàn. Sự suy giảm này được gọi là “thung lũng kỳ lạ”.

"Thung lũng kỳ lạ"

Với những tính cách, chúng ta nhanh chóng rơi vào tình trạng đó: hệ thống nói đùa thành công, người đó thư giãn, sử dụng một nhóm từ và ngữ pháp khác, và hệ thống bắt đầu phản ứng khác với những gì anh ta mong đợi. Người dùng có thể cảm thấy rằng hệ thống đang cười nhạo anh ta hoặc không chấp nhận anh ta. Điều này còn tệ hơn nhiều so với việc anh ta chỉ đơn giản nghĩ rằng đây là một con robot ngu ngốc.

Một trong những khác biệt chính Trợ lý Google là nó thậm chí còn không có tên (OK, Google). Siri (Apple) và Alexa (Amazon) có tên và cố gắng hành động như con người.

Tại Google, chúng tôi nhận thấy rằng điều an toàn nhất cần làm là không giả mạo tính cách và cho người dùng thấy rằng họ chỉ là công nghệ mà không có bất kỳ sự tương tác nào của con người.

Câu trả lời cho câu hỏi

Sự an toàn

Giải pháp thú vị Alexa có nó: nó có thể giao tiếp với các thiết bị bạn có trong nhà, chẳng hạn như khóa thông minh. Bạn có thể đến cửa và nói: "Alexa, mở cửa đi, mã là như vậy."

Có rất nhiều sắc thái. Khi chúng tôi sử dụng giọng nói của mình, mọi người ở gần chúng tôi đều nghe thấy - điều này không an toàn và đôi khi không phù hợp. Mọi người sử dụng GI trong ô tô của họ để tạo ra một sự kiện, nhưng đừng làm điều đó trên xe buýt vì những người khác sẽ biết họ dự định đi cùng ở đâu, khi nào và với ai.

Chúng tôi đã quyết định không sử dụng GI khi sự an toàn là quan trọng. Trong trường hợp này, yêu cầu đối với hệ thống sẽ cao hơn. Nếu chúng ta đặt báo thức và nó kêu 99/100 lần thì đó là điều bình thường. Nếu chúng ta đóng một chiếc ô tô hoặc một chiếc két sắt, việc vận hành 99 trên 100 trường hợp là không thể chấp nhận được.

Câu hỏi phản hồi xuất hiện. Nếu chúng ta đặt báo thức, câu trả lời là đặt báo thức là đủ. Chúng tôi không chỉ định tất cả các thông số được hệ thống ghi lại. Với yêu cầu bảo mật ngày càng tăng, chúng ta phải hoàn toàn tin tưởng vào hệ thống, điều này là không thể trong tình trạng hiện tại.

Hoặc họ sẽ nhận được phản hồi: báo động về kế hoạch đó và kế hoạch như vậy được bật, nó sẽ hoạt động cho đến thời điểm đó, người này có thể tắt nó đi, v.v. Nếu hệ thống nói bằng giọng nói thì người khác có thể nghe thấy. Và nếu hệ thống báo cáo thông tin bí mật?

Vì vậy, trong công việc của mình, chúng tôi quyết định không tham gia vào các tình huống mà bảo mật và quyền riêng tư là quan trọng.

Tương lai gần

Các công ty lớn sẽ cố gắng bắt chước khả năng trả lời bất kỳ câu hỏi nào của trợ lý nhưng vẫn không hiệu quả.

Ứng dụng sẽ có thể thực hiện được ở những khu vực hẹp nơi kỳ vọng của người dùng hạn chế vốn từ vựng và động lực tương tác của anh ta. Ví dụ: bạn có thể nói với máy bán vé rằng bạn cần một vé từ Moscow đến Kaluga vào tối mai. Sau đó, nếu một người hỏi Barack Obama bao nhiêu tuổi thì hệ thống không trả lời câu hỏi như vậy là điều hoàn toàn bình thường.

Tương lai là tập trung vào một trường hợp người dùng cụ thể, hỗ trợ tất cả ngữ pháp liên quan đến nó và bỏ qua mọi thứ bên ngoài nó.

Sử dụng trong thanh toán

Giọng nói được sử dụng để xác nhận thanh toán nhưng đây chỉ là một phần của toàn bộ hoạt động tương tác. Không có ví dụ nào mà toàn bộ quá trình có thể được hoàn thành bằng giọng nói. Điều này một phần là do các vấn đề pháp lý và khoản bồi hoàn.

Ở Châu Âu có một khoảng thời gian chờ đợi, khi trong một thời gian nhất định (điều này khác nhau ở các quốc gia khác nhau), người mua có thể trả lại sản phẩm, ngay cả khi mọi thứ đều ổn với sản phẩm đó. Một người có thể thay đổi ý định mà không cần lý do và điều này được pháp luật ủng hộ.

Hệ thống thanh toán cũng cần đảm bảo rằng người trả tiền biết mình đang mua gì và đây không phải là lỗi. Nếu đó là giao dịch mua nhầm, chính sách hoàn toàn khác sẽ được áp dụng cho khoản bồi hoàn. Có trường hợp một đứa trẻ nhấc máy (Amazon Fire), nói điều gì đó và bắt đầu quá trình mua hàng. Trong trường hợp này, không thể chứng minh được ai là người khởi xướng.

Khi cần thiết

Người ta thường chấp nhận rằng công nghệ mới sẽ chỉ thay thế cái trước đó, nhưng điều này không phải lúc nào cũng đúng. Bây giờ họ đang nói về việc lồng tiếng cho các ứng dụng, khi nào ứng dụng hiện có màn hình chỉ đơn giản là được thay thế bằng giọng nói. Rõ ràng là nó không hoạt động theo cách đó. Chủ yếu là do giọng nói được sử dụng trong các cài đặt khác. Nếu một người có thể cầm điện thoại và chạm vào màn hình, họ sẽ ít sử dụng giọng nói của mình hơn. Màn hình cảm ứng thường tiện lợi hơn GI.

Giọng nói thuận tiện khi khó sử dụng điện thoại: khi đang lái xe, trên đường với túi xách hoặc ở nhà trên ghế dài, khi điện thoại ở trên bàn và đơn giản là bạn quá lười để đứng dậy nhấc máy. Bật nhạc bằng giọng nói của bạn trở nên dễ dàng hơn, ngay cả khi bạn nhấn nút thì thao tác này sẽ nhanh hơn.

GI là cần thiết khi không thể sử dụng điện thoại theo cách thông thường, chẳng hạn như trên ô tô. Nhưng nếu một công ty nói rằng một sản phẩm có thể được sử dụng khi đang lái xe, thì công ty đó phải chứng minh với các cơ quan chức năng rằng tất cả các hạn chế pháp lý liên quan đến việc lái xe đã được tính đến.

GI phải được sử dụng khi đáp ứng được hai điều kiện:

Một người đang làm việc gì đó đa nhiệm và không thể tập trung vào một thiết bị.
Những gì anh ta làm với GI không phải là nhiệm vụ chính.

Kết nối với giao diện trực quan

Một lợi thế rất lớn của giao diện trực quan là các tùy chọn tương tác có thể nhìn thấy được. Với GI, chúng ta không biết những gì có sẵn cho mình.

Tương tác với màn hình là một chủ đề được phát triển rất tốt. Màn hình sẽ vẫn giữ nguyên ngay cả khi GI hoạt động tốt, nếu chỉ vì chúng ta có mắt. Nhận thức trực quan là chính. Giọng nói - phụ trợ.

Giọng nói có thể tương tác với việc trình bày dữ liệu trên màn hình mà không phải là cấu trúc phụ. Ví dụ: trong Alexa, thành phần chính là giọng nói. Bạn có thể cài đặt ứng dụng để xem phản hồi của hệ thống trên màn hình (một số phản hồi khó nhận biết bằng tai). Đúng, bây giờ khái niệm đang thay đổi - phiên bản tiếp theo Amazon Echo sẽ có màn hình riêng.

Ứng dụng trong các quy trình quan trọng

Bác sĩ phẫu thuật - ví dụ tốtđa nhiệm. Nó tập trung vào một hoạt động nhưng có thể yêu cầu thêm thông tin. Ở đây GI đã được sử dụng.

IBM đã đi một con đường khác với dự án Watson. Công ty bắt đầu làm việc trên trí tuệ nhân tạo. Đầu tiên nó đã giành chiến thắng trong cuộc kiểm tra của mọi người, và bốn năm trước nó đã được giới thiệu ở một số phòng khám ở Mỹ. Hiện nay nó được sử dụng để chẩn đoán ung thư ở 1.000 phòng khám. Hệ thống này được sử dụng cho các quy trình quan trọng nhưng trong các trường hợp sử dụng rất hẹp. Đồng thời, các nhân viên phải trải qua đào tạo đặc biệt.

Ví dụ về các giải pháp thành công

Amazon tung ra một sản phẩm hoàn toàn khác biệt: không có màn hình, là vật thể vật lý, chất lượng giọng nói cao hơn nhiều (do lưu trữ dữ liệu tích hợp với các mẫu được ghi sẵn).

Tương tác trò chuyện thú vị của Google. Nếu chúng tôi nói rằng chúng tôi muốn thêm điều gì đó vào lịch, một hệ thống đối thoại sẽ được khởi chạy, khá linh hoạt và khá rõ ràng. Nó làm rõ thông tin về sự kiện, bạn có thể sửa dữ liệu, v.v.

Microsoft đã giải quyết tốt vấn đề tùy chỉnh trong Cortana. Dự kiến một người không cần biết gì về hệ thống hoặc cấu hình nó. Khi tôi nói điều này, điều tôi thường muốn nói là: Tôi sử dụng những từ này khác với những người khác, v.v. Về lý thuyết, điều này sẽ hoạt động tự động, nhưng thực tế không phải vậy, nghĩa là phải có hệ thống cấu hình.

Apple hoàn toàn bỏ qua vấn đề cài đặt. Đối với Cortana, bạn có thể chỉ định sở thích của mình, v.v. và giao diện khá đơn giản.

Bản tóm tắt được chuẩn bị bởi nhà thiết kế giao diện Anton Grigoriev.