Голосовые программы для компьютера. Не работает голосовое управление. Какие могут быть причины и как исправить? Как обучить распознавание речи и повысить точность

Ко мне обратился человек с просьбой написать программу, которая позволила бы управлять компьютерной мышью при помощи голоса. Тогда я и представить себе не мог, что, практически полностью парализованный человек, который даже не может сам повернуть голову, а может лишь разговаривать, способен развить бурную деятельность, помогая себе и другим жить активной жизнью, получать новые знания и навыки, работать и зарабатывать, общаться с другими людьми по всему свету, участвовать в конкурсе социальных проектов.

Позволю себе привести здесь пару ссылок на сайты, автором и/или идейным вдохновителем которых является этот человек – Александр Макарчук из города Борисов, Беларусь:

Для работы на компьютере Александр использовал программу «Vocal Joystick» - разработку студентов Университета штата Вашингтон, выполненную на деньги Национального Научного Фонда (NSF). См. melodi.ee.washington.edu/vj

Не удержался

Кстати, на сайте университета (http://www.washington.edu/) 90% статей именно про деньги. Трудно найти что-нибудь про научную работу. Вот, например, выдержки с первой страницы: «Том, выпускник университета, раньше питался грибами и с трудом платил за квартиру. Теперь он старший менеджер ИТ-компании и кредитует университет», «Большие Данные помогают бездомным», «Компания обязалась заплатить 5 миллионов долларов за новый учебный корпус».

Это одному мне режет глаз?


Программа была сделана в 2005-2009 годах и хорошо работала на Windows XP. В более свежих версиях Windows программа может зависнуть, что неприемлемо для человека, который не может встать со стула и её перезапустить. Поэтому программу нужно было переделать.

Исходных текстов нет, есть только отдельные публикации, приоткрывающие технологии, на которых она основана (MFCC, MLP – читайте об этом во второй части).

По образу и подобию была написана новая программа (месяца за три).

Собственно, посмотреть, как она работает, можно :

Скачать программу и/или посмотреть исходные коды можно .

Никаких особенных действий для установки программы выполнять не надо, просто щёлкаете на ней, да запускаете. Единственное, в некоторых случаях требуется, чтобы она была запущена от имени администратора (например, при работе с виртуальной клавиатурой “Comfort Keys Pro”):

Пожалуй, стоит упомянуть здесь и о других вещах, которые я ранее делал для того, чтобы можно было управлять компьютером без рук.

Если у вас есть возможность поворачивать голову, то хорошей альтернативой eViacam может послужить гироскоп, крепящийся к голове. Вы получите быстрое и точное позиционирование курсора и независимость от освещения.

Если вы можете двигать только зрачками глаз, то можно использовать трекер направления взгляда и программу к нему (могут быть сложности, если вы носите очки).

Часть II. Как это устроено?

Из опубликованных материалов о программе «Vocal Joystick» было известно, что работает она следующим образом:
  1. Нарезка звукового потока на кадры по 25 миллисекунд с перехлёстом по 10 миллисекунд
  2. Получение 13 кепстральных коэффициентов (MFCC) для каждого кадра
  3. Проверка того, что произносится один из 6 запомненных звуков (4 гласных и 2 согласных) при помощи многослойного персептрона (MLP)
  4. Воплощение найденных звуков в движение/щелчки мыши
Первая задача примечательна лишь тем, что для её решения в реальном времени пришлось вводить в программу три дополнительных потока, так как считывание данных с микрофона, обработка звука, проигрывание звука через звуковую карту происходят асинхронно.

Последняя задача просто реализуется при помощи функции SendInput.

Наибольший же интерес, мне кажется, представляют вторая и третья задачи. Итак.

Задача №2. Получение 13 кепстральных коэффициентов

Если кто не в теме – основная проблема узнавания звуков компьютером заключается в следующем: трудно сравнить два звука, так как две непохожие по очертанию звуковые волны могут звучать похоже с точки зрения человеческого восприятия.

И среди тех, кто занимается распознаванием речи, идёт поиск «философского камня» - набора признаков, которые бы однозначно классифицировали звуковую волну.

Из тех признаков, что доступны широкой публике и описаны в учебниках, наибольшее распространение получили так называемые мел-частотные кепстральные коэффициенты (MFCC).

История их такова, что изначально они предназначались совсем для другого, а именно, для подавления эха в сигнале (познавательную статью на эту тему написали уважаемые Оппенгейм и Шафер, да пребудет радость в домах этих благородных мужей. См. A. V. Oppenheim and R.W. Schafer, “From Frequency to Quefrency: A History of the Cepstrum”).

Но человек устроен так, что он склонен использовать то, что ему лучше знакомо. И тем, кто занимался речевыми сигналами, пришло в голову использовать уже готовое компактное представление сигнала в виде MFCC. Оказалось, что, в общем, работает. (Один мой знакомый, специалист по вентиляционным системам, когда я его спросил, как бы сделать дачную беседку, предложил использовать вентиляционные короба. Просто потому, что их он знал лучше других строительных материалов).

Являются ли MFCC хорошим классификатором для звуков? Я бы не сказал. Один и тот же звук, произнесённый мною в разные микрофоны, попадает в разные области пространства MFCC-коэффициентов, а идеальный классификатор нарисовал бы их рядом. Поэтому, в частности, при смене микрофона вы должны заново обучать программу.

Это всего лишь одна из проекций 13-мерного пространства MFCC в 3-мерное, но и на ней видно, что я имею в виду – красные, фиолетовые и синие точки получены от разных микрофонов: (Plantronix, встроенный массив микрофонов, Jabra), но звук произносился один.

Однако, поскольку ничего лучшего я предложить не могу, также воспользуюсь стандартной методикой – вычислением MFCC-коэффициентов.

Чтобы не ошибиться в реализации, в первых версиях программы в качестве основы был использован код из хорошо известной программы CMU Sphinx, точнее, её реализации на языке C, именующейся pocketsphinx, разработанной в Университете Карнеги-Меллона (мир с ними обоими! (с) Хоттабыч).

Исходные коды pocketsphinx открыты, да вот незадача – если вы их используете, то должны в своей программе (как в исходниках, так и в исполняемом модуле) прописать текст, содержащий, в том числе, следующее:

* This work was supported in part by funding from the Defense Advanced * Research Projects Agency and the National Science Foundation of the * United States of America, and the CMU Sphinx Speech Consortium.
Мне это показалось неприемлемым, и пришлось код переписать. Это сказалось на быстродействии программы (в лучшую сторону, кстати, хотя «читабельность» кода несколько пострадала). Во многом благодаря использованию библиотек “Intel Performance Primitives”, но и сам кое-что оптимизировал, вроде MEL-фильтра. Тем не менее, проверка на тестовых данных показала, что получаемые MFCC-коэффициенты полностью аналогичны тем, что получаются при помощи, например, утилиты sphinx_fe.

В программах sphinxbase вычисление MFCC-коэффициентов производится следующими шагами:

Шаг Функция sphinxbase Суть операции
1 fe_pre_emphasis Из текущего отсчёта вычитается большая часть предыдущего отсчета (например, 0.97 от его значения). Примитивный фильтр, отбрасывающий нижние частоты.
2 fe_hamming_window Окно Хемминга – вносит затухание в начале и конце кадра
3 fe_fft_real Быстрое преобразование Фурье
4 fe_spec2magnitude Из обычного спектра получаем спектр мощности, теряя фазу
5 fe_mel_spec Группируем частоты спектра [например, 256 штук] в 40 кучек, используя MEL-шкалу и весовые коэффициенты
6 fe_mel_cep Берём логарифм и применяем DCT2-преобразование к 40 значениям из предыдущего шага.
Оставляем первые 13 значений результата.
Есть несколько вариантов DCT2 (HTK, legacy, классический), отличающихся константой, на которую мы делим полученные коэффициенты, и особой константой для нулевого коэффициента. Можно выбрать любой вариант, сути это не изменит.

В эти шаги ещё вклиниваются функции, которые позволяют отделить сигнал от шума и от тишины, типа fe_track_snr, fe_vad_hangover, но нам они не нужны, и отвлекаться на них не будем.

Были выполнены следующие замены для шагов по получению MFCC-коэффициентов:

Задача №3. Проверка того, что произносится один из 6 запомненных звуков

В программе-оригинале «Vocal Joystick» для классификации использовался многослойный персептрон (MLP) – нейронная сеть без новомодных наворотов.

Давайте посмотрим, насколько оправдано применение нейронной сети здесь.

Вспомним, что делают нейроны в искусственных нейронных сетях.

Если у нейрона N входов, то нейрон делит N-мерное пространство пополам. Рубит гиперплоскостью наотмашь. При этом в одной половине пространства он срабатывает (выдаёт положительный ответ), а в другой – не срабатывает.

Давайте посмотрим на [практически] самый простой вариант – нейрон с двумя входами. Он, естественно, будет делить пополам двумерное пространство.

Пусть на вход подаются значения X1 и X2, которые нейрон умножает на весовые коэффициенты W1 и W2, и добавляет свободный член C.


Итого, на выходе нейрона (обозначим его за Y) получаем:

Y=X1*W1+X2*W2+C

(опустим пока тонкости про сигмоидальные функции)

Считаем, что нейрон срабатывает, когда Y>0. Прямая, заданная уравнением 0=X1*W1+X2*W2+C как раз и делит пространство на часть, где Y>0, и часть, где Y<0.

Проиллюстрируем сказанное конкретными числами.

Пусть W1=1, W2=1, C=-5;

Теперь посмотрим, как нам организовать нейронную сеть, которая бы срабатывала на некоторой области пространства, условно говоря – пятне, и не срабатывала во всех остальных местах.

Из рисунка видно, что для того, чтобы очертить область в двумерном пространстве, нам потребуется по меньшей мере 3 прямых, то есть 3 связанных с ними нейрона.

Эти три нейрона мы объединим вместе при помощи ещё одного слоя, получив многослойную нейронную сеть (MLP).

А если нам нужно, чтобы нейронная сеть срабатывала в двух областях пространства, то потребуется ещё минимум три нейрона (4,5,6 на рисунках):

И тут уж без третьего слоя не обойтись:

А третий слой – это уже почти Deep Learning…

Теперь обратимся за помощью к ещё одному примеру. Пусть наша нейронная сеть должна выдавать положительный ответ на красных точках, и отрицательный – на синих точках.

Если бы меня попросили отрезать прямыми красное от синего, то я бы сделал это как-то так:

Но нейронная сеть априори не знает, сколько прямых (нейронов) ей понадобится. Этот параметр надо задать перед обучением сети. И делает это человек на основе… интуиции или проб и ошибок.

Если мы выберем слишком мало нейронов в первом слое (три, например), то можем получить вот такую нарезку, которая будет давать много ошибок (ошибочная область заштрихована):

Но даже если число нейронов достаточно, в результате тренировки сеть может «не сойтись», то есть достигнуть некоторого стабильного состояния, далёкого от оптимального, когда процент ошибок будет высок. Как вот здесь, верхняя перекладина улеглась на два горба и никуда с них не уйдёт. А под ней большая область, порождающая ошибки:

Снова, возможность таких случаев зависит от начальных условий обучения и последовательности обучения, то есть от случайных факторов:

- Что ты думаешь, доедет то колесо, если б случилось, в Москву или не доедет?
- А ты как думаешь, сойдётся ента нейронная сеть или не сойдётся?

Есть ещё один неприятный момент, связанный с нейронными сетями. Их «забывчивость».

Если начать скармливать сети только синие точки, и перестать скармливать красные, то она может спокойно отхватить себе кусок красной области, переместив туда свои границы:

Если у нейронных сетей столько недостатков, и человек может провести границы гораздо эффективнее нейронной сети, зачем же их тогда вообще использовать?

А есть одна маленькая, но очень существенная деталь.

Я очень хорошо могу отделить красное сердечко от синего фона отрезками прямых в двумерном пространстве.

Я неплохо смогу отделить плоскостями статую Венеры от окружающего её трёхмерного пространства.

Но в четырёхмерном пространстве я не смогу ничего, извините. А в 13-мерном - тем более.

А вот для нейронной сети размерность пространства препятствием не является. Я посмеивался над ней в пространствах малой размерности, но стоило выйти за пределы обыденного, как она меня легко уделала.

Тем не менее вопрос пока открыт – насколько оправдано применение нейронной сети в данной конкретной задаче, учитывая перечисленные выше недостатки нейронных сетей.

Забудем на секунду, что наши MFCC-коэффициенты находятся в 13-мерном пространстве, и представим, что они двумерные, то есть точки на плоскости. Как в этом случае можно было бы отделить один звук от другого?

Пусть MFCC-точки звука 1 имеют среднеквадратическое отклонение R1, что [грубо] означает, что точки, не слишком далеко отклоняющиеся от среднего, наиболее характерные точки, находятся внутри круга с радиусом R1. Точно так же точки, которым мы доверяем у звука 2 находятся внутри круга с радиусом R2.

Внимание, вопрос: где провести прямую, которая лучше всего отделяла бы звук 1 от звука 2?

Напрашивается ответ: посередине между границами кругов. Возражения есть? Возражений нет.
Исправление: В программе эта граница делит отрезок, соединяющий центры кругов в соотношении R1:R2, так правильнее.

И, наконец, не забудем, что где-то в пространстве есть точка, которая является представлением полной тишины в MFCC-пространстве. Нет, это не 13 нулей, как могло бы показаться. Это одна точка, у которой не может быть среднеквадратического отклонения. И прямые, которыми мы отрежем её от наших трёх звуков, можно провести прямо по границам окружностей:

На рисунке ниже каждому звуку соответствует кусок пространства своего цвета, и мы можем всегда сказать, к какому звуку относится та или иная точка пространства (или не относится ни к какому):

Ну, хорошо, а теперь вспомним, что пространство 13-мерное, и то, что было хорошо рисовать на бумаге, теперь оказывается тем, что не укладывается в человеческом мозгу.

Так, да не так. К счастью, в пространстве любой размерности остаются такие понятия, как точка, прямая, [гипер]плоскость, [гипер]сфера.

Мы повторяем все те же действия и в 13-мерном пространстве: находим дисперсию, определяем радиусы [гипер]сфер, соединяем их центры прямой, рубим её [гипер]плоскостью в точке, равно отдалённой от границ [гипер]сфер.

Никакая нейронная сеть не сможет более правильно отделить один звук от другого.

Здесь, правда, следует сделать оговорку. Всё это справедливо, если информация о звуке – это облако точек, отклоняющихся от среднего одинаково во всех направлениях, то есть хорошо вписывающееся в гиперсферу. Если бы это облако было фигурой сложной формы, например, 13-мерной изогнутой сосиской, то все приведённые выше рассуждения были бы не верны. И возможно, при правильном обучении, нейронная сеть смогла бы показать здесь свои сильные стороны.

Но я бы не рисковал. А применил бы, например, наборы нормальных распределений (GMM), (что, кстати и сделано в CMU Sphinx). Всегда приятнее, когда ты понимаешь, какой конкретно алгоритм привёл к получению результата. А не как в нейронной сети: Оракул, на основе своего многочасового варения бульона из данных для тренировки, повелевает вам принять решение, что запрашиваемый звук – это звук №3. (Меня особенно напрягает, когда нейронной сети пытаются доверить управление автомобилем. Как потом в нестандартной ситуации понять, из-за чего машина повернула влево, а не вправо? Всемогущий Нейрон повелел?).

Но наборы нормальных распределений – это уже отдельная большая тема, которая выходит за рамки этой статьи.

Надеюсь, что статья была полезной, и/или заставила ваши мозговые извилины поскрипеть.

Очень скоро вся техника, от телефонов до чайников будет оснащена голосовым управлением. доступно уже давно и сейчас секретные лаборатории крупных корпораций работают над усовершенствованием этой технологии. Но уже сегодня вы можете воспользоваться этими технологиями будущего и поуправлять компьютерной техникой с помощью голоса.

Голосовое управление телефоном

Уже не первый год смартфоны на популярнейших платформах (Android, iOS, Windows Phone) имеют встроенную систему голосового управления.


Siri - одно из лучших воплощений искусственного интеллекта в современной технике. Siri - голосовой помощник встроенный в смартфоны iPhone 4S который понимает человеческую речь и может вести диалог с владельцем смартфона. Siri позволяет управлять основными функциями смартфона, создавать задачи, искать любую информацию и т.д.


Лучше меня о Siri вам расскажет видео которое я для вас подготовил. Это отрывок из презентации iPhone 4S как раз на том месте, где один из разработчиков iPhone рассказывает о Siri (если видео не видно - обновите страницу):




Сегодня в Android смартфонах голосовое управление ничуть не уступает Siri (где-то даже превосходит) и выполяет практически те же задачи.

Голосовое управление компьютером

Кроме телефона вы можете научить понимать команды и ваш компьютер. В Windows Vista и Windows 7 тоже имеется встроенная система голосового управления, только она еще не доступна в русскоязычной версии операционной системы. Для того чтобы воспользоваться например, англоязычной системой голосового управления, ваша операционная система должна быть Ultimate (Максимальная) или Enterprise (Корпоративная) и в ней должен быть установлен английский языковой пакет. Но не смотря на все эти ограничения есть другие варианты для того, чтобы начать управлять компьютером с помощью голоса.


Typle - одна из лучших программ позволяющая создавать различные голосовые команды для компьютера . Вы записываете голосовую команду и назначаете действие которое необходимо выполнить после ее произнесения. Typle вполне неплохо справляется со своими обязанностями. Правда команды придется отдавать четким, механическим голосом, чтобы программа смогла распознать их. И еще программа иногда может принять за голосовую команду посторонние звуки. Поэтому не удивляйтесь если после установки и настройки Typle на вашем компьютере начнут происходить необъяснимые события.


Голосовоеуправление.рф - облачный сервис и программа Speaker от российских разработчиков с очень хорошим распознаванием речи. Speaker намного лучше понимает человеческую речь . Еще одним плюсом программы, в отличии от Typle является то, что она начинает "слушать" команды только после нажатия командной клавиши - на данный момент это колесико мыши. Благодаря этому программа не будет выполнять команды когда это не нужно. Но по моему мнению использование колесика в качестве командной клавиши не совсем удобно, потому как оно часто используется в других случаях.


Голосовое управление в браузере Opera . Для поклонников интернет-браузера Opera есть встроенное голосовое управление позволяющее управлять основными функциями браузера голосом. В Opera нет возможности создавать свои команды, а используются уже имеющиеся команды на английском языке. Но я думаю, что мало кого заинтересует такой функционал, когда с помощью мыши и клавиатуры можно выполнить все те же действия с не меньшей скоростью.

Голосовое управление в Google

заслуживает отдельного внимания. Всем известно что Google всегда создает качественные продукты и сервисы. Многие убедились в этом начав например, пользоваться почтой Gmail . На данный момент есть две известные мне возможности голосового управления сервисами Google.


Первая - это поиск информации с помощью голоса в поисковой системе Google. Помогает намного быстрей работать с поисковой системой.


Вторая - Google переводчик , позволяющий надиктовывать текст (пока только) на английском языке и автоматически получать перевод на нужный язык.


Вполне удобно использовать голосовой ввод в Google Translate при чтении текста с учебника английского языка или например, упаковки товара, для быстрого перевода на русский язык необходимой информации.

Голосовое управление в Google Chrome

Расширение OWeb - дополняет собой уже имеющиеся функции голосового управления в Google Chrome. OWeb добавляет возможность надиктовать голосом текст практически на всех сайтах, где подразумевается ввод текста - в формах поиска, в контактных формах, в поле комментариев и т.д. Это конечно не Siri, но тоже отличный способ освободить руки и сэкономить время на набор текста.


Посмотрите видео в котором я покажу вам возможности расширения Oweb и примеры его применения:



Для людей с ограниченными возможностями, а также просто для сибаритов, разработчики ОС создали голосовое управление компьютером. Оно позволяет пользователю вводить информацию при помощи голоса. После проговаривания определенных слов устройство начинает распознавание речи - преобразование звукового сигнала в цифровую информацию. После того, как введенная информация будет корректно распознана – программа переходит к заданному алгоритму действия – выполняет функцию, которая прикреплена к той или иной команде.

Все достаточно просто. Не всегда речь распознается корректно, поэтому для решения сложных задач по управлению операционной системой программа голосового управления компьютером интенсивно не используется. Она применяется для выполнения основных функций: открытия и закрытия файлов, локального и сетевого поиска и пр.

История развития голосового управления

  • Первая система распознавания голоса Audrey была создана в 50-х годах ХХ века. Она расшифровывала лишь цифры, проговоренные одним голосом.
  • В 1962 г была создана первая система распознавания слов. Она расшифровывала 15 англоязычных слов.
  • С развитием компьютеров в 1990 г была разработана программа Dragon Dictate. Она распознавала до 100 слов в минуту, но отличалась высокой ценой.
  • В начале 2000-х годов в iPhone появилось приложение для распознавания речи Google Voice Search. В 2010 году была добавлена система поиска в Android.
  • Siri была включена в программное обеспечение Phone 4S в начале октября 2011 г;
  • в 2014 г была представлена Cortana - голосовая помощница для Windows.

Возможности Cortana и голосового ввода на сегодняшний день

«Кортана» - это виртуальный помощник в операционной системе Windows. Сервис помогает пользователю в планировании дел, напоминает о них.
При определенном запросе сервис поможет собрать конкретную информацию, создать четкую структуру и преподнести ее пользователю в максимально возможно обработанном виде.
Интересно, что сразу при включении виртуальный помощник собирает всю информацию о введенных запросах, личных данных, пытаясь максимально адаптироваться под каждого отдельного пользователя.


Голосовое управление компьютером Windows 7 посредством использования виртуального помощника невозможно – он интегрирован только в десятую версию. Но, как ни жаль, разработчики не удосужились выпустить русскоязычную версию.
Главную роль отыгрывает поиск, который в 10-ке можно открыть через «Пуск». Эта функция определяет практически любые запросы. Если вхождение не распознано – можно ввести соответствующую команду во всплывающее окно и программа голосового управления компьютером считает текстовую информацию.

Неприятный момент – сбор всех данных, введенных через клавиатуру, и их отправка в «Майкрософт».

Сторонние программы

Typle

После выполнения установки переходим к следующему шагу – создаем учетную запись. Здесь необходимо придумать ключевую фразу, после чего прозвучит уведомление об активации.


Дальше нужно будет придумать и создать голосовые команды, независимо от их предназначения. Команда «собака» может запускать приложение или выполнять совсем другое действие.




Просто нужно создать голосовую команду и закрепить ее за определенным действием. Подойдет только для выполнения базовых операций – открытия файлов, папок и пр. Функционал ограничен.

Speaker

Здесь функционал более широкий, нежели в Typle.


Голосовое управление компьютером Windows 10 предоставляет пользователю возможность открывать и закрывать файлы, делать снимки состояния экрана, выключать ПК.


Распознавание речи происходит довольно долго, свыше 3-4 секунд. Это обусловлено тем, что сначала речь преобразуется в текст, а команды распознаются компьютером уже с текстовой информации.

Laitis

Это бесплатная программа, которая позволяет как управлять ПК, так и диктовать текст. После установки необходимо зарегистрироваться и дальше можно пользоваться в свое удовольствие.


Интересна функция автозамены при наборе текста. Вы можете сказать «Кавычки» и в тексте появится соответствующий символ.

Возможности управления голосом через Яндекс.строку

Посредством использования этого приложения можно выполнять локальный или сетевой поиск информации и файлов, перезагрузить или выключить компьютер. Присутствует функция открытия программ и сайтов.
Чтобы воспользоваться программой, необходимо сначала скачать и установить ее.

Но при установке стоит убрать галочки напротив пунктов, где производитель софта предлагает установить браузер, поменять его настройки. В противном случае установка займет больше время и в браузере изменится конфигурация.
В конечном итоге строка размещается около кнопки «Пуск». Скажите «Слушай Яндекс» и откроется окно.

Проговорите запрос.

После паузы в браузере откроется строка поиска. Занимательно управлять поиском таким образом.
В целом, голосовое управление компьютером пока не развито, так как рисуется нам в воображении. Но и те функции, что имеются на сегодняшний день, уже впечатляют и существенно помогают перейти на новый уровень пользования ПК.

Отличного Вам дня!

Развитие технологий не стоит на месте, предоставляя все больше возможностей пользователям. Одной из таких функций, которая из разряда новинок уже стала переходить в нашу повседневную жизнь, является голосовое управление устройствами. Особой популярностью она пользуется у людей с ограниченными возможностями. Давайте узнаем, с помощью каких способов можно вводить команды голосом на компьютерах с Windows 7.

Если в Windows 10 имеется уже встроенная в систему утилита под названием Cortana, позволяющая управлять компьютером голосом, то в более ранних операционных системах, включая Виндовс 7, такого внутреннего инструмента нет. Поэтому в нашем случае единственным вариантом организовать голосовое управление является установка сторонних программ. О различных представителях такого программного обеспечения мы и поговорим в данной статье.

Способ 1: Typle

Одной из самых популярных программ, предоставляющей возможность управления голосом компьютером на Виндовс 7, является Typle.

  1. После загрузки активируйте исполняемый файл данного приложения для начала процедуры его инсталляции на компьютер. В приветственной оболочке установщика жмите «Next» .
  2. Далее отображается лицензионное соглашение на английском языке. Чтобы принять его условия, жмите «I Agree» .
  3. Затем появляется оболочка, где пользователь имеет возможность указать директорию установки приложения. Но без существенных причин изменять текущие настройки не следует. Для активации процесса инсталляции просто нажмите «Install» .
  4. После этого в течение буквально нескольких секунд будет выполнена процедура установки.
  5. Откроется окошко, где будет сообщаться, что операция по инсталляции выполнена успешно. Для того чтобы запустить программу немедленно после установки и разместить её иконку в стартовом меню, поставьте пометки соответственно около позиций «Run Typle» и «Launch Typle on Startup» . Если вы не желаете этого делать, то, наоборот, снимите флажок около соответствующей позиции. Для выхода из окна установки жмите «Finish» .
  6. Если вы при завершении работы в установщике оставили пометку около соответствующей позиции, то сразу же после его закрытия будет открыто окно интерфейса Typle. Для начала в программе потребуется добавить нового пользователя. Для этого нажмите на панели инструментов на иконку «Добавить пользователя» . Эта пиктограмма содержит в себе изображение человеческого лица и знак «+» .
  7. Затем нужно вписать название профиля в поле «Введите имя» . Сюда можете внести данные абсолютно произвольно. В поле «Введите ключевое слово» нужно указать конкретное слово обозначающее действие, например, «Открой» . Вслед за этим щелкните по красной кнопке и после звукового сигнала произнесите данное слово в микрофон. После того как вы скажете фразу, повторно нажмите на эту же кнопку, а затем щелкайте по «Добавить» .
  8. Затем откроется диалоговое окно с вопросом «Хотели бы вы добавить этого пользователя?» . Жмите «Да» .
  9. Как видим, имя пользователя и прикрепленное к нему ключевое слово отобразится в основном окне Typle. Теперь жмите на иконку «Добавить команду» , которая представляет собой изображение руки с зеленым значком «+» .
  10. Открывается окошко, в котором нужно будет выбрать, что конкретно вы будете запускать посредством голосовой команды:
    • Программы;
    • Закладки интернета;
    • Файлы Windows.

    Путем установки галочки около соответствующего пункта отображаются элементы выбранной категории. Если же вы желаете просмотреть полный набор, то установите пометку около позиции «Выделить все» . Затем выберите элемент в списке, который собираетесь запускать голосом. В поле «Команда» отобразится его наименование. Затем щелкните по кнопке «Запись» с красным кружочком справа от этого поля и после звукового сигнала произнесите ту фразу, которая в нем отображена. После этого жмите кнопку «Добавить» .

  11. Откроется диалоговое окошко, где будет спрашиваться «Хотели бы вы добавить эту команду?» . Жмите «Да» .
  12. После этого выходите из окна добавления командной фразы, нажав кнопку «Закрыть» .
  13. На этом добавление голосовой команды завершено. Для того чтобы запустить нужную программу голосом, нажмите «Начать говорить» .
  14. Откроется диалоговое окно, где будет сообщаться: «Текущий файл был изменен. Хотите ли вы записать изменения?» . Жмите «Да» .
  15. Появляется окно сохранения файла. Перейдите в директорию, где намерены сохранить объект с расширением tc. В поле «Имя файла» введите его произвольное название. Жмите «Сохранить» .
  16. Теперь, если вы произнесете в микрофон выражение, которое отображается в поле «Команда» , то запустится приложение или другой объект, указанный напротив него в области «Действия» .
  17. Полностью аналогичным образом можно записывать и другие командные фразы, с помощью которых будут запускаться приложения или выполняться определенные действия.

Главный недостаток данного способа заключается в том, что разработчики в настоящее время не поддерживают программу Typle и её нельзя скачать на официальном сайте. К тому же наблюдается не всегда корректное распознавание русской речи.

Способ 2: Speaker

Следующее приложение, которое поможет управлять компьютером голосом, называется Speaker.

  1. После скачивания запустите инсталляционный файл. Появится приветственное окошко «Мастера установки» приложения Speaker. Тут просто жмите «Далее» .
  2. Появляется оболочка принятия лицензионного соглашения. Если есть желание, то прочитайте его, а затем ставьте радиокнопку в положение «Я принимаю…» и нажмите «Далее» .
  3. В следующем окне можно указать директорию инсталляции. По умолчанию это стандартный каталог приложений и без надобности данный параметр менять не нужно. Жмите «Далее» .
  4. Далее откроется окно, где можно установить название иконки приложения в меню «Пуск» . По умолчанию это «Speaker» . Вы можете оставить это наименование или заменить на любое другое. Затем нажмите «Далее» .
  5. Теперь откроется окошко, где методом установки пометки около соответствующей позиции можно разместить значок программы на «Рабочем столе» . Если вам это не нужно, снимите галочку и жмите «Далее» .
  6. После этого откроется окно, где будут даны краткие характеристики параметров установки на основе той информации, которую мы ввели на предыдущих этапах. Для активирования инсталляции нажмите «Установить» .
  7. Будет выполнена процедура установки Speaker.
  8. После её окончания в «Мастере установки» отобразится сообщение об успешной инсталляции. Если необходимо, чтобы программа была активирована немедленно после закрытия установщика, то оставьте пометку около соответствующей позиции. Жмите «Завершить» .
  9. После этого запустится небольшое окно приложения Speaker. В нем будет сказано, что для распознавания голоса нужно нажать на среднюю кнопку мышки (скролл) или на клавишу Ctrl . Для добавления новых команд следует кликнуть по знаку «+» в этом окошке.
  10. Открывается окошко добавления новой командной фразы. Принципы действий в нем аналогичны тем, которые мы рассматривали в предыдущей программе, но с более широким функционалом. Прежде всего, выберите тип действия, который вы собираетесь выполнить. Это можно сделать, щелкнув по полю с выпадающим списком.
  11. В раскрывшемся перечне будут следующие варианты:
    • Выключить компьютер;
    • Перезагрузить компьютер;
    • Поменять раскладку (язык) клавиатуры;
    • Сделать (скриншот) снимок экрана;
    • Я добавляю ссылку или файл.
  12. Если первые четыре действия не требуют дополнительного уточнения, то при выборе последнего варианта нужно указать, какую именно ссылку или файл вы желаете открыть. В этом случае нужно в расположенное выше поле перетащить объект, который собираетесь открывать голосовой командой (исполняемый файл, документ и т.д.) или ввести ссылку на сайт. В этом случае адрес будет открыт в браузере по умолчанию.
  13. Далее в расположенное в окошке справа поле введите командную фразу, после произнесения которой будет выполняться назначенное вами действие. Жмите на кнопку «Добавить» .
  14. После этого команда будет добавлена. Таким образом можно добавлять практически неограниченное количество различных командных фраз. Просмотреть их список можно, нажав по надписи «Мои команды» .
  15. Откроется окно с перечнем внесенных командных выражений. При необходимости можете очистить список от любого из них, щелкнув по надписи «Удалить» .
  16. Программа будет работать в трее и для того, чтобы выполнить действие, которое предварительно было внесено в список команд, требуется щелкнуть Ctrl или колесиком мышки и произнести соответствующее кодовое выражение. Необходимое действие будет выполнено.

К сожалению, данная программа, как и предыдущая, в данный момент уже не поддерживается производителями и её нельзя скачать на официальном сайте. Также к минусам можно отнести тот факт, что приложение распознает голосовую команду с внесенной текстовой информации, а не по предварительной начитке голосом, как это было с Typle. Это значит, что потребуется большее время на выполнение операции. Кроме того, Speaker отличается нестабильностью в работе и может не на всех системах функционировать корректно. Но в целом, он предоставляет гораздо больше возможностей по управлению компьютером, чем это делает Typle.

Способ 3: Laitis

Следующая программа, предназначение которой состоит в управлении голосом компьютерами на Виндовс 7, называется Laitis.

  1. Laitis хорош тем, что достаточно только активировать инсталляционный файл и вся процедура по установке будет выполнена в фоновом режиме без вашего непосредственного участия. Кроме того, этот инструмент, в отличие от предыдущих приложений, предоставляет довольно большой перечень уже готовых командных выражений, которые значительно разнообразней, чем у вышеописанных конкурентов. Например, можно осуществлять навигацию по странице. Для того чтобы просмотреть список заготовленных фраз, перейдите во вкладку «Команды» .
  2. В открывшемся окне все команды разделены на коллекции, соответствующие определенной программе или сфере действий:
    • Google Chrome (41 команда);
    • Вконтакте (82);
    • Windows программы (62);
    • Windows хоткеи (30);
    • Skype (5);
    • YouTube HTML5 (55);
    • Работа с текстом (20);
    • Вебсайты (23);
    • Настройки Laitis (16);
    • Адаптивные команды (4);
    • Сервисы (9);
    • Мышь и клавиатура (44);
    • Общение (0);
    • Автозамена (0);
    • Word 2017 рус (107).

    Каждая коллекция, в свою очередь, делится на категории. В категориях написаны сами команды, причем выполнить одно и то же действие можно путем произнесения нескольких вариантов командных выражений.

  3. При щелчке по команде во всплывающем окошке отображается полный перечень голосовых выражений, которые ей соответствуют, и действий, вызываемые ею. А при щелчке по иконке карандаша можно её отредактировать.
  4. Все командные фразы, которые отображаются в окне, доступны для выполнения сразу же после запуска Laitis. Для этого достаточно просто сказать соответствующее выражение в микрофон. Но при необходимости пользователь может добавлять новые коллекции, категории и команды, нажав на знак «+» в соответствующих местах.
  5. Для добавления новой командной фразы в открывшемся окне под надписью «Голосовые команды» впишите то выражение, при произношении которого инициируется действие.
  6. Тут же будут автоматически добавлены все возможные сочетания данного выражения. Жмите по значку «Условие» .
  7. Будет открыт список условий, где и можно выбрать подходящее.
  8. После того как условие отобразилось в оболочке, нажмите иконку «Действие» либо «Веб-действие» , в зависимости от цели.
  9. Из открывшегося списка выберите конкретное действие.
  10. Если вы выбрали переход на веб-страницу, придется дополнительно указать её адрес. После того как все необходимые манипуляции произведены, жмите «Сохранить изменения» .
  11. Командная фраза будет добавлена в список и готова к применению. Для этого достаточно просто произнести её в микрофон.
  12. Кроме того, перейдя во вкладку «Настройки» , можно выбрать из списков сервис распознавания текста и сервис произношения голоса. Это полезно, если текущие сервисы, которые установлены по умолчанию, не справляются с нагрузкой или по другой причине недоступны в данное время. Тут же можно указать и некоторые другие параметры.

В целом нужно отметить, что использование Laitis для управления голосом Windows 7 предоставляет гораздо больше возможностей по манипулированию ПК, чем применение всех остальных, описанных в данной статье программ. С помощью указанного инструмента вы можете задать практически любое действие на компьютере. Также очень важен тот факт, что разработчики в настоящее время активно поддерживают и обновляют данное ПО.

Способ 4: «Алиса»

Одной из новых разработок, которые позволяют организовать управление Виндовс 7 голосом, является голосовой помощник от компании Яндекс — «Алиса».

  1. Запустите установочный файл программы. Он выполнит процедуру установки и настройки в фоновом режиме без вашего непосредственного участия.
  2. После завершения процедуры инсталляции на «Панели инструментов» появится область «Алиса» .
  3. Для активации голосового помощника нужно кликнуть по пиктограмме в форме микрофона или сказать: «Привет, Алиса» .
  4. После этого откроется окошко, где будет предложено произнести команду голосом.
  5. Чтобы ознакомиться со списком команд, которые умеет выполнять данная программа, нужно кликнуть по вопросительному знаку в текущем окошке.
  6. Откроется перечень возможностей. Чтобы узнать, какую фразу нужно произнести для выполнения конкретного действия, щелкните по соответствующему пункту списка.
  7. Отобразится список команд, которые нужно произнести в микрофон для выполнения конкретного действия. К сожалению, добавление новых голосовых выражений и соответствующих им действий в актуальной версии «Алисы» не предусмотрено. Поэтому придется использовать только те варианты, которые есть в настоящее время. Но Яндекс постоянно развивает и усовершенствует данный продукт, а поэтому, вполне возможно, вскоре стоит ожидать от него новых возможностей.

Несмотря на то, что в Windows 7 разработчиками не был предусмотрен встроенный механизм управления компьютером голосом, данную возможность можно реализовать при помощи стороннего программного обеспечения. Для этих целей существует немало приложений. Одни из них максимально простые и предусмотрены для выполнения наиболее частых манипуляций. Другие же программы, наоборот, очень продвинутые и содержат в себе огромную базу командных выражений, но кроме того позволяют добавлять ещё новые фразы и действия, тем самым функционально максимально приближая голосовое управление к стандартному управлению через мышку и клавиатуру. Выбор конкретного приложения зависит от того, для каких целей и как часто вы намерены его использовать.

Сегодня голосовые помощники стали неотъемлемой частью жизни. С каждым днем все больше людей выбирает виртуальных ассистентов, заменяя мышку и клавиатуру. Искусственный интеллект помогает решать простые задачи с помощью голосового ввода. После ввода информации, помощник распознает сказанную речь и начинает функционировать. Говорите четко и внятно, чтобы помощник корректно выполнил запрос. Он может подсказать маршрут, новости дня, найти музыку, показать погоду, ответить на простой вопрос. Самые распространенные голосовые помощники для ПК: Cortana, Typle, Speaker, Ok Google, Горыныч, .

Cortana для Windows

«Cortana» — голосовой помощник, интегрированный в операционную систему и созданный компанией Microsoft. Помощница предназначается прежде всего для Windows, но также в качестве приложений работает на платформах iOS, Android, Xbox One, Microsoft Phone, Microsoft Band. «Cortana» поможет систематизировать и распланировать ваши задачи и планы на определенный период, напоминает о выполнении каких-либо действий, предоставляет по вашему запросу информацию. Также имеет встроенный функционал для ответов на общие вопросы, используя поиск Bing. В функционал входит прокладка маршрута, информация о состоянии дорог, поможет не опаздывать. Вводить информацию можно с помощью голоса и клавиатуры в текстовой форме. Она поддерживает разговор: поет песни, присылает анекдоты – не лишена чувства юмора.

К особенностям можно отнести такую функцию, как предугадывание желаний пользователя. Если дать доступ к личным данным, виртуальный помощник от Microsoft будет «подстраиваться» под вас, постоянно анализируя ваши действия: места, в которых вам нравится находиться; ваши предпочтения в тех или иных вещах; ваши долгосрочные интересы, хобби и многое другое.

Виртуальный ассистент Cortana тесно связана с операционной системой и может управлять Windows 10 и отдельными приложениями во время вашей работы: поможет прочитать Ваши электронные письма, отследить местоположение, проверить список контактов, следить за календарем, управлять музыкой и напоминания, охватывая многочисленные музыкальные приложения и контролируя звук в соответствии с предпочтениями пользователя.

Есть возможно синхронизации нескольких устройств. Cortana будет поддерживать актуальность на нескольких компьютерах одновременно.

Алиса Яндекс (десктопная версия)

Алиса – голосовой помощник, и . Алиса может показать прогноз погоды, найти данные об общественных местах, найти музыку, проводить конвертацию валют, решает несложные математические вычисления и может поддержать разговор. Программа очень молодая и все время совершенствуется. «Алиса» позволяет вести диалог в текстовом виде и голосовом. Голосовой помощник Алиса способен понимать смысл ваших фраз: «Где здесь можно пошопиться?», она понимает: «Где здесь магазины?».

Поисковая строка Яндекс или другое название – Яндекс.Строка находится в панели задач операционной системы Windows. Поисковая строка Яндекс умеет находить на просторах Интернета информацию, которую пользователь вводить с помощью голоса или текста. Пользователь может задать команду открыть любую папку и документ, расположенные на компьютере. Программа открывается на портативном компьютере с помощью нажатия кнопки Строки или же горячих клавиш. По сути это частный случай Алисы для ПК. Для экономии места на панели задач 8 см кнопку заменяют на иконку с микрофоном. Подробнее способах отображения помощника на ПК в статье .

Typle — голосовое управление компьютером

Программа разработана для операционной системы Windows. Здесь не нужны знания английского языка, нет возможности работы с плеером и нет восприятия текстовой формы. Из-за ограниченного количества функций программа кажется не такой эффективной и функциональной в использовании. Ограниченность помощника заключается в открывании лишь утилитов и Интернет-страниц. Программа понимает шумы из вне, как команды для выполнения, отчего компьютер может работать не корректно. Голосовой помощник быстро выполняет поставленные задачи. После скачивания программы, можно придумать главное высказывание, которое дает сигнал работы.

Горыныч

Отечественная разработка голосового помощника, для управления ПК операционной системы Windows 7, XP, Vista. Размер 30,4 мб. Язык русский и английский. В основе идеи лежит приложение «Dragon Dictate», которое создано западными специалистами. Голосовой помощник выполняет все среднестатистические команды, которые выполняют его аналоги. С помощью голоса, пользователь может открывать любые папки в компьютере. Эта функция подобна функции из программы Typle. Особенностью голосового помощника «Горыныч» считается ввод текста в Word с помощью собственного голоса. Минус подобной функции в том, что речь пользователя должна быть без дефектов и четкой. Со временем программа запоминает голос владельца компьютера и начинает быстрее выполнять команды.

Speaker — голосовое управление компьютером

Speaker – голосовой помощник и программное обеспечение, которое используется в операционной системе Windows. Программное обеспечение отличается от остальных более широким функционалом. Пользователь может открывать и закрывать различные папки на ПК, делать фото экрана. Для работы со «Speaker» необходимо иметь стабильное Интернет-соединение. Управление программой осуществляется с помощью клавиатуры, что не всегда удобно. Голосовая функция оставляет желать лучшего: обработка речи по времени занимает 5 секунд, что долго. Программа преобразует речь в текст.

Ok Google для ПК

Окей Гугл — голосовой помощник и одновременно часть поисковой системы. У программы есть много функций: планирование событий (установка напоминаний), отслеживание почтовых отправлений, переход на любой сайт, поиск музыкальных композиций, нахождение адресов общественных мест и др. Особенность программы: после выполнения команды, программа дополняет сама информацию. Программа имеет плюсы: бесплатность и стабильная работа. Минусы: подробная настройка программы. Ассистент встроен в браузер Google Chrome, доступен для ПК, Android, iOS.

Siri на компьютер

Siri — голосовой ассистент, работающий на устройствах от компании Apple: iOS, iPhone, iPad и iPod touch и ноутбуках с macOS Sierra. На «яблочных» гаджетах Сири установлена по умолчанию, все что вам необходимо — активировать ее в настройках устройства.

С помощью эмулятора можно установить на Windows 7-10, размер файла 79 Мб. Программа преобразовывает речь человека, впоследствии давая пользователю рекомендации. Американский ассистент может выполнять простые команды, подобно другим. Отлично «понимает» русскую речь. Для работы необходимо подключение к интернету.

Так же читают:

Не нашли ответ, пишите в комментарии или обратную связь.