Loading...

angelos212/Pixabay

Ученые из НИУ ВШЭ выяснили, что при чтении люди могут предсказывать не только конкретные слова, но и их грамматические признаки, что позволяет читать быстрее. Кроме этого ученые определили, что предсказуемость слов и грамматических признаков можно успешно моделировать при помощи нейронных сетей. Исследование опубликовано в журнале PLOS ONE.

Способность к предсказанию следующего слова в речи собеседника или при чтении может позволить нам быстрее обрабатывать информацию. Недавние работы показали, что во время чтения люди могут предсказывать не только конкретное слово, но и его отдельные признаки (например, часть речи или семантическую группу). Чтобы оценить предсказуемость того или иного слова в контексте, исследователи обычно используют задание на заполнение пропусков в предложении. Другой вариант — использование языковых моделей, которые предлагают вероятности для слов, опираясь на большой корпус текстов.

Однако практически не существует исследований, которые бы сравнивали вероятности, полученные из задания на заполнение пропусков в предложении с вероятностями из языковой модели. Кроме того, никто не пробовал моделировать мало изученную грамматическую предсказуемость слов. Авторы статьи решили проверить, будут ли носители русского языка предсказывать грамматические признаки слов, и смогут ли вероятности из языковой модели стать адекватной заменой вероятностям из задания на заполнение пропусков в предложении.

Ученые проанализировали ответы 605 носителей языка в задании на заполнение пропусков и обнаружили, что точно угадать слово люди могут примерно в 18% случаев. При этом точное угадывание частей речи и морфологических признаков слов варьировалась от 63% до 78%. Обнаружилось, что нейронная сетевая модель, обученная на Национальном корпусе русского языка, предсказывает конкретные слова и грамматические признаки с точностью, сопоставимой с ответами людей в эксперименте.

Для оценки влияния вероятностей на скорость чтения ученые использовали данные о движениях глаз при чтении тех же самых предложений. Оказалось, что чем выше вероятность угадать часть речи, род и число существительных, а также время глаголов, тем быстрее человек прочитывал слова с этими признаками.

Таким образом, в таком богатом морфологией языке, как русский, предсказание в большой степени связано с предугадыванием грамматических признаков слова. Вероятности грамматических признаков, полученные из нейронной сетевой модели, объясняли скорость чтения так же хорошо, как и экспериментальные вероятности. Кроме того, вероятности конкретных слов, полученные из языковой модели, объясняли скорость чтения немного иначе, чем вероятности, полученные от людей в эксперименте. Вероятно, такой результат связан с разными источниками для корпусной и экспериментальной вероятностей: корпусные меры точнее для маловероятных слов, а экспериментальные — для высоковероятных слов.


Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Одноклассники.