Loading...
Способность к предсказанию следующего слова в речи собеседника или при чтении может позволить нам быстрее обрабатывать информацию. Недавние работы показали, что во время чтения люди могут предсказывать не только конкретное слово, но и его отдельные признаки (например, часть речи или семантическую группу). Чтобы оценить предсказуемость того или иного слова в контексте, исследователи обычно используют задание на заполнение пропусков в предложении. Другой вариант — использование языковых моделей, которые предлагают вероятности для слов, опираясь на большой корпус текстов.
Однако практически не существует исследований, которые бы сравнивали вероятности, полученные из задания на заполнение пропусков в предложении с вероятностями из языковой модели. Кроме того, никто не пробовал моделировать мало изученную грамматическую предсказуемость слов. Авторы статьи решили проверить, будут ли носители русского языка предсказывать грамматические признаки слов, и смогут ли вероятности из языковой модели стать адекватной заменой вероятностям из задания на заполнение пропусков в предложении.
Ученые проанализировали ответы 605 носителей языка в задании на заполнение пропусков и обнаружили, что точно угадать слово люди могут примерно в 18% случаев. При этом точное угадывание частей речи и морфологических признаков слов варьировалась от 63% до 78%. Обнаружилось, что нейронная сетевая модель, обученная на Национальном корпусе русского языка, предсказывает конкретные слова и грамматические признаки с точностью, сопоставимой с ответами людей в эксперименте.
Для оценки влияния вероятностей на скорость чтения ученые использовали данные о движениях глаз при чтении тех же самых предложений. Оказалось, что чем выше вероятность угадать часть речи, род и число существительных, а также время глаголов, тем быстрее человек прочитывал слова с этими признаками.
Таким образом, в таком богатом морфологией языке, как русский, предсказание в большой степени связано с предугадыванием грамматических признаков слова. Вероятности грамматических признаков, полученные из нейронной сетевой модели, объясняли скорость чтения так же хорошо, как и экспериментальные вероятности. Кроме того, вероятности конкретных слов, полученные из языковой модели, объясняли скорость чтения немного иначе, чем вероятности, полученные от людей в эксперименте. Вероятно, такой результат связан с разными источниками для корпусной и экспериментальной вероятностей: корпусные меры точнее для маловероятных слов, а экспериментальные — для высоковероятных слов.
Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Одноклассники.