Вернуться к главной статье.

Пример статистического исследования текста
поэмы А.С. Пушкина "Евгений Онегин"



В данном исследовании проведен анализ отрывка поэмы, который содержит 20000 букв русского алфавита, за исключением твердого и мягкого знаков. Этот отрывок содержит в себе первую главу романа и шестнадцать строф второй главы.

Из этой последовательности получается соответственно 20000 связанных между собой гласных или согласных букв. Предположим, существует неизвестная постоянная p, которая обозначает вероятность того, что буква, встреченная в тексте, является гласной. Можно определить приближенное значение p путем специальных наблюдений и подсчетов всех гласных и согласных. Вместе с p мы найдем (так же через наблюдения) приближенные значения двух чисел p1 и p0, и четырех чисел p1,1 , p1,0 , p0,1 , и p0,0 . Они представляют следующие вероятности: p1 - за гласной следует гласная, p0 - за согласной следует гласная, p1,1 -за двумя гласными следует гласная, p1,0 - согласная между двумя гласными, p0,1 - перед двумя гласными находится согласная и p0,0- гласная после двух согласных.

Индексы удовлетворяют некоторой системе, которую Марков ввел в своих работах "Примеры связей в сложных цепях" (1911 год) и "Исследование замечательного случая зависимых выборок" (1907 год), однако, p0= p2 . Обозначим противоположную вероятность для согласной q и введем индексы аналогичные p. Для поиска p необходимо найти 200 приближенных значений, из которых определим среднее арифметическое. Для большей точности разделим всю последовательность 20000 букв на 200 отдельных подпоследовательностей по 100 букв в каждой и посчитаем количество гласных в каждой сотне. Получим 200 значений, которые при делении на 100 дадут в результате 200 приближенных значений p.

следующая страница >>