Триграмма (анализ текста)

Материал из Википедии — свободной энциклопедии

Триграммы являются частным случаем n-грамм, где n равно 3. Они часто используются в обработке естественного языка для проведения статистического анализа текстов и в криптографии для контроля и использования шифров и кодов.

Частотность

Контекст очень важен, варьирование рангов и процентов анализа легко выводится на основе разных размеров выборки, разных авторов; или разных типов документов: поэзия, научная фантастика, технологическая документация; и уровней написания: рассказы для детей против взрослых, военные приказы и рецепты. [1][2]

Типичный криптоаналитический частотный анализ показывает, что 16 наиболее распространенными триграммами уровня символов в английском языке являются:

Место[2] Триграмма Частотность[3]
(Разные источники)
1 the 1.81 %
2 and 0.73 %
3 tha 0.33 %
4 ent 0.42 %
5 ing 0.72 %
6 ion 0.42 %
7 tio 0.31 %
8 for 0.34 %
9 nde
10 has
11 nce
12 edt
13 tis
14 oft 0.22 %
15 sth 0.21 %
16 men

Поскольку в шифрованных сообщениях, отправляемых по телеграфу, часто опускаются знаки препинания и пробелы, криптографический частотный анализ таких сообщений включает триграммы, которые пересекают границы слов. Это приводит к тому, что такие триграммы, как «edt», встречаются часто, хотя они могут никогда не встречаться ни в одном слове этих сообщений.[4]

Примеры

Предложение «The quick red fox jumps over the lazy brown dog» имеет следующие триграммы на уровне слов:

the quick red
quick red fox
red fox jumps
fox jumps over
jumps over the
over the lazy
the lazy brown
lazy brown dog

А триграмма уровня слова «the quick red» имеет следующие триграммы уровня символов (где знак подчеркивания «_» обозначает пробел):

the
he_
e_q
_qu
qui
uic
ick
ck_
k_r
_re
red

Примечания

  1. Linton, Tom. Relative Frequencies of Letters in General English Plain text. Central College (2001). Архивировано из оригинала 22 января 2007 года.
  2. The Mathematical Association of America, 2000. — P. 37. — ISBN 978-0-88385-719-9
    .
  3. English Letter Frequencies. Practical Cryptography. Дата обращения: 31 мая 2022. Архивировано 12 мая 2022 года.
  4. Voice Search SEO. Fuelonline. Дата обращения: 31 мая 2022. Архивировано 25 сентября 2021 года.