закон Зипфа

Закон Ципфа - это эмпирический закон, сформулированный с использованием математической статистики, названный в честь лингвиста Джорджа Кингсли Ципфа, который впервые предложил его.

Закон Ципфа гласит, что при большой выборке используемых слов частота любого слова обратно пропорциональна его рангу в таблице частот. Таким образом, слово номер n имеет частоту, пропорциональную 1/n.

Таким образом, наиболее часто встречающееся слово будет встречаться примерно в два раза чаще, чем второе наиболее часто встречающееся слово, в три раза чаще, чем третье наиболее часто встречающееся слово, и т.д. Например, в одной выборке слов в английском языке наиболее часто встречающееся слово - "the" - составляет почти 7% всех слов (69 971 из немногим более 1 миллиона). В соответствии с законом Zipf, слово "of", занимающее второе место, составляет чуть более 3,5% слов (36 411 случаев), за которым следует слово "и" (28 852). На долю половины выборки слов в большой выборке приходится всего около 135 слов.

Такая же связь наблюдается и во многих других рейтингах, не связанных с языком, например, с рейтингом населения городов в разных странах, размерами корпораций, доходами и т.д. Появление распределения в рейтингах городов по численности населения впервые было замечено Феликсом Ауэрбахом в 1913 году.

Неизвестно, почему закон Zipf распространяется на большинство языков.

AlegsaOnline.com - 2020 - License CC3