Закон Ципфа

Закон Ципфа - это эмпирический закон, сформулированный с использованием математической статистики, названный в честь лингвиста Джорджа Кингсли Ципфа, который впервые предложил его.

Закон Ципфа гласит, что при большой выборке используемых слов частота любого слова обратно пропорциональна его рангу в таблице частот. Таким образом, слово номер n имеет частоту, пропорциональную 1/n.

Таким образом, наиболее часто встречающееся слово будет встречаться примерно в два раза чаще, чем второе наиболее часто встречающееся слово, в три раза чаще, чем третье наиболее часто встречающееся слово, и т.д. Например, в одной выборке слов в английском языке наиболее часто встречающееся слово - "the" - составляет почти 7% всех слов (69 971 из немногим более 1 миллиона). В соответствии с законом Zipf, слово "of", занимающее второе место, составляет чуть более 3,5% слов (36 411 случаев), за которым следует слово "и" (28 852). На долю половины выборки слов в большой выборке приходится всего около 135 слов.

Такая же связь наблюдается и во многих других рейтингах, не связанных с языком, например, с рейтингом населения городов в разных странах, размерами корпораций, доходами и т.д. Появление распределения в рейтингах городов по численности населения впервые было замечено Феликсом Ауэрбахом в 1913 году.

Неизвестно, почему закон Zipf распространяется на большинство языков.

Вопросы и ответы

В: Что такое закон Ципфа?


О: Закон Ципфа - это эмпирический закон, утверждающий, что частота встречаемости слова в большой выборке обратно пропорциональна его рангу в таблице частот.

В: Кто предложил закон Ципфа?


О: Закон Ципфа был впервые предложен Джорджем Кингсли Ципфом, лингвистом.

В: Как закон Ципфа объясняет частоту слов в выборке английских слов?


О: Согласно закону Ципфа, наиболее частое слово в выборке английских слов встречается примерно в два раза чаще, чем второе по частоте слово, в три раза чаще, чем третье по частоте слово, и т.д. Эта тенденция сохраняется по мере уменьшения ранга слова.

В: Какой процент от всех слов составляет наиболее часто встречающееся слово в одной выборке английских слов?


О: В одной выборке английских слов наиболее часто встречающееся слово ("the") составляет почти 7% всех слов.

В: Какова зависимость между количеством слов, необходимых для учета половины выборки, и частотой этих слов?


О: Согласно закону Ципфа, для того, чтобы учесть половину выборки слов в большой выборке, требуется всего около 135 слов.

В: Какие еще ранги демонстрируют закон Ципфа?


О: Та же самая зависимость, которую закон Ципфа описывает в частоте слов, проявляется и в других ранжированиях, не связанных с языком, например, в ранжировании численности населения городов различных стран, размеров корпораций и доходов.

В: Кто обратил внимание на появление распределения в рейтингах городов по численности населения?


О: Появление распределения в рейтингах городов по численности населения впервые было замечено Феликсом Ауэрбахом в 1913 году.

AlegsaOnline.com - 2020 / 2023 - License CC3