Закон Ципфа
Закон Ципфа - это эмпирический закон, сформулированный с использованием математической статистики, названный в честь лингвиста Джорджа Кингсли Ципфа, который впервые предложил его.
Закон Ципфа гласит, что при большой выборке используемых слов частота любого слова обратно пропорциональна его рангу в таблице частот. Таким образом, слово номер n имеет частоту, пропорциональную 1/n.
Таким образом, наиболее часто встречающееся слово будет встречаться примерно в два раза чаще, чем второе наиболее часто встречающееся слово, в три раза чаще, чем третье наиболее часто встречающееся слово, и т.д. Например, в одной выборке слов в английском языке наиболее часто встречающееся слово - "the" - составляет почти 7% всех слов (69 971 из немногим более 1 миллиона). В соответствии с законом Zipf, слово "of", занимающее второе место, составляет чуть более 3,5% слов (36 411 случаев), за которым следует слово "и" (28 852). На долю половины выборки слов в большой выборке приходится всего около 135 слов.
Такая же связь наблюдается и во многих других рейтингах, не связанных с языком, например, с рейтингом населения городов в разных странах, размерами корпораций, доходами и т.д. Появление распределения в рейтингах городов по численности населения впервые было замечено Феликсом Ауэрбахом в 1913 году.
Неизвестно, почему закон Zipf распространяется на большинство языков.
Вопросы и ответы
В: Что такое закон Ципфа?
О: Закон Ципфа - это эмпирический закон, утверждающий, что частота встречаемости слова в большой выборке обратно пропорциональна его рангу в таблице частот.
В: Кто предложил закон Ципфа?
О: Закон Ципфа был впервые предложен Джорджем Кингсли Ципфом, лингвистом.
В: Как закон Ципфа объясняет частоту слов в выборке английских слов?
О: Согласно закону Ципфа, наиболее частое слово в выборке английских слов встречается примерно в два раза чаще, чем второе по частоте слово, в три раза чаще, чем третье по частоте слово, и т.д. Эта тенденция сохраняется по мере уменьшения ранга слова.
В: Какой процент от всех слов составляет наиболее часто встречающееся слово в одной выборке английских слов?
О: В одной выборке английских слов наиболее часто встречающееся слово ("the") составляет почти 7% всех слов.
В: Какова зависимость между количеством слов, необходимых для учета половины выборки, и частотой этих слов?
О: Согласно закону Ципфа, для того, чтобы учесть половину выборки слов в большой выборке, требуется всего около 135 слов.
В: Какие еще ранги демонстрируют закон Ципфа?
О: Та же самая зависимость, которую закон Ципфа описывает в частоте слов, проявляется и в других ранжированиях, не связанных с языком, например, в ранжировании численности населения городов различных стран, размеров корпораций и доходов.
В: Кто обратил внимание на появление распределения в рейтингах городов по численности населения?
О: Появление распределения в рейтингах городов по численности населения впервые было замечено Феликсом Ауэрбахом в 1913 году.