Статистика
Статистика - это отрасль прикладной математики, занимающаяся сбором, организацией, анализом, интерпретацией и представлением данных. Описательная статистика обобщает данные. Инференциальная статистика позволяет делать прогнозы. Статистика помогает в изучении многих других областей, таких как наука, медицина, экономика, психология, политика и маркетинг. Того, кто работает в области статистики, называют статистиком. Помимо названия области исследования, слово "статистика" также относится к числам, которые используются для описания данных или отношений.
История
Первые известные статистические данные - это данные переписи населения. Вавилоняне провели перепись населения около 3500 г. до н.э., египтяне - около 2500 г. до н.э., а древние китайцы - около 1000 г. до н.э.
Начиная с XVI века математики, такие как Джероламо Кардано, разработали теорию вероятности, благодаря которой статистика стала наукой. С тех пор люди собирали и изучали статистические данные о многих вещах. Деревья, морские звезды, звезды, камни, слова - почти все, что можно сосчитать, было предметом статистики.
Сбор данных
Прежде чем описывать мир с помощью статистики, мы должны собрать данные. Данные, которые мы собираем в статистике, называются измерениями. После сбора данных мы используем одно или несколько чисел для описания каждого наблюдения или измерения. Например, предположим, мы хотим выяснить, насколько популярно определенное телешоу. Мы можем выбрать группу людей (называемую выборкой) из общего числа зрителей. Затем мы спросим каждого зрителя в выборке, как часто он смотрит это шоу. Выборка - это данные, которые вы можете видеть, а совокупность - это данные, которые вы не можете видеть (поскольку вы не спрашивали каждого зрителя в совокупности). Другой пример: если мы хотим узнать, может ли определенное лекарство помочь снизить кровяное давление, мы можем дать это лекарство людям на некоторое время и измерить их кровяное давление до и после.
Описательная и выводная статистика
Числа, описывающие данные, которые можно увидеть, называются описательной статистикой. Числа, которые делают прогнозы относительно данных, которые вы не можете увидеть, называются инференциальной статистикой.
Описательная статистика предполагает использование чисел для описания характеристик данных. Например, средний рост женщин в США - это описательная статистика, которая описывает характеристику (средний рост) населения (женщин в США).
После обобщения и описания результатов их можно использовать для прогнозирования. Это называется инференциальной статистикой. Например, размер животного зависит от многих факторов. Некоторые из этих факторов контролируются окружающей средой, но другие передаются по наследству. Поэтому биолог может составить модель, которая утверждает, что существует высокая вероятность того, что потомство будет маленького размера, если родители были маленького размера. Эта модель, вероятно, позволяет предсказать размер лучше, чем просто угадывание наугад. Проверка того, можно ли использовать определенное лекарство для лечения определенного состояния или болезни, обычно проводится путем сравнения результатов людей, которым давали лекарство, с результатами людей, которым давали плацебо.
Методы
Чаще всего мы собираем статистические данные путем проведения опросов или экспериментов. Например, опрос общественного мнения - это один из видов опроса. Мы выбираем небольшое количество людей и задаем им вопросы. Затем мы используем их ответы в качестве данных.
Выбор того, каких людей брать для опроса или сбора данных, очень важен, поскольку он напрямую влияет на статистику. Когда статистика готова, уже нельзя определить, какие именно люди были взяты. Предположим, мы хотим измерить качество воды в большом озере. Если мы возьмем пробы рядом со сточной канавой, мы получим другие результаты, чем если пробы будут взяты в дальнем, труднодоступном месте озера.
Существует два вида проблем, которые часто встречаются при взятии проб:
- Если образцов много, то они, скорее всего, будут очень близки к тому, что есть в реальной популяции. Однако если выборок очень мало, то они могут сильно отличаться от того, что есть в реальной популяции. Такая ошибка называется случайной ошибкой (см. Ошибки и остатки в статистике).
- Индивиды для выборок должны быть тщательно отобраны, обычно они выбираются случайным образом. В противном случае выборки могут сильно отличаться от того, какими они являются на самом деле в общей популяции. Это верно, даже если взято большое количество образцов. Такая ошибка называется смещением.
Ошибки
Мы можем уменьшить случайные ошибки, взяв большую выборку, и мы можем избежать некоторой предвзятости, выбирая случайным образом. Однако иногда большие случайные выборки трудно взять. И предвзятость может возникнуть, если разных людей не спрашивают, или они отказываются отвечать на наши вопросы, или если они знают, что получают ненастоящее лечение. Эти проблемы бывает трудно устранить. См. также стандартная ошибка.
Описательная статистика
Нахождение середины данных
Середина данных называется средним значением. Среднее значение говорит нам о типичном индивидууме в популяции. Существует три вида среднего, которые часто используются: среднее, медиана и мода.
В приведенных ниже примерах используются эти данные:
Имя | A B C D E F G H I J --------------------------------------------- score| 23 26 49 57 64 66 78 82 92Средний
Формула для среднего значения такова
x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + ⋯ + x N N {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}}}.
Где x 1 , x 2 , ... , x N {\displaystyle x_{1},x_{2},\ldots ,x_{N}} - данные, а N {\displaystyle N} - размер популяции. (см. сигма-нотацию).
Это означает, что вы складываете все значения, а затем делите на количество значений.
В нашем примере x¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58,6 {\displaystyle {\bar {x}}=(23+26+49+49+49+57+64+66+78+82+92)/10=58,6}.
Проблема со средним значением заключается в том, что оно ничего не говорит о том, как распределены значения. Значения, которые очень большие или очень маленькие, сильно изменяют среднее значение. В статистике эти экстремальные значения могут быть ошибками измерения, но иногда популяция действительно содержит такие значения. Например, если в комнате находятся 10 человек, зарабатывающих $10 в день, и 1 человек, зарабатывающий $1 000 000 в день. Среднее значение этих данных составляет $90 918 в день. Несмотря на то, что это среднее значение, среднее в данном случае не является суммой, которую зарабатывает каждый отдельный человек, и поэтому бесполезно для некоторых целей.
Это "среднее арифметическое". Для некоторых целей полезны и другие виды.
Медиана
Медиана - это средний элемент данных. Чтобы найти медиану, мы сортируем данные от наименьшего числа к наибольшему, а затем выбираем число посередине. Если данных четное количество, то в середине не будет числа, поэтому мы выбираем два средних и вычисляем их среднее значение. В нашем примере есть 10 элементов данных, два средних - "57" и "64", поэтому медиана равна (57+64)/2 = 60,5. Другой пример, подобный примеру с доходом, представленному для среднего значения, рассмотрим комнату с 10 людьми, имеющими доходы $10, $20, $20, $40, $50, $60, $90, $90, $100 и $1 000 000, медиана равна $55, потому что $55 - это среднее из двух средних чисел, $50 и $60. Если игнорировать экстремальное значение $1,000,000, то медиана будет равна $53. В этом случае медиана близка к значению, полученному при отбрасывании экстремального значения. Медиана решает проблему экстремальных значений, как описано в определении среднего выше.
Режим
Режим - это наиболее часто встречающийся элемент данных. Например, самой распространенной буквой в английском языке является буква "e". Мы бы сказали, что "e" - это мода распределения букв.
Например, если в комнате находятся 10 человек с доходами $10, $20, $20, $40, $50, $60, $90, $90, $90, $100 и $1 000 000, то модой будет $90, потому что $90 встречается три раза, а все остальные значения встречаются меньше трех раз.
Может существовать более одного режима. Например, если в комнате находятся 10 человек с доходами $10, $20, $20, $20, $20, $50, $60, $90, $90, $90, $100, $100 и $1 000 000, то режимы - $20 и $90. Это бимодальность, или два режима. Бимодальность встречается очень часто и часто указывает на то, что данные представляют собой комбинацию двух различных групп. Например, средний рост всех взрослых в США имеет бимодальное распределение. Это связано с тем, что мужчины и женщины имеют разный средний рост: 1,763 м (5 футов 9 дюймов + 1⁄2 дюйма) для мужчин и 1,622 м (5 футов 4 дюйма) для женщин. Эти пики становятся очевидными, когда обе группы объединяются.
Режим - это единственная форма среднего, которую можно использовать для данных, которые нельзя упорядочить.
Нахождение разброса данных
Еще одна вещь, которую мы можем сказать о наборе данных, - это их разброс. Обычным способом описания разброса набора данных является стандартное отклонение. Если стандартное отклонение набора данных невелико, то большая часть данных очень близка к среднему значению. Если же стандартное отклонение велико, то большая часть данных сильно отличается от среднего значения.
Если данные следуют общей схеме, называемой нормальным распределением, то очень полезно знать стандартное отклонение. Если данные следуют этой схеме (мы говорим, что данные нормально распределены), то примерно 68 из каждых 100 единиц данных будут отличаться от среднего значения меньше, чем на величину стандартного отклонения. Мало того, примерно 95 из каждых 100 измерений будут отличаться от среднего значения менее чем в два раза от стандартного отклонения, а примерно 997 из 1000 измерений будут ближе к среднему значению, чем три стандартных отклонения.
Другие описательные статистики
Мы также можем использовать статистику, чтобы узнать, что какой-то процент, процентиль, число или доля людей или вещей в группе делают что-то или подходят под определенную категорию.
Например, социологи с помощью статистики выяснили, что 49% людей в мире - мужчины.
Сопутствующее программное обеспечение
Для поддержки статистиков было разработано множество статистических программ:
- Институт SAS
- SPSS (производится компанией IBM)
Вопросы и ответы
В: Что такое статистика?
О: Статистика - это отрасль прикладной математики, которая занимается сбором, организацией, анализом, чтением и представлением данных.
В: Каковы два типа статистики?
О: Существует два вида статистики: описательная и инференциальная. Описательная статистика обобщает данные, а инференциальная статистика делает прогнозы.
В: Как статистика помогает в других областях?
О: Статистика помогает в изучении многих других областей, таких как наука, медицина, экономика, психология, политика и маркетинг.
В: Кто работает в области статистики?
О: Тот, кто работает в области статистики, называется статистиком.
В: Что означает слово "статистика"?
О: Помимо названия области исследования, слово "статистика" также может означать числа, которые используются для описания данных или отношений.
В: Какими видами деятельности занимаются статистики?
О: Статистики занимаются такими видами деятельности, как сбор, организация, анализ, чтение и представление данных.