Интервальный вариационный ряд с равными интервалами. Построение дискретных вариационных рядов


При обработке больших массивов информации, что особенно актуально при проведении современных научных разработок, перед исследователем стоит серьезная задача правильной группировки исходных данных. Если данные имеют дискретный характер, то проблем, как мы видели, не возникает – необходимо просто подсчитать частотукаждого признака. Если же исследуемый признак имеет непрерывный характер (что имеет большее распространение на практике), то выбор оптимального числа интервалов группировки признака является отнюдь не тривиальной задачей.

Для группировки непрерывных случайных величин весь вариационный размах признакаразбивают на некоторое количество интервалов к.

Сгруппированным интервальным (непрерывным ) вариационным рядом называют ранжированные по значению признака интервалы (), гдеуказанные вместе с соответствующими частотами () числа наблюдений, попавших в г"-й интервал, или относительными частотами ():

Интервалы значений признака

Частота mi

Гистограмма и кумулята {огива), уже подробно рассмотренные нами, являются прекрасным средством визуализации данных, позволяющим получить первичное представление о структуре данных. Такие графики (рис. 1.15) строятся для непрерывных данных так же, как и для дискретных, только с учетом того, что непрерывные данные сплошь заполняют область своих возможных значений, принимая любые значения.

Рис. 1.15.

Поэтому столбцы на гистограмме и кумуляте должны соприкасаться, не иметь участков, куда не попадают значения признака в пределах всех возможных (т.е. гистограмма и кумулята не должны иметь "дырок" по оси абсцисс, в которые не попадают значения изучаемой переменной, как на рис. 1.16). Высота столбика соответствует частоте– числу наблюдений, попавших в данный интервал, или относительной частоте– доле наблюдений. Интервалы не должны пересекаться и имеют, как правило, одинаковую ширину.

Рис. 1.16.

Гистограмма и полигон являются аппроксимациями кривой плотности вероятности (дифференциальной функции) f(x) теоретического распределения, рассматриваемой в курсе теории вероятностей . Поэтому их построение имеет такое важное значение при первичной статистической обработке количественных непрерывных данных – по их виду можно судить о гипотетическом законе распределения.

Кумулята – кривая накопленных частот (частостей) интервального вариационного ряда. С кумулятой сопоставляется график интегральной функции распределения F(x) , также рассматриваемой в курсе теории вероятностей.

В основном понятия гистограммы и кумуляты связывают именно с непрерывными данными и их интервальными вариационными рядами, так как их графики являются эмпирическими оценками функции плотности вероятности и функции распределения соответственно.

Построение интервального вариационного ряда начинают с определения числа интервалов k. И эта задача, пожалуй, является самой сложной, важной и неоднозначной в изучаемом вопросе.

Число интервалов не должно быть слишком малым, так как при этом гистограмма получается слишком сглаженной (oversmoothed), теряет все особенности изменчивости исходных данных – на рис. 1.17 можно увидеть, как те же данные, по которым построены графики рис. 1.15, использованы для построения гистограммы с меньшим числом интервалов (левый график).

В то же время число интервалов не должно быть слишком велико – иначе мы не сможем оценить плотность распределения изучаемых данных по числовой оси: гистограмма получится недосглажепная (undersmoothed), с незаполненными интервалами, неравномерная (см. рис. 1.17, правый график).

Рис. 1.17.

Как же определить наиболее предпочтительное число интервалов?

Еще в 1926 г. Герберт Стерджес (Herbert Sturges) предложил формулу для вычисления количества интервалов, на которые необходимо разбить исходное множество значений изучаемого признака . Эта формула поистине стала сверхпопулярной – большинство статистических учебников предлагают именно ее, по умолчанию ее используют и множество статистических пакетов. Насколько это оправдано и во всех ли случаях – является весьма серьезным вопросом.

Итак, на чем основана формула Стерджеса?

Рассмотрим биномиальное распределение }

Выбор редакции
Теперь приступим к приготовлению теста, готовится оно очень просто.Соединяем в подходящей посуде размягченное сливочное масло, 1 куриное...

Для любимой классики нам нужны:*Все овощи взвешиваем после очистки.Свекла - 2 кгМорковь - 2 кгЛук репчатый - 2 кгПомидоры - 2 кгМасло...

В настоящее время трудно представить себе воспитанного и культурного человека, поглощающего ром, как говорится, «с горла». Со временем...

Кижуч – рыба семейства лососевых. Привлекает данная рыба своей серебристой чешуей. В России данную рыбу ловят от Чукотки до Камчатки, в...
Я очень люблю делать слоеный салаты на праздник, т. к. это довольно удобно для меня, ведь такой салат можно сделать накануне, а не...
Пряник – это традиционная русская сладость, которую принято пить с чаем. Появились эти вкусности еще в древности. Основными ингредиентами...
В Саратове наступило самое настоящее лето! Зной и пыль(На каждом углу продают квас и мороженое, и детей всегда сложно провести мимо этих...
1 стакан чечевицы свежие грибы (белые или шампиньоны) - 300 гр. лук-репка - 1 шт. морковь -1 шт. 4 клубня картофеля растительное...
Творожная диета для похудения представляет собой быстрый (в отношении продолжительности), легкий (в отношении рациона питания), полезный...