научные методы описания и изучения массовых явлений, допускающих количественное (численное) выражение. Слово «статистика» (от итал. stato – государство) имеет общий корень со словом «государство». Первоначально оно относилось к науке управления и означало сбор данных о некоторых параметрах жизнедеятельности государства. Со временем статистика стала охватывать сбор, обработку и анализ данных о массовых явлениях вообще; ныне статистические методы охватывают собою практически все области знаний и жизнедеятельности общества.

Статистические методы включают в себя и экспериментальное, и теоретическое начала. Статистика исходит прежде всего из опыта; недаром ее зачастую определяют как науку об общих способах обработки результатов эксперимента. Обработка массовых опытных данных представляет самостоятельную задачу. Иногда простая регистрация некоторых рядов наблюдений приводит к тому или иному значимому выводу. Так, если в некоторой стране из года в год растет объем валового внутреннего продукта, то это говорит об ее устойчивом развитии. Однако в большинстве случаев для обработки опытного статистическою материала используются математические модели исследуемого явления, основу которых составляют идеи и методы теории вероятностей.

Теория вероятностей есть наука о массовых случайных явлениях. Массовость означает, что исследуются огромные количества однородных явлений (объектов, процессов). Случайность же означает, что значение рассматриваемого параметра отдельного явления (объекта) в своей основе не зависит и не определяется значениями этого параметра у других явлений, входящих в ту же совокупность. Основной характеристикой массового случайного явления является распределение вероятностей. Теорию вероятностей можно определить как науку о вероятностных распределениях – их свойствах, видах, законах взаимосвязей, распределении величин, характеризующих исследуемый объект, и законах изменения распределений во времени. Так, говорят о распределении молекул газа по скоростям, о распределениях доходов граждан в некотором обществе и т.д.

Эмпирически задаваемые распределения соотносятся с т.н. генеральной совокупностью, т.е. с наиболее полным теоретическим описанием распределений соответствующих массовых явлений. При этом во многих случаях бывает нецелесообразно «перебирать» все элементы рассматриваемых совокупностей либо в силу чрезвычайно большого их числа, либо в силу того, что при наличии некоторого числа «перебранных» элементов учет новых не внесет существенных изменений в общие результаты. Для этих случаев разработан специальный выборочный метод исследования общих свойств статистических систем на основе изучения лишь части соответствующих элементов, взятых на выборку. Так, при оценке политических симпатий граждан некоторого региона или страны перед предстоящими выборами невозможно проводить сплошной опрос граждан. В этих случаях и прибегают к выборочному методу. Чтобы выборочное распределение достаточно надежно характеризовало исследуемую систему, оно должно удовлетворять специальным условиям репрезентативности. Репрезентативность требует случайного выбора элементов и учета макроструктуры всего массового явления.

Распределения представляют наиболее общую характеристику массовых случайных явлений. Задание исходного распределения нередко предполагает построение математической модели соответствующих областей действительности. Построение и анализ таких моделей и составляет основную направленность статистических методов. Построенная математическая модель, в свою очередь, указывает, какие переменные следует измерять и какие из них имеют основное значение. Но главное в построении математической модели состоит в объяснении исследуемых явлений и процессов. Если модель достаточно полна, то она описывает зависимости между основными параметрами этих явлений.

Статистические методы в естествознании породили многие научные теории, привели к разработке важнейших фундаментальных направлений исследования – классической статистической физики, генетики, квантовой теории, теории цепных химических реакций и др. Следует, однако, отметить, что во многих случаях исходные вероятностные распределения задаются не путем непосредственной обработки массового материала. Вероятностная гипотеза чаще всего вводится гипотетически, косвенно, на основе теоретических предпосылок. Так, в учение о газах предположение о существовании вероятностных распределений было введено как гипотеза, на основе допущений о «молекулярном беспорядке». Возможность подобного задания вероятностных распределений и проверки их справедливости обусловлена характером и природой самих распределений, математическое выражение которых обладает самостоятельными характеристиками, достаточно независимыми от конкретных значений элементов.

Особые сложности возникают при применении статистических методов в изучении социальных явлений. Анализ общих направлений социальных процессов и внутренних механизмов, вызывающих конкретные статистические результаты, необычайно трудоемок. Так, благосостояние людей характеризуется весьма многими параметрами и соответствующими распределениями – уровнем доходов, участием в общественно-полезном труде, уровнем образования и здравоохранения и др. показателями жизнедеятельности человека. Выявление взаимосвязи этих распределений и тенденций их изменения требует решения многих сложных задач. Состояние общества можно определить через такие параметры, как внутренний валовый продукт, потребление энергии на душу населения, расслоение общества по доходам и т.п. Вместе с тем общество представляет собой необычайно сложную систему, а познание сложных систем основывается на разработке многих моделей, выражающих различные аспекты их структуры и функционирования. Соответственно, для более полной характеристики состояния общества требуется оперировать весьма многими параметрами и их распределениями. Так, говорят об экономической, производственной, сельскохозяйственной, социальной и многих других статистиках. Для объединения данных этих статистик в единую целостную картину необходимо выявление субординации, иерархии параметров, характеризующих состояние общества.

Объектом исследования в прикладной статистике являются статистические данные, полученные в результате наблюдений или экспериментов. Статистические данные – это совокупность объектов (наблюдений, случаев) и признаков (переменных), их характеризующих. Например, объекты исследования – страны мира и признаки, – географические и экономические показатели их характеризующие: континент; высота местности над уровнем моря; среднегодовая температура; место страны в списке по качеству жизни, доли ВВП на душу населения; расходы общества на здравоохранение, образование, армию; средняя продолжительность жизни; доля безработицы, безграмотных; индекс качества жизни и т.д.
Переменные – это величины, которые в результате измерения могут принимать различные значения.
Независимые переменные – это переменные, значения которых в процессе экперимента можно изменять, а зависимые переменные – это переменные, значения которых можно только измерять.
Переменные могут быть измерены в различных шкалах. Различие шкал определяется их информативностью. Рассматривают следующие типы шкал, представленные в порядке возрастания их информативности: номинальная, порядковая, интервальная, шкала отношений, абсолютная. Эти шкалы отличаются друг от друга также и количеством допустимых математических действий. Самая «бедная» шкала – номинальная, так как не определена ни одна арифметическая операция, самя «богатая» – абсолютная.
Измерение в номинальной (классификационной) шкале означает определение принадлежности объекта (наблюдения) к тому или иному классу. Например: пол, род войск, профессия, континент и т.д. В этой шкале можно лишь посчитать количество объектов в классах – частоту и относительную частоту.
Измерение в порядковой (ранговой) шкале, помимо определения класса принадлежности, позволяет упорядочить наблюдения, сравнив их между собой в каком-то отношении. Однако эта шкала не определяет дистанцию между классами, а только то, какое из двух наблюдений предпочтительнее. Поэтому порядковые экспериментальные данные, даже если они изображены цифрами, нельзя рассматривать как числа и выполнять над ними арифметические операции 5 . В этой шкале дополнительно к подсчету частоты объекта можно вычислить ранг объекта. Примеры переменных, измеренных в порядковой шкале: бальные оценки учащихся, призовые места на соревнованиях, воинские звания, место страны в списке по качеству жизни и т.д. Иногда номинальные и порядковые переменные называют категориальными, или группирующими, так как они позволяют произвести разделение объектов исследования на подгруппы.
При измерении в интервальной шкале упорядочивание наблюдений можно выполнить настолько точно, что известны расстояния между любыми двумя их них. Шкала интервалов единственна с точностью до линейных преобразований (y = ax + b). Это означает, что шкала имеет произвольную точку отсчета – условный нуль. Примеры переменных, измеренных в интервальной шкале: температура, время, высота местности над уровнем моря. Над переменными в данной шкале можно выполнять операцию определения расстояния между наблюдениями. Расстояния являются полноправными числами и над ними можно выполнять любые арифметические операции.
Шкала отношений похожа на интервальную шкалу, но она единственна с точностью до преобразования вида y = ax. Это означает, что шкала имеет фиксированную точку отсчета – абсолютный нуль, но произвольный масштаб измерения. Примеры переменных, измеренных в шкале отношений: длина, вес, сила тока, количество денег, расходы общества на здравоохранение, образование, армию, средняя продолжительность жизни и т.д. Измерения в этой шкале – полноправные числа и над ними можно выполнять любые арифметические действия.
Абсолютная шкала имеет и абсолютный нуль, и абсолютную единицу измерения (масштаб). Примером абсолютной шкалы является числовая прямая. Эта шкала безразмерна, поэтому измерения в ней могут быть использованы в качестве показателя степени или основания логарифма. Примеры измерений в абсолютной шкале: доля безработицы; доля безграмотных, индекс качества жизни и т.д.
Большинство статистических методов относятся к методам параметрической статистики, в основе которых лежит предположение, что случайный вектор переменных образует некоторое многомерное распределение, как правило, нормальное или преобразуется к нормальному распределению. Если это предположение не находит подтверждения, следует воспользоваться непараметрическими методами математической статистики.

Корреляционный анализ. Между переменными (случайными величинами) может существовать функциональная связь, проявляющаяся в том, что одна из них определяется как функция от другой. Но между переменными может существовать и связь другого рода, проявляющаяся в том, что одна из них реагирует на изменение другой изменением своего закона распределения. Такую связь называют стохастической. Она появляется в том случае, когда имеются общие случайные факторы, влияющие на обе переменные. В качестве меры зависимости между переменными используется коэффициент корреляции (r), который изменяется в пределах от –1 до +1. Если коэффициент корреляции отрицательный, это означает, что с увеличением значений одной переменной значения другой убывают. Если переменные независимы, то коэффициент корреляции равен 0 (обратное утверждение верно только для переменных, имеющих нормальное распределение). Но если коэффициент корреляции не равен 0 (переменные называются некоррелированными), то это значит, что между переменными существует зависимость. Чем ближе значение r к 1, тем зависимость сильнее. Коэффициент корреляции достигает своих предельных значений +1 или -1, тогда и только тогда, когда зависимость между переменными линейная. Корреляционный анализ позволяет установить силу и направление стохастической взаимосвязи между переменными (случайными величинами). Если переменные измерены, как минимум, в интервальной шкале и имеют нормальное распределение, то корреляционный анализ осуществляется посредством вычисления коэффициента корреляции Пирсона, в противном случае используются корреляции Спирмена, тау Кендала, или Гамма.

Регрессионный анализ. В регрессионном анализе моделируется взаимосвязь одной случайной переменной от одной или нескольких других случайных переменных. При этом, первая переменная называется зависимой, а остальные – независимыми. Выбор или назначение зависимой и независимых переменных является произвольным (условным) и осуществляется исследователем в зависимости от решаемой им задачи. Независимые переменные называются факторами, регрессорами или предикторами, а зависимая переменная – результативным признаком, или откликом.
Если число предикторов равно 1, регрессию называют простой, или однофакторной, если число предикторов больше 1 – множественной или многофакторной. В общем случае регрессионную модель можно записать следующим образом:

Y = f(x 1 , x 2 , …, x n),

Где y – зависимая переменная (отклик), x i (i = 1,…, n) – предикторы (факторы), n – число предикторов.
Посредством регрессионного анализа можно решать ряд важных для исследуемой проблемы задач:
1). Уменьшение размерности пространства анализируемых переменных (факторного пространства), за счет замены части факторов одной переменной – откликом. Более полно такая задача решается факторным анализом.
2). Количественное измерение эффекта каждого фактора, т.е. множественная регрессия, позволяет исследователю задать вопрос (и, вероятно, получить ответ) о том, «что является лучшим предиктором для...». При этом, становится более ясным воздействие отдельных факторов на отклик, и исследователь лучше понимает природу изучаемого явления.
3). Вычисление прогнозных значений отклика при определенных значениях факторов, т.е. регрессионный анализ, создает базу для вычислительного эксперимента с целью получения ответов на вопросы типа «Что будет, если… ».
4). В регрессионном анализе в более явной форме выступает причинно-следственный механизм. Прогноз при этом лучше поддается содержательной интерпретации.

Канонический анализ. Канонический анализ предназначен для анализа зависимостей между двумя списками признаков (независимых переменных), характеризующих объекты. Например, можно изучить зависимость между различными неблагоприятными факторами и появлением определенной группы симптомов заболевания, или взаимосвязь между двумя группами клинико-лабораторных показателей (синдромов) больного. Канонический анализ является обобщением множественной корреляции как меры связи между одной переменной и множеством других переменных. Как известно, множественная корреляция есть максимальная корреляция между одной переменной и линейной функцией других переменных. Эта концепция была обобщена на случай связи между множествами переменных – признаков, характеризующих объекты. При этом достаточно ограничиться рассмотрением небольшого числа наиболее коррелированных линейных комбинаций из каждого множества. Пусть, например, первое множество переменных состоит из признаков у1, …, ур, второе множество состоит из – х1, …, хq, тогда взаимосвязь между данными множествами можно оценить как корреляцию между линейными комбинациями a1y1 + a2y2 + ... + apyp, b1x1 + b2x2 + ... + bqxq, которая называется канонической корреляцией. Задача канонического анализа в нахождении весовых коэффициентов таким образом, чтобы каноническая корреляция была максимальной.

Методы сравнения средних. В прикладных исследованиях часто встречаются случаи, когда средний результат некоторого признака одной серии экспериментов отличается от среднего результата другой серии. Так как средние это результаты измерений, то, как правило, они всегда различаются, вопрос в том, можно ли объяснить обнаруженное расхождение средних неизбежными случайными ошибками эксперимента или оно вызвано определенными причинами. Если идет речь о сравнении двух средних, то можно применять критерий Стьюдента (t-критерий). Это параметрический критерий, так как предполагается, что признак имеет нормальное распределение в каждой серии экспериментов. В настоящее время модным стало применение непараметрических критериев сравнения средних
Сравнение средних результата один из способов выявления зависимостей между переменными признаками, характеризующими исследуемую совокупность объектов (наблюдений). Если при разбиении объектов исследования на подгруппы при помощи категориальной независимой переменной (предиктора) верна гипотеза о неравенстве средних некоторой зависимой переменной в подгруппах, то это означает, что существует стохастическая взаимосвязь между этой зависимой переменной и категориальным предиктором. Так, например, если установлено, что неверна гипотеза о равенстве средних показателей физического и интеллектуального развития детей в группах матерей, куривших и не куривших в период беременности, то это означает, что существует зависимость между курением матери ребенка в период беременности и его интеллектуальным и физическим развитием.
Наиболее общий метод сравнения средних дисперсионный анализ. В терминологии дисперсионного анализа категориальный предиктор называется фактором.
Дисперсионный анализ можно определить как параметрический, статистический метод, предназначенный для оценки влияния различных факторов на результат эксперимента, а также для последующего планирования экспериментов. Поэтому в дисперсионном анализе можно исследовать зависимость количественного признака от одного или нескольких качественных признаков факторов. Если рассматривается один фактор, то применяют однофакторный дисперсионный анализ, в противном случае используют многофакторный дисперсионный анализ.

Частотный анализ. Таблицы частот, или как еще их называют одновходовые таблицы, представляют собой простейший метод анализа категориальных переменных. Таблицы частот могут быть с успехом использованы также для исследования количественных переменных, хотя при этом могут возникнуть трудности с интерпретацией результатов. Данный вид статистического исследования часто используют как одну из процедур разведочного анализа, чтобы посмотреть, каким образом различные группы наблюдений распределены в выборке, или как распределено значение признака на интервале от минимального до максимального значения. Как правило, таблицы частот графически иллюстрируются при помощи гистограмм.

Кросстабуляция (сопряжение) – процесс объединения двух (или нескольких) таблиц частот так, что каждая ячейка в построенной таблице представляется единственной комбинацией значений или уровней табулированных переменных. Кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов. Исследуя эти частоты, можно выявить связи между табулированными переменными и исследовать структуру этой связи. Обычно табулируются категориальные или количественные переменные с относительно небольшим числом значений. Если надо табулировать непрерывную переменную (предположим, уровень сахара в крови), то вначале ее следует перекодировать, разбив диапазон изменения на небольшое число интервалов (например, уровень: низкий, средний, высокий).

Анализ соответствий. Анализ соответствий по сравнению с частотным анализом содержит более мощные описательные и разведочные методы анализа двухвходовых и многовходовых таблиц. Метод, так же, как и таблицы сопряженности, позволяет исследовать структуру и взаимосвязь группирующих переменных, включенных в таблицу. В классическом анализе соответствий частоты в таблице сопряженности стандартизуются (нормируются) таким образом, чтобы сумма элементов во всех ячейках была равна 1.
Одна из целей анализа соответствий – представление содержимого таблицы относительных частот в виде расстояний между отдельными строками и/или столбцами таблицы в пространстве более низкой размерности.

Кластерный анализ. Кластерный анализ – это метод классификационного анализа; его основное назначение – разбиение множества исследуемых объектов и признаков на однородные в некотором смысле группы, или кластеры. Это многомерный статистический метод, поэтому предполагается, что исходные данные могут быть значительного объема, т.е. существенно большим может быть как количество объектов исследования (наблюдений), так и признаков, характеризующих эти объекты. Большое достоинство кластерного анализа в том, что он дает возможность производить разбиение объектов не по одному признаку, а по ряду признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов и позволяет исследовать множество исходных данных практически произвольной природы. Так как кластеры – это группы однородности, то задача кластерного анализа заключается в том, чтобы на основании признаков объектов разбить их множество на m (m – целое) кластеров так, чтобы каждый объект принадлежал только одной группе разбиения. При этом объекты, принадлежащие одному кластеру, должны быть однородными (сходными), а объекты, принадлежащие разным кластерам, – разнородными. Если объекты кластеризации представить как точки в n-мерном пространстве признаков (n – количество признаков, характеризующих объекты), то сходство между объектами определяется через понятие расстояния между точками, так как интуитивно понятно, что чем меньше расстояние между объектами, тем они более схожи.

Дискриминантный анализ. Дискриминантный анализ включает статистические методы классификации многомерных наблюдений в ситуации, когда исследователь обладает так называемыми обучающими выборками. Этот вид анализа является многомерным, так как использует несколько признаков объекта, число которых может быть сколь угодно большим. Цель дискриминантного анализ состоит в том, чтобы на основе измерения различных характеристик (признаков) объекта классифицировать его, т. е. отнести к одной из нескольких заданных групп (классов) некоторым оптимальным способом. При этом предполагается, что исходные данные наряду с признаками объектов содержат категориальную (группирующую) переменную, которая определяет принадлежность объекта к той или иной группе. Поэтому в дискриминантном анализе предусмотрена проверка непротиворечивости классификации, проведенной методом, с исходной эмпирической классификацией. Под оптимальным способом понимается либо минимум математического ожидания потерь, либо минимум вероятности ложной классификации. В общем случае задача различения (дискриминации) формулируется следующим образом. Пусть результатом наблюдения над объектом является построение k-мерного случайного вектора Х = (X1, X2, …, XК), где X1, X2, …, XК – признаки объекта. Требуется установить правило, согласно которому по значениям координат вектора Х объект относят к одной из возможных совокупностей i, i = 1, 2, …, n. Методы дискриминации можно условно разделить на параметрические и непараметрические. В параметрических известно, что распределение векторов признаков в каждой совокупности нормально, но нет информации о параметрах этих распределений. Непараметрические методы дискриминации не требуют знаний о точном функциональном виде распределений и позволяют решать задачи дискриминации на основе незначительной априорной информации о совокупностях, что особенно ценно для практических применений. Если выполняются условия применимости дискриминантного анализа – независимые переменные–признаки (их еще называют предикторами) должны быть измерены как минимум в интервальной шкале, их распределение должно соответствовать нормальному закону, необходимо воспользоваться классическим дискриминантным анализом, в противном случае – методом общие модели дискриминантного анализа.

Факторный анализ. Факторный анализ – один из наиболее популярных многомерных статистических методов. Если кластерный и дискриминантный методы классифицируют наблюдения, разделяя их на группы однородности, то факторный анализ классифицирует признаки (переменные), описывающие наблюдения. Поэтому главная цель факторного анализа – сокращение числа переменных на основе классификация переменных и определения структуры взаимосвязей между ними. Сокращение достигается путем выделения скрытых (латентных) общих факторов, объясняющих связи между наблюдаемыми признаками объекта, т.е. вместо исходного набора переменных появится возможность анализировать данные по выделенным факторам, число которых значительно меньше исходного числа взаимосвязанных переменных.

Деревья классификации. Деревья классификации – это метод классификационного анализа, позволяющий предсказывать принадлежность объектов к тому или иному классу в зависимости от соответствующих значений признаков, характеризующих объекты. Признаки называются независимыми переменными, а переменная, указывающая на принадлежность объектов к классам, называется зависимой. В отличие от классического дискриминантного анализа, деревья классификации способны выполнять одномерное ветвление по переменными различных типов категориальным, порядковым, интервальным. Не накладываются какие-либо ограничения на закон распределения количественных переменных. По аналогии с дискриминантным анализом метод дает возможность анализировать вклады отдельных переменных в процедуру классификации. Деревья классификации могут быть, а иногда и бывают, очень сложными. Однако использование специальных графических процедур позволяет упростить интерпретацию результатов даже для очень сложных деревьев. Возможность графического представления результатов и простота интерпретации во многом объясняют большую популярность деревьев классификации в прикладных областях, однако, наиболее важные отличительные свойства деревьев классификации – их иерархичность и широкая применимость. Структура метода такова, что пользователь имеет возможность по управляемым параметрам строить деревья произвольной сложности, добиваясь минимальных ошибок классификации. Но по сложному дереву, из-за большой совокупности решающих правил, затруднительно классифицировать новый объект. Поэтому при построении дерева классификации пользователь должен найти разумный компромисс между сложностью дерева и трудоемкостью процедуры классификации. Широкая сфера применимости деревьев классификации делает их весьма привлекательным инструментом анализа данных, но не следует полагать, что его рекомендуется использовать вместо традиционных методов классификационного анализа. Напротив, если выполнены более строгие теоретические предположения, налагаемые традиционными методами, и выборочное распределение обладает некоторыми специальными свойствами (например, соответствие распределения переменных нормальному закону), то более результативным будет использование именно традиционных методов. Однако как метод разведочного анализа или как последнее средство, когда отказывают все традиционные методы, Деревья классификации, по мнению многих исследователей, не знают себе равных.

Анализ главных компонент и классификация. На практике часто возникает задача анализа данных большой размерности. Метод анализ главных компонент и классификация позволяет решить эту задачу и служит для достижения двух целей:
– уменьшение общего числа переменных (редукция данных) для того, чтобы получить «главные» и «некоррелирующие» переменные;
– классификация переменных и наблюдений, при помощи строящегося факторного пространства.
Метод имеет сходство с факторным анализом в постановочной части решаемых задач, но имеет ряд существенных отличий:
– при анализе главных компонент не используются итеративные методы для извлечения факторов;
– наряду с активными переменными и наблюдениями, используемыми для извлечения главных компонент, можно задать вспомогательные переменные и/или наблюдения; затем вспомогательные переменные и наблюдения проектируются на факторное пространство, вычисленное на основе активных переменных и наблюдений;
– перечисленные возможности позволяют использовать метод как мощное средство для классификации одновременно переменных и наблюдений.
Решение основной задачи метода достигается созданием векторного пространства латентных (скрытых) переменных (факторов) с размерностью меньше исходной. Исходная размерность определяется числом переменных для анализа в исходных данных.

Многомерное шкалирование. Метод можно рассматривать как альтернативу факторному анализу, в котором достигается сокращение числа переменных, путем выделения латентных (непосредственно не наблюдаемых) факторов, объясняющих связи между наблюдаемыми переменными. Цель многомерного шкалирования – поиск и интерпретация латентных переменных, дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков. Показателями сходства объектов на практике могут быть расстояния или степени связи между ними. В факторном анализе сходства между переменными выражаются с помощью матрицы коэффициентов корреляций. В многомерном шкалировании в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов: расстояния, корреляции и т.д. Несмотря на то, что имеется много сходства в характере исследуемых вопросов, методы многомерное шкалирование и факторный анализ имеют ряд существенных отличий. Так, факторный анализ требует, чтобы исследуемые данные подчинялись многомерному нормальному распределению, а зависимости были линейными. Многомерное шкалирование не накладывает таких ограничений, оно может быть применимо, если задана матрица попарных сходств объектов. В терминах различий получаемых результатов факторный анализ стремится извлечь больше факторов – латентных переменных по сравнению с многомерным шкалированием. Поэтому многомерное шкалирование часто приводит к проще интерпретируемым решениям. Однако более существенно то, что метод многомерное шкалирование можно применять к любым типам расстояний или сходств, в то время как факторный анализ требует, чтобы в качестве исходных данных была использована корреляционная матрица переменных или по файлу исходных данных сначала была вычислена матрица корреляций. Основное предположение многомерного шкалирования заключается в том, что существует некоторое метрическое пространство существенных базовых характеристик, которые неявно и послужили основой для полученных эмпирических данных о близости между парами объектов. Следовательно, объекты можно представить как точки в этом пространстве. Предполагают также, что более близким (по исходной матрице) объектам соответствуют меньшие расстояния в пространстве базовых характеристик. Поэтому, многомерное шкалирование – это совокупность методов анализа эмпирических данных о близости объектов, с помощью которых определяется размерность пространства существенных для данной содержательной задачи характеристик измеряемых объектов и конструируется конфигурация точек (объектов) в этом пространстве. Это пространство («многомерная шкала») аналогично обычно используемым шкалам в том смысле, что значениям существенных характеристик измеряемых объектов соответствуют определенные позиции на осях пространства. Логику многомерного шкалирования можно проиллюстрировать на следующем простом примере. Предположим, что имеется матрица попарных расстояний (т.е. сходства некоторых признаков) между некоторыми городами. Анализируя матрицу, надо расположить точки с координатами городов в двумерном пространстве (на плоскости), максимально сохранив реальные расстояния между ними. Полученное размещение точек на плоскости впоследствии можно использовать в качестве приближенной географической карты. В общем случае многомерное шкалирование позволяет таким образом расположить объекты (города в нашем примере) в пространстве некоторой небольшой размерности (в данном случае она равна двум), чтобы достаточно адекватно воспроизвести наблюдаемые расстояния между ними. В результате можно измерить эти расстояния в терминах найденных латентных переменных. Так, в нашем примере можно объяснить расстояния в терминах пары географических координат Север/Юг и Восток/Запад.

Моделирование структурными уравнениями (причинное моделирование). Наметившийся в последнее время прогресс в области многомерного статистического анализа и анализа корреляционных структур, объединенный с новейшими вычислительными алгоритмами, послужил отправной точкой для создания новой, но уже получившей признание техники моделирования структурными уравнениями (SEPATH). Эта необычайно мощная техника многомерного анализа включает методы из различных областей статистики, множественная регрессия и факторный анализ получили здесь естественное развитие и объединение.
Объектом моделирования структурными уравнениями являются сложные системы, внутренняя структура которых не известна («черный ящик»). Наблюдая параметры системы при помощи SEPATH, можно исследовать ее структуру, установить причинно-следственные взаимосвязи между элементами системы.
Постановка задачи структурного моделирования выглядит следующим образом. Пусть имеются переменные, для которых известны статистические моменты, например, матрица выборочных коэффициентов корреляции или ковариации. Такие переменные называются явными. Они могут быть характеристиками сложной системы. Реальные связи между наблюдаемыми явными переменными могут быть достаточно сложными, однако предполагаем, что имеется некоторое число скрытых переменных, которые с известной степенью точности объясняют структуру этих связей. Таким образом, с помощью латентных переменных строится модель связей между явными и неявными переменными. В некоторых задачах латентные переменные можно рассматривать как причины, а явные – как следствия, поэтому, такие модели называются причинными. Допускается, что скрытые переменные, в свою очередь, могут быть связаны между собой. Структура связей допускается достаточно сложной, однако тип ее постулируется – это связи, описываемые линейными уравнениями. Какие-то параметры линейных моделей известны, какие-то нет, и являются свободными параметрами.
Основная идея моделирования структурными уравнениями состоит в том, что можно проверить, связаны ли переменные Y и X линейной зависимостью Y = aX, анализируя их дисперсии и ковариации. Эта идея основана на простом свойстве среднего и дисперсии: если умножить каждое число на некоторую константу k, среднее значение также умножится на k, при этом стандартное отклонение умножится на модуль k. Например, рассмотрим набор из трех чисел 1, 2, 3. Эти числа имеют среднее, равное 2, и стандартное отклонение, равное 1. Если умножить все три числа на 4, то легко посчитать, что среднее значение будет равно 8, стандартное отклонение – 4, а дисперсия – 16. Таким образом, если есть наборы чисел X и Y, связанные зависимостью Y = 4X, то дисперсия Y должна быть в 16 раз больше, чем дисперсия X. Поэтому можно проверить гипотезу о том, что Y и X связаны уравнением Y = 4X, сравнением дисперсий переменных Y и X. Эта идея может быть различными способами обобщена на несколько переменных, связанных системой линейных уравнений. При этом правила преобразований становятся более громоздкими, вычисления более сложными, но основной смысл остается прежним – можно проверить, связаны ли переменные линейной зависимостью, изучая их дисперсии и ковариации.

Методы анализа выживаемости. Методы анализа выживаемости первоначально были развиты в медицинских, биологических исследованиях и страховании, но затем стали широко применяться в социальных и экономических науках, а также в промышленности в инженерных задачах (анализ надежности и времен отказов). Представьте, что изучается эффективность нового метода лечения или лекарственного препарата. Очевидно, наиболее важной и объективной характеристикой является средняя продолжительность жизни пациентов с момента поступления в клинику или средняя продолжительность ремиссии заболевания. Для описания средних времен жизни или ремиссии можно было бы использовать стандартные параметрические и непараметрические методы. Однако в анализируемых данных есть существенная особенность – могут найтись пациенты, которые в течение всего периода наблюдения выжили, а у некоторых из них заболевание все еще находится в стадии ремиссии. Также может образоваться группа больных, контакт с которыми был потерян до завершения эксперимента (например, их перевели в другие клиники). При использовании стандартных методов оценки среднего эту группу пациентов пришлось бы исключить, тем самым, потеряв с трудом собранную важную информацию. К тому же большинство этих пациентов являются выжившими (выздоровевшими) в течение того времени, которое их наблюдали, что свидетельствует в пользу нового метода лечения (лекарственного препарата). Такого рода информация, когда нет данных о наступлении интересующего нас события, называется неполной. Если есть данные о наступлении интересующего нас события, то информация называется полной. Наблюдения, которые содержат неполную информацию, называются цензурированными наблюдениями. Цензурированные наблюдения типичны, когда наблюдаемая величина представляет время до наступления некоторого критического события, а продолжительность наблюдения ограничена по времени. Использование цензурированных наблюдений составляет специфику рассматриваемого метода – анализа выживаемости. В данном методе исследуются вероятностные характеристики интервалов времени между последовательным возникновением критических событий. Такого рода исследования называются анализом длительностей до момента прекращения, которые можно определить как интервалы времени между началом наблюдения за объектом и моментом прекращения, при котором объект перестает отвечать заданным для наблюдения свойствам. Цель исследований – определение условных вероятностей, связанных с длительностями до момента прекращения. Построение таблиц времен жизни, подгонка распределения выживаемости, оценивание функции выживания с помощью процедуры Каплана – Мейера относятся к описательным методам исследования цензурированных данных. Некоторые из предложенных методов позволяют сравнивать выживаемость в двух и более группах. Наконец, анализ выживаемости содержит регрессионные модели для оценивания зависимостей между многомерными непрерывными переменными со значениями, аналогичными временам жизни.
Общие модели дискриминантного анализа. Если не выполняются условия применимости дискриминантного анализа (ДА) – независимые переменные (предикторы) должны быть измерены как минимум в интервальной шкале, их распределение должно соответствовать нормальному закону, необходимо воспользоваться методом общие модели дискриминантного анализа (ОДА). Метод имеет такое название, потому что в нем для анализа дискриминантных функций используется общая линейная модель (GLM). В этом модуле анализ дискриминантных функций рассматривается как общая многомерная линейная модель, в которой категориальная зависимая переменная (отклик) представляется векторами с кодами, обозначающими различные группы для каждого наблюдения. Метод ОДА имеет ряд существенных преимуществ перед классическим дискриминантным анализом. Например, не устанавливается никаких ограничений на тип используемого предиктора (категориальный или непрерывный) или на тип определяемой модели, возможен пошаговый выбор предикторов и выбор наилучшего подмножества предикторов, в случае наличия в файле данных кросс-проверочной выборки выбор наилучшего подмножества предикторов можно провести на основе долей ошибочной классификации для кросс-проверочной выборки и т.д.

Временные ряды. Временные ряды – это наиболее интенсивно развивающееся, перспективное направление математической статистики. Под временным (динамическим) рядом подразумевается последовательность наблюдений некоторого признака Х (случайной величины) в последовательные равноотстоящие моменты t. Отдельные наблюдения называются уровнями ряда и обозначаются хt, t = 1, …, n. При исследовании временного ряда выделяются несколько составляющих:
x t =u t +y t +c t +e t , t = 1, …, n,
где u t – тренд, плавно меняющаяся компонента, описывающая чистое влияние долговременных факторов (убыль населения, уменьшение доходов и т.д.); – сезонная компонента, отражающая повторяемость процессов в течение не очень длительного периода (дня, недели, месяца и т.д.); сt – циклическая компонента, отражающая повторяемость процессов в течение длительных периодов времени свыше одного года; t – случайная компонента, отражающая влияние не поддающихся учету и регистрации случайных факторов. Первые три компоненты представляют собой детерминированные составляющие. Случайная составляющая образована в результате суперпозиции большого числа внешних факторов, оказывающих каждый в отдельности незначительное влияние на изменение значений признака Х. Анализ и исследование временного ряда позволяют строить модели для прогнозирования значений признака Х на будущее время, если известна последовательность наблюдений в прошлом.

Нейронные сети. Нейронные сети представляют собой вычислительную систему, архитектура которой имеет аналогию с построением нервной ткани из нейронов. На нейроны самого нижнего слоя подаются значения входных параметров, на основании которых нужно принимать определенные решения. Например, в соответствии со значениями клинико-лабораторных показателей больного надо отнести его к той или иной группе по степени тяжести заболевания. Эти значения воспринимаются сетью как сигналы, передающиеся в следующий слой, ослабляясь или усиливаясь в зависимости от числовых значений (весов), приписываемых межнейронным связям. В результате на выходе нейрона верхнего слоя вырабатывается некоторое значение, которое рассматривается как ответ – отклик всей сети на входные параметры. Для того, чтобы сеть работала ее надо «натренировать» (обучить) на данных для которых известны значения входных параметров и правильные отклики на них. Обучение состоит в подборе весов межнейронных связей, обеспечивающих наибольшую близость ответов к известным правильным ответам. Нейронные сети могут быть использованы для классификации наблюдений.

Планирование экспериментов. Искусство располагать наблюдения в определенном порядке или проводить специально спланированные проверки с целью полного использования возможностей этих методов и составляет содержание предмета «планирование эксперимента». В настоящее время экспериментальные методы широко используются как в науке, так и в различных областях практической деятельности. Обычно основная цель научного исследования состоит в том, чтобы показать статистическую значимость эффекта воздействия определенного фактора на изучаемую зависимую переменную. Как правило, основная цель планирования экспериментов заключается в извлечении максимального количества объективной информации о влиянии изучаемых факторов на интересующий исследователя показатель (зависимую переменную) с помощью наименьшего числа дорогостоящих наблюдений. К сожалению, на практике, в большинстве случаев, недостаточное внимание уделяется планированию исследований. Собирают данные (столько, сколько могут собрать), а потом уже проводят статистическую обработку и анализ. Но сам по себе правильно проведенный статистический анализ недостаточен для достижения научной достоверности, поскольку качество любой информации, получаемой в результате анализа данных, зависит от качества самих данных. Поэтому планирование экспериментов находит все большее применение в прикладных исследованиях. Целью методов планирования экспериментов является изучение влияния определенных факторов на исследуемый процесс и поиск оптимальных уровней факторов, определяющих требуемый уровень течения данного процесса.

Карты контроля качества. В условиях современного мира чрезвычайно актуальным является проблема качества не только выпускаемой продукции, но и услуг оказываемых населению. От успешного решения этой важной проблемы в значительной степени зависит благополучие любой фирмы, организации или учреждения. Качество продукции и услуг формируется в процессе научных исследований, конструкторских и технологических разработок, обеспечивается хорошей организацией производства и услуг. Но изготовление продукции и оказание услуг независимо от их вида всегда связано с определенным непостоянством условий производства и предоставления. Это приводит к некоторой вариабельности признаков их качества. Поэтому, актуальными являются вопросы разработки методов контроля качества, которые позволят своевременно выявить признаки нарушения технологического процесса или оказания услуг. При этом, для достижения и поддержания высокого уровня качества, удовлетворяющего потребителя нужны методы, направленные не на устранение дефектов готовой продукции и несоответствий услуг, а на предупреждение и прогнозирование причин их появления. Контрольная карта – это инструмент, позволяющий отслеживать ход протекания процесса и воздействовать на него (с помощью соответствующей обратной связи), предупреждая его отклонения от предъявленных к процессу требований. Инструментарий карт контроля качества широко использует статистические методы, основанные на теории вероятностей и математической статистики. Применение статистических методов позволяет при ограниченных объемах анализируемых изделий с заданной степенью точности и достоверности судить о состоянии качества выпускаемой продукции. Обеспечивает прогнозирование, оптимальное регулирование проблем в области качества, принятие верных управленческих решений не на основе интуиции, а при помощи научного изучения и выявления закономерностей в накапливаемых массивах числовой информации. />/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>

Статистические методы

Статисти́ческие ме́тоды - методы анализа статистических данных. Выделяют методы прикладной статистики , которые могут применяться во всех областях научных исследований и любых отраслях народного хозяйства, и другие статистические методы, применимость которых ограничена той или иной сферой. Имеются в виду такие методы, как статистический приемочный контроль, статистическое регулирование технологических процессов, надежность и испытания, планирование экспериментов.

Классификация статистических методов

Статистические методы анализа данных применяются практически во всех областях деятельности человека. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.

Целесообразно выделить три вида научной и прикладной деятельности в области статистических методов анализа данных (по степени специфичности методов, сопряженной с погруженностью в конкретные проблемы):

а) разработка и исследование методов общего назначения, без учета специфики области применения;

б) разработка и исследование статистических моделей реальных явлений и процессов в соответствии с потребностями той или иной области деятельности;

в) применение статистических методов и моделей для статистического анализа конкретных данных.

Прикладная статистика

Описание вида данных и механизма их порождения - начало любого статистического исследования. Для описания данных применяют как детерминированные, так и вероятностные методы. С помощью детерминированных методов можно проанализировать только те данные, которые имеются в распоряжении исследователя. Например, с их помощью получены таблицы, рассчитанные органами официальной государственной статистики на основе представленных предприятиями и организациями статистических отчетов. Перенести полученные результаты на более широкую совокупность, использовать их для предсказания и управления можно лишь на основе вероятностно-статистического моделирования. Поэтому в математическую статистику часто включают лишь методы, опирающиеся на теорию вероятностей.

Мы не считаем возможным противопоставлять детерминированные и вероятностно-статистические методы. Мы рассматриваем их как последовательные этапы статистического анализа. На первом этапе необходимо проанализировать имеющие данные, представить их в удобном для восприятия виде с помощью таблиц и диаграмм. Затем статистические данные целесообразно проанализировать на основе тех или иных вероятностно-статистических моделей. Отметим, что возможность более глубокого проникновения в суть реального явления или процесса обеспечивается разработкой адекватной математической модели.

В простейшей ситуации статистические данные - это значения некоторого признака, свойственного изучаемым объектам. Значения могут быть количественными или представлять собой указание на категорию, к которой можно отнести объект. Во втором случае говорят о качественном признаке.

При измерении по нескольким количественным или качественным признакам в качестве статистических данных об объекте получаем вектор. Его можно рассматривать как новый вид данных. В таком случае выборка состоит из набора векторов. Есть часть координат - числа, а часть - качественные (категоризованные) данные, то говорим о векторе разнотипных данных.

Одним элементом выборки, то есть одним измерением, может быть и функция в целом. Например, описывающая динамику показателя, то есть его изменение во времени, - электрокардиограмма больного или амплитуда биений вала двигателя. Или временной ряд, описывающий динамику показателей определенной фирмы. Тогда выборка состоит из набора функций.

Элементами выборки могут быть и иные математические объекты. Например, бинарные отношения. Так, при опросах экспертов часто используют упорядочения (ранжировки) объектов экспертизы - образцов продукции, инвестиционных проектов, вариантов управленческих решений. В зависимости от регламента экспертного исследования элементами выборки могут быть различные виды бинарных отношений (упорядочения, разбиения, толерантности), множества, нечеткие множества и т. д.

Итак, математическая природа элементов выборки в различных задачах прикладной статистики может быть самой разной. Однако можно выделить два класса статистических данных - числовые и нечисловые. Соответственно прикладная статистика разбивается на две части - числовую статистику и нечисловую статистику.

Числовые статистические данные - это числа, вектора, функции. Их можно складывать, умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы. Математический аппарат анализа сумм случайных элементов выборки - это (классические) законы больших чисел и центральные предельные теоремы.

Нечисловые статистические данные - это категоризованные данные, вектора разнотипных признаков, бинарные отношения, множества, нечеткие множества и др. Их нельзя складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о суммах нечисловых статистических данных. Они являются элементами нечисловых математических пространств (множеств). Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах. С помощью расстояний определяются эмпирические и теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей, решаются задачи диагностики и кластерного анализа, и т. д. (см. ).

В прикладных исследованиях используют статистические данные различных видов. Это связано, в частности, со способами их получения. Например, если испытания некоторых технических устройств продолжаются до определенного момента времени, то получаем т. н. цензурированные данные, состоящие из набора чисел - продолжительности работы ряда устройств до отказа, и информации о том, что остальные устройства продолжали работать в момент окончания испытания. Цензурированные данные часто используются при оценке и контроле надежности технических устройств.

Обычно отдельно рассматривают статистические методы анализа данных первых трех типов. Это ограничение вызвано тем отмеченным выше обстоятельством, что математический аппарат для анализа данных нечисловой природы - существенно иной, чем для данных в виде чисел, векторов и функций.

Вероятностно-статистическое моделирование

При применении статистических методов в конкретных областях знаний и отраслях народного хозяйства получаем научно-практические дисциплины типа «статистические методы в промышленности», «статистические методы в медицине» и др. С этой точки зрения эконометрика - это «статистические методы в экономике». Эти дисциплины группы б) обычно опираются на вероятностно-статистические модели, построенные в соответствии с особенностями области применения. Весьма поучительно сопоставить вероятностно-статистические модели, применяемые в различных областях, обнаружить их близость и вместе с тем констатировать некоторые различия. Так, видна близость постановок задач и применяемых для их решения статистических методов в таких областях, как научные медицинские исследования, конкретные социологические исследования и маркетинговые исследования, или, короче, в медицине , социологии и маркетинге . Они часто объединяются вместе под названием «выборочные исследования».

Отличие выборочных исследований от экспертных проявляется, прежде всего, в числе обследованных объектов или субъектов - в выборочных исследованиях речь обычно идет о сотнях, а в экспертных - о десятках. Зато технологии экспертных исследований гораздо изощреннее. Еще более выражена специфика в демографических или логистических моделях, при обработке нарративной (текстовой, летописной) информации или при изучении взаимовлияния факторов.

Вопросы надежности и безопасности технических устройств и технологий, теории массового обслуживания подробно рассмотрены, в большом количестве научных работ.

Статистический анализ конкретных данных

Применение статистических методов и моделей для статистического анализа конкретных данных тесно привязано к проблемам соответствующей области. Результаты третьего из выделенных видов научной и прикладной деятельности находятся на стыке дисциплин. Их можно рассматривать как примеры практического применения статистических методов. Но не меньше оснований относить их к соответствующей области деятельности человека.

Например, результаты опроса потребителей растворимого кофе естественно отнести к маркетингу (что и делают, читая лекции по маркетинговым исследованиям). Исследование динамики роста цен с помощью индексов инфляции, рассчитанных по независимо собранной информации, представляет интерес прежде всего с точки зрения экономики и управления народным хозяйством (как на макроуровне, так и на уровне отдельных организаций).

Перспективы развития

Теория статистических методов нацелена на решение реальных задач. Поэтому в ней постоянно возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими средствами, то есть путем доказательства теорем. Большую роль играет методологическая составляющая - как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.

Актуальной является задача анализа истории статистических методов с целью выявления тенденций развития и применения их для прогнозирования.

Литература

2. Нейлор Т. Машинные имитационные эксперименты с моделями экономических систем. - М.: Мир, 1975. - 500 с.

3. Крамер Г. Математические методы статистики. - М.: Мир, 1948 (1-е изд.), 1975 (2-е изд.). - 648 с.

4. Большев Л. Н., Смирнов Н. В. Таблицы математической статистики. - М.: Наука, 1965 (1-е изд.), 1968 (2-е изд.), 1983 (3-е изд.).

5. Смирнов Н. В., Дунин-Барковский И. В. Курс теории вероятностей и математической статистики для технических приложений. Изд. 3-е, стереотипное. - М.: Наука, 1969. - 512 с.

6. Норман Дрейпер, Гарри Смит Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. - 3-е изд. - М.: «Диалектика» , 2007. - С. 912. - ISBN 0-471-17082-8

Смотри также

Wikimedia Foundation . 2010 .

Смотреть что такое "Статистические методы" в других словарях:

    СТАТИСТИЧЕСКИЕ МЕТОДЫ научные методы описания и изучения массовых явлений, допускающих количественное (численное) выражение. Слово “статистика” (от игал. stato государство) имеет общий корень со словом “государство”. Первоначально оно… … Философская энциклопедия

    Научные методы описания и изучения массовых явлений, допускающих количественное (численное) выражение. Слово «статистика» (от итал. stato – государство) имеет общий корень со словом «государство». Первоначально оно относилось к науке управления и … Философская энциклопедия

    - (в экологии и биоценологии) методы вариационной статистики, позволяющие исследовать целое (напр., фитоценоз, популяцию, продуктивность) по его частным совокупностям (напр., по данным, полученным на учетных площадках) и оценить степень точности… … Экологический словарь

    статистические методы - (в психологии) (от лат. status состояние) нек рые методы прикладной математической статистики, используемые в психологии в основном для обработки экспериментальных результатов. Основная цель применения С. м. повышение обоснованности выводов в… … Большая психологическая энциклопедия

    Статистические методы - 20.2. Статистические методы Конкретные статистические методы, используемые для организации, регулирования и проверки деятельности, включают, но не ограничиваются следующими: а) планированием экспериментов и факторный анализ; b) анализ дисперсии и … Словарь-справочник терминов нормативно-технической документации

    СТАТИСТИЧЕСКИЕ МЕТОДЫ - методы исследования количеств. стороны массовых обществ. явлений и процессов. С. м. дают возможность в цифровом выражении характеризовать происходящие изменения в обществ. процессах, изучать разл. формы социально экономич. закономерностей, смену… … Сельско-хозяйственный энциклопедический словарь

    СТАТИСТИЧЕСКИЕ МЕТОДЫ - некоторые методы прикладной математической статистики, используемые для обработки экспериментальных результатов. Ряд статистических методов был разработан специально для проверки качества психологических тестов, для применения в профессиональном… … Профессиональное образование. Словарь

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

хорошую работу на сайт">

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Введение

Статистика (нем. Statistak, итал. Stato, позднелат. Status - государство) - наука, изучающая положение дел в государстве. Иными словами, это вид деятельности, направленной на получение, обработку и анализ информации, характеризующей количественные закономерности жизни общества во всем их многообразии (технико-экономические, социально-политические явления, культура) в неразрывной связи с ее качественным содержанием. Таким образом, под статистикой понимается сбор цифровых данных, их обобщение и обработка. Статистика необходима для изучения количественных явлений посредством цифр. Она предоставляет необходимый цифровой банк данных. Статистика должна давать не произвольный материал, а те данные, которые ясно и понятно характеризуют различные явления.

Определяющее значение статистики вытекает из того, что вся информация, имеющая значимость как для государства, так и для физических и юридических лиц и собираемая путем бухгалтерского или оперативного учета, в конечном счете обрабатывается и анализируется с помощью статистики. Исходные методологические принципы для построения основных показателей во всех видах учета являются едиными.

В более узком смысле статистика рассматривается как совокупность данных о каком-либо явлении или процессе (например, когда говорят о статистике выборов). В естественных науках понятие «статистика» означает анализ массовых явлений, основанный на применении методов теории вероятностей.

1. Методы статистики

В целях изучения и познания сущности явлений в статистике применяют различные взаимосвязанные между собой специфические приемы (методы) исследования, совокупность которых образует статистическую методологию. Особенности статистической методологии вытекают из объективного характера свойств и закономерностей количественных отношений и связей явлений, изучаемых статистикой. Основные требования статистической методологии - исследование массовых объектов и явлений, дифференциация их по группам и подгруппам, определение сводных количественных характеристик (специальных показателей, средних величин, индексов и т.д.). Благодаря этим особенностям выявляются общие, типичные свойства и закономерности явлений, устраняются случайные, единичные особенности последних, выделяются характерные группы и типы явлений. Основной чертой статистической методологии является также конкретность исследований, выражающаяся в неразрывной связи количественного анализа с установлением качественного своеобразия объектов в конкретно-исторических условиях места и времени. В основе статистической методологии лежат методы из математической статистики и других разделов математики, которые воплощаются в статистических методах.

Статистические методы - это совокупность приемов, применяемых в процессе статистического исследования.

Статистическое исследование - процесс изучения явлений на основе статистических методов. Статистические исследования начинаются с подготовительных работ по организации исследований. Они делятся на взаимосвязанные и в большей мере самостоятельные этапы, как правило, обособленные друг от друга во времени, которые называются стадиями. Обычно выделяют три основные стадии: статистическое наблюдение, сводка и обработка материалов, анализ данных. На первой стадии с помощью первичного учета, систематической регистрации и других специальных форм статистического наблюдения собираются массовые статистические данные; на второй стадии эти данные сводятся в систему сводных таблиц с применением системы группировок и сводных величин (обобщающих показателей); на третьей стадии собранные данные анализируются, т.е. проводится сравнение фактов для разных периодов времени, для различных объектов, устанавливаются причины явлений, дается общее описание фактов и объяснение закономерностям, выделяемым с помощью статистических методов. На каждой стадии производится проверка достоверности статистических данных. В процессе анализа обычно совершается дополнительная обработка материалов (перегруппировка, дополнительное исчисление различных коэффициентов, индексов и т.д.), производятся и специальные статистические расчеты. Статистический анализ - завершающее звено статистического исследования, имеющий большое познавательное и практическое значение. Результаты анализа используются при разработке вопросов экономической теории, при прогнозировании и организации работы предприятий, компаний, фирм, ассоциаций, холдингов, концернов и т.д. и отраслей народного хозяйства. Правильность и эффективность выводов и прогнозов статистического анализа зависят от знания природы изучаемого явления и надлежащего использования правил и приемов анализа, разрабатываемых теорий статистики. Статистический анализ опирается на всю совокупность относящихся к рассматриваемому явлению фактов. При анализе комплексно используются разнообразные статистические данные и различные методы их обработки. Проведение статистического анализа требует следующих основных элементов исследования: постановки задачи анализа на основе знакомства с конкретными условиями развития явления, подбора статистических материалов, их критической оценки, систематизации отобранных данных и расчета недостающих показателей, дополнительной обработки материалов при помощи специальных статистических методов и формулировки выводов и практических предложений. Таким образом, статистический анализ изучает статистические данные о явлении для выяснения его характерных признаков и присущих ему в данных конкретных условиях закономерностей. Статистические методы разделяются на две основные группы: методы статистического наблюдения и методы обработки и анализа статистических данных (т.е. результатов наблюдения).

Методы статистического наблюдения (отчетность, переписи, выборочные обследования и др.) позволяют получить массовые и надежные материалы о различных социальных, либо экономических явлениях.

Специфическими для статистики методами обработки данных являются группировки, балансовый метод, исчисление средних величин (метод средних), исчисление индексов (индексный метод), графический метод и др. Группировки рассматриваются в данном случае в широком смысле слова, т.е. речь идет о применении классификаций и номенклатур и о построении специальных групповых и комбинационных таблиц. Под методом средних понимается не только вычисление и анализ различных средних, но и измерение колеблемости величины вокруг среднего уровня. Большое значение для обработки результатов наблюдения во многих областях имеет использование методов теории вероятности и математической статистики. В частности, эти методы применяются для измерения ошибки выборки, анализа связи между факторами и оценки надежности результатов (корреляционное исчисление, дисперсионный анализ и т.д.). В процессе статистического исследования статистические методы обычно применяются комплексно. Например, в анализе рядов динамики сочетается использование таких приемов, как выравнивание рядов, исчисление средних и индексов, построение графиков и т.д.

2. Понятие о статистическом наблюдении

Законченное статистическое исследование состоит из трех последовательных стадий работы: статистического наблюдения, сводки статистических материалов и анализа статистических данных. Статистическое наблюдение - это научно организованный сбор количественных данных о явлениях и процессах, происходящих в различных областях деятельности, с помощью учета первичных данных о каждом отдельном случае или факте, относящемся к изучаемому явлению.

При проведении статистического наблюдения необходимо придерживаться следующих положений:

§ статистическое наблюдение должно проводиться по тщательно разработанной программе;

§ наблюдению должны подвергаться прежде всего те явления и процессы, благодаря которым осуществляется успешная коммерческая деятельность и решаются социальные проблемы;

§ наблюдение должно проводиться по программе, соответствующей целям и задачам наблюдения, со строгим ограничением объекта и единицы наблюдения;

§ наблюдение должно проводиться на научной основе и методами, обеспечивающими доступность, полноту и объективность получаемых сведений;

§ система (форма), виды и способ наблюдения должны выбираться в соответствии с экономической сущностью изучаемого явления или процесса и отвечать конечной цели исследования;

Следующим видом статистической работы является сводка и группировка собранных данных в пределах каждой группы и по совокупности в целом. Обработка статистического материала производится путем построения рядов цифр, таблиц, графиков.

Затем переходят к вычислению обобщающих показателей, которыми заполняют таблицы: относительных величин, средних величин, индексов, показателей вариации и т.д. Этими показателями заполняют таблицы.

Цифровой материал, собранный в результате статистического наблюдения, должен быть достоверным. Это необходимо для того, чтобы по первичным материалам можно было сделать правильные выводы об изучаемой совокупности. Важным требованием, предъявляемым к статистическим данным, является сопоставимость данных во времени, по территории.

Так, например, если целью статистического исследования является изучение развития розничной торговой сети и розничного товарооборота какого-либо региона, то необходимо учесть реорганизацию в пределах административного региона (передачу населенных пунктов другому региону и, наоборот, присоединение населенных пунктов и другие изменения).

Статистические данные должны поступать своевременно. Эти требования необходимы для обеспечения контроля и осуществления оперативного руководства.

3. Понятие о сводке и группировке

Собранный в процессе статистического наблюдения материал представляет собой разрозненные первичные цифровые сведения об отдельных единицах изучаемого явления (объекта). В таком виде материал еще не характеризует явления в целом, так как он слишком разрознен и не классифицирован. Из него не видно ни состава, ни численности, ни существа связей этого явления с другими. Указанные признаки могут быть получены лишь в процессе обработки материалов наблюдения. Это и является задачей второго этапа статистической работы - сводки и группировки результатов статистического наблюдения.

Следовательно, сводка и группировка статистических данных - это последующий этап статистической работы. Статистической сводкой называется получение итоговых данных путем подсчета единичных сведений. Задача сводки состоит в обобщении, подытоживании результатов статистического наблюдения. При этом сводка данных осуществляется посредством одновременной их группировки, так как прежде чем сводить, необходимо произвести группировку собранного материала, т.е. разделять его на группы по одному или нескольким признакам.

Группировка является методом исследования сущности явлений путем расчленения совокупности на группы по определенным признакам. В чем же заключается различие между сводкой и группировкой статистического материала? Например, если подсчитывают итоговые данные объема розничного товарооборота по системе райпотребсоюза - это сводка статистических данных.; Однако итоговые показатели объема розничного товарооборота недостаточно характеризуют состояние торговли в розничной торговой сети, обслуживающей население. Поэтому для более глубокого анализа торгового обслуживания населения проводят группировку торговых предприятий и показывают их распределение по размеру розничного товарооборота и выявляют соотношение мелких, средних и крупных торговых предприятий розничной сети райпотребсоюза.

Выявление связей между явлениями и их признаками - основная задача группировки статистического материала. Явления жизни и их признаки тесно связаны между собой. Так, например, группируя торговые предприятия по размеру розничного товарооборота и исчисляя для каждой группы средний уровень расходов, можно статистически выразить, насколько тесна эта связь. Подобная аналитическая группировка показывает, что уровень издержек обращения на крупных торговых фирмах, компаниях и т.д. в среднем ниже, чем в мелких. Поэтому крупные магазины имеют повышенную рентабельность по сравнению с мелкими, в этом их преимущество. Посредством группировки можно выявить, что объем розничного товарооборота на одно торговое предприятие в городской торговле больше, чем в сельской. Следовательно, в торговых предприятиях, расположенных в городе, расход ниже, чем в функционирующих в сельской местности.

Подводя итог, следует подчеркнуть, что статистическая группировка является основным методом научной обработки статистического материала.

Статистическая группировка - это расчленение изучаемой совокупности на группы и подгруппы по определенным характерным достаточным признакам для глубокого и всестороннего изучения явлений.

Чтобы дать правильное статистическое освещение собранных материалов, необходимо заранее установить перечень показателей, по которым надо получить сводные данные для характеристики исследуемых явлений. Так, для характеристики хозяйственной деятельности фермерских хозяйств важное значение имеют такие показатели, как посевная площадь и ее использование, урожайность сельскохозяйственных культур, количество скота, затраты труда на единицу продукции, себестоимость продукции и ряд других.

4. Роль и значение средних величин

Наряду с абсолютными и относительными величинами в статистике большое применение находят средние величины. В повседневной жизни употребляются термины «в среднем», например, средняя цена, средний расход продуктов, средняя заработная плата, средняя мощность оборудования, средний размер сбережений и т.д.

В экономическом анализе часто приходится оперировать средними величинами в целях лучшего изучения общей картины когда нужно из многих признаков получить величину, в которой отражались бы свойства всех признаков, входящих в состав совокупности.

Средняя величина есть обобщающая количественная характеристика однородных явлений по какому-либо варьирующему признаку.

Следовательно, средняя величина есть обобщающая характеристика совокупности; средняя величина выражает типичное свойств совокупности; средняя величина - величина абстрактная, а недекретная, так как в ней сглаживаются отдельные значения единиц совокупности, имеющие отклонения в ту и другую сторону; реальность средней величины достигается, если она вычисляется из одной совокупности.

Применение средних величин позволяет охарактеризовать определенный признак совокупности одним числом, несмотря на количественные различия единиц по данному признаку внутри совокупности.

4. Понятие о рядах динамики

Изучение явлений жизни в непрерывном их развитии - одна из основных задач статистики. Это вызвано с тем, что все явления, будь то экономические или социальные, изменяются. С течением времени, от месяца к месяцу, от квартала к кварталу изменяется численность населения, его состав, объем произведенной продукции, промышленности и сельского хозяйства, уровень производительности труда и т.д.

Статистика изучает, анализирует изменение этих явлений путем сопоставления различных взаимосвязанных показателей. Эти задачи реализуются при помощи построения рядов динамики.

Рядом динамики называется ряд последовательно расположенных в хронологическом порядке статистических показателей, показываемых при изменении какого-либо явления во времени.

Каждый ряд динамики состоит из даты времени (например, на 1. 01,10.02 и т.д.), периода времени (год, квартал» месяц) и статистических данных, которые называются уровнями ряда динамики.

При помощи построения и анализа рядов динамики выявляются закономерности развития явлений, вскрываются те или иные особенности их развития (периодические и сезонные колебания и т.д.). Условием правильности построения рядов динамики является обеспечение сопоставимости данных, которая достигается тем, что в процессе сбора и обработки данных во всех случаях применяются одинаковые приемы и принципы (показатели рассчитываются за разные периоды времени, относятся к одной и той же территории и т.д.). Для обеспечения соизмеримости иногда данные приводят к сопоставимому виду. Ряды динамики делят на ряды динамики абсолютных величин и ряды динамики производных величин.

статистический наблюдение сводка индекс

5. Понятие об индексах и их значения

Слово «индекс» (лат. index) означает показатель. Однако не всякий показатель является индексом. Объем товарооборота, средняя заработная плата, удельный вес того или иного товара, количество товарооборота, приходящееся на 1 кв. м площади торгового зала, и т.п. - все показатели, характеризующие хозяйственную деятельность. Однако эти показатели не являются индексами.

Индексы - показатели особого рода. Прежде всего, это отношение «относительные величины, характеризующие динамику явления(выполнение плана или сравнение регионов по тем или иным экономическим показателям). От обычных относительных величин индекс отличает то, что они характеризуют отношение сложных явлений складывающихся под влиянием различных причин. Индексы, как правило, не ограничиваются простым показом отношения, а выполняют роль и значение отдельных условий и составных частей данного сложного явления. Например, индекс цен показывает, как изменились цены на все товары или отдельную группу товаров, как снизилось это изменение на соотношении количества и цен отделы товаров, как само изменение цен отразилось на товарообороте, покупательной способности рубля, степени удовлетворения покупательского спроса.

Индекс применяется также для изучения роли факторов, оказывающих влияние на изменение данного явления.

Таким образом, индекс характеризует изменение величины сложного экономического явления, состоящего из элементов, которые непосредственно нельзя суммировать,поэтому он является более сложным и многосторонним показателем, чем относительные или средние величины. Например, можно ли определить все изменения товарооборота в натуральном выражении? Нет, так как реализуемые товары имеют различные натуральные единицы измерения (крупа в килограммах, растительное масло в литрах, обувь в парах, ткани в метрах и т.д.).

Следовательно, складывать объемы разнородных товаров для определения динамики товарооборота нельзя. Суммирование будет возможным только в тех случаях, когда все товары будут приведены к сопоставимому виду, что достигается путем индексных расчетов.

Индексом называется относительная величина, характеризующая изменение сложных экономических явлений по времени и в пространстве и в то же время уровень планового задания и степень выполнения плана.

Элементами любого индекса являются: а) индексируемая величина; б) тип (форма) индекса; в) веса индекса; г) сроки исчисления. В зависимости от элемента (а) возможны индекс цен, индекс физического (натурального) объема продукции, индексы производительности труда и т.д. В зависимости от типа (б) различают индексы агрегатные и индексы средние, а среди последних, смотря по форме средней, индексы средние арифметические, индексы средние гармонические, индексы средние геометрические и т.д. В зависимости от весов (в) различают индексы простые (невзвешенные) и индексы взвешенные, а среди последних - индексы с постоянными (неизменными) весами и индексы с переменными весами (в меру необходимости с течением времени пересматриваемыми). В зависимости от сроков исчисления (г) рассматривают индексы базисные (с постоянной, неизменной во времени базой) и индексы цепные (если числовые значения индексируемой величины в каждый данный «текущий» срок сопоставляются с их значениями в предшествующий срок; иначе, индекс с переменной базой.

Заключение

Статистика является важнейшей в системе экономических процессов, так как она помогает систематизировать и анализировать сведения, характеризующие экономическое и социальное развитие всех сфер общественной жизни.

Именно благодаря различным статистическим методам разные пользователи статистических данных могут использовать более подходящий метод для себя, в зависимости от поставленных целей.

Список литературы

Общая теория статистики: Статистическая методология в изучении коммерческой деятельности. Учебник А.И. Харламов и др. - М. Финансы и статистика, 1994.

Годин А.М. «Статистика» учебник М., 2002

Размещено на Allbest.ru

Подобные документы

    Получение статистических данных для обобщенной характеристики состояния и развития явления. Виды, способы и организационные формы статистического наблюдения. Статистический формуляр, сводка и группировка данных. Статистические таблицы и графики.

    реферат , добавлен 12.11.2009

    Понятие о статистической сводке и группировке. Типологическая, аналитическая, структурная группировка. Понятие структурных сдвигов: сопоставление данных структурных группировок. Техника выполнения группировок: интервальные и дискретные вариационные ряды.

    контрольная работа , добавлен 23.07.2009

    Математические методы систематизации и использования статистических данных для научных и практических выводов. Закон распределения дискретной случайной величины. Понятие генеральной совокупности. Задачи статистических наблюдений. Выборочное распределение.

    реферат , добавлен 10.12.2010

    Методы регистрации, описания и анализа статистических экспериментальных данных, получаемых в результате наблюдения массовых случайных явлений. Обзор задач математической статистики. Закон распределения случайной величины. Проверка правдоподобия гипотез.

    презентация , добавлен 01.11.2013

    Табличный метод представления данных правовой статистики. Абсолютные и обобщающие показатели. Относительные величины, их основные виды и применение. Среднее геометрическое, мода и медиана. Метод выборочного наблюдения. Классификация рядов динамики.

    контрольная работа , добавлен 29.03.2013

    Исторические аспекты развития статистики, ее предмет. Понятие статистической методологии. Организация государственной и международной статистики. Программа и формы статистического наблюдения. Формы вариационного ряда. Средняя арифметическая и ее свойства.

    шпаргалка , добавлен 12.12.2010

    Применение в статистике конкретных методов в зависимости от заданий. Методы массовых наблюдений, группировок, обобщающих показателей, динамических рядов, индексный метод. Корреляционный и дисперсный анализ. Расчет средних статистических величин.

    контрольная работа , добавлен 21.09.2009

    Составление характеристики непрерывного признака. Методы составления приближенного распределения признака, имеющего непрерывное распределения. Относительные частоты и их плотности. Статистическое распределение частот интервального вариационного ряда.

    творческая работа , добавлен 10.11.2008

    Математическая статистика как наука о математических методах систематизации статистических данных, ее показатели. Составление интегральных статистических распределений выборочной совокупности, построение гистограмм. Вычисление точечных оценок параметров.

    курсовая работа , добавлен 10.04.2011

    Функциональные и стохастические связи. Статистические методы моделирования связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Проверка адекватности регрессионной модели.

Пособие предназначено для формирования у читателей компетентности в сфере применения статистических методов и моделей в реальной управленческой деятельности, приобретения навыков и умений, связанных с решением практических задач по обработке статистических данных и максимально полному извлечению из них полезной информации. Материал изложен не совсем традиционно — вначале рассматриваются конкретные и часто встречающиеся в реальном бизнесе задачи, требующие извлечения определенной информации, а затем разбираются и анализируются способы и методы их решения.

Все необходимые для понимания материала теоретические сведения из математической статистики и теории вероятностей помещены в Приложениях, которые можно рассматривать как краткие справочники по соответствующим темам.

Для слушателей программ MBA, магистерских программ высшего образования «Менеджмент», «Маркетинг», студентов, обучающихся по направлению «Менеджмент».

Предисловие...... 7 1. ВВЕДЕНИЕ...... 9 1. 1. Математические модели в бизнесе...... 9 1. 2. Статистические модели...... 12 1. 3. Типы статистических массивов...... 17 1. 4. Типы статистических данных...... 19 1. 5. Требования, предъявляемые к статистической выборке...... 20 2. ОБРАБОТКА И АНАЛИЗ СТАТИСТИЧЕСКОЙ ИНФОРМАЦИИ НА ОСНОВЕ ГРУППИРОВКИ ДАННЫХ...... 24 2. 1. Постановка задачи...... 24 2. 2. Группировка данных. Ряд распределения...... 25 2. 3. Построение рядов распределения и гистограмм в Excel...... 29 2. 4. Области применения метода группировки данных...... 40 Примеры задач и их решения...... 47 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ ВЫБОРКИ: СРЕДНЯЯ, МЕДИАНА, МОДА. ИЗМЕРЕНИЕ РАЗБРОСА ДАННЫХ...... 59 3. 1. Введение...... 59 3. 2. Средняя арифметическая...... 60 3. 3. Медиана...... 65 3. 4. Мода...... 67 3. 5. Какую из средних следует использовать...... 72 3. 6. Измерение разброса данных относительно средних значений...... 73 4. ЗАКОНЫ РАСПРЕДЕЛЕНИЯ И ИХ ПРИМЕНЕНИЕ ДЛЯ РАСЧЕТОВ И АНАЛИЗА...... 77 4. 1. Введение...... 77 4. 2. Основные сведения о законах распределения случайных величин...... 77 4. 3. Эмпирические законы распределения и их содержательный смысл...... 80 4. 4. Переход от эмпирических законов распределения к теоретическим...... 82 Примеры задач и их решения...... 90 5. АНАЛИЗ ВЗАИМОСВЯЗЕЙ МЕЖДУ ЗАВИСИМОЙ ПЕРЕМЕННОЙ И ВЛИЯЮЩИМИ НА НЕЕ ФАКТОРАМИ...... 112 5. 1. Постановка задачи...... 112 5. 2. Анализ взаимосвязей на основе точечных диаграмм (однофакторных регрессионных моделей)...... 114 5. 3. Анализ взаимосвязей между зависимой переменной и влияющими на нее факторами на основе коэффициентов парной корреляции...... 130 Примеры задач и их решения...... 137 6. МНОГОФАКТОРНЫЕ РЕГРЕССИОННЫЕ МОДЕЛИ...... 166 6. 1. Постановка задачи...... 166 6. 2. Оценка качества регрессионных моделей...... 171 6. 3. Построение многофакторных регрессионных моделей в Excel...... 174 6. 4. Нелинейные регрессионные модели...... 181 Примеры задач и их решения...... 193 ПРИЛОЖЕНИЯ. Справочные материалы из теории вероятностей и математической статистики...... 219 Приложение 1. Случайные величины и законы их распределения (краткие сведения)...... 219 П. 1. 1. Понятие о законах распределения случайных величин...... 219 П. 1. 2. Числовые характеристики случайной величины...... 221 П. 1. 3. Основные распределения случайных величин...... 223 Распределение Пуассона...... 223 Равномерное распределение...... 226 Экспоненциальное распределение...... 227 Нормальное распределение...... 230 Логарифмически нормальное распределение...... 237 Приложение 2. Функции случайных величин и законы их распределения (типовые распределения статистики)...... 240 П 2. 1. Сумма и произведение случайных величин...... 240 П 2. 2. Основные распределения в статистике...... 244 П 2. 3. Распределение хи-квадрат...... 245 П 2. 4. Распределение Стьюдента...... 250 П. 2. 5. Распределение Фишера - Снедекора (F-распределение)...... 254 Приложение 3. Элементы математической статистики...... 259 П 3. 1. Понятие о выборочном методе...... 259 П 3. 2. Точечная оценка параметров...... 259 П 3. 3. Интервальная оценка параметров...... 261 П 3. 4. Доверительный интервал для математического ожидания (генеральной средней) случайной величины...... 265 П 3. 5. Доверительный интервал для дисперсии случайной величины...... 266 П 3. 6. Проверка статистических гипотез...... 270 П 3. 7. Проверка гипотезы о виде закона распределения...... 273 П 3. 8. Проверка гипотез о равенстве дисперсий...... 279 Приложение 4. Элементы корреляционного и регрессионного анализа...... 282 П 4. 1. Функциональная, статистическая и корреляционная зависимость...... 282 П 4. 2. Коэффициент корреляции...... 283 П 4. 3. Аппроксимация статистических данных. Метод наименьших квадратов...... 290 П 4. 4. Однофакторные регрессионные модели...... 298 П 4. 5. Интервальное оценивание по уравнению регрессии...... 306 П 4. 6. Множественная регрессия...... 308 Глоссарий...... 313 Литература...... 322

Издательство: "Издательский дом «Дело»" (2011)