Параболическая регрессия. Параболическая и полиномиальная регрессии. Виды нелинейной регрессии

1. Какие из следующих измерений относятся к классу наименований измерительных шкал:
а) числа, кодирующие темперамент;


г) телефонные номера.

2. Какие из следующих измерений относятся к классу порядка измерительных шкал:

б) академический ранг как мера продвижения по службе;
в) метрическая система измерения расстояния;
г) телефонные номера.

3. Какие из следующих измерений относятся к классу отношений измерительных шкал:
а) числа, кодирующие темперамент;
б) академический ранг как мера продвижения по службе;
в) метрическая система измерения расстояния;
г) телефонные номера.

4. Какие из следующих признаков относятся количественным видам:

б) родственные связи членов семьи;
в) пол и возраст человека;
г) социальное положение вкладчика;
д) количество детей в семье;
е) розничный товарооборот торговых предприятий.

5. Какие из следующих признаков относятся качественным видам:
а) количество работников на фирме;
б) родственные связи членов семьи;
в) пол и возраст человека;
г) социальное положение вкладчика;
д) количество детей в семье;
е) розничный товарооборот торговых предприятий.

6. Какую шкалу используют при измерении уровня интеллекта человека:
а) наименований;
б) порядковую;
в) интервальную;
г) отношений.

7. Среднее квадратическое отклонение — это:
а) квадрат размаха вариационного ряда;
б) корень квадратный из дисперсии;
в) квадрат коэффициента вариации;
г) квадратный корень из величины размаха вариации.

8. Коэффициент вариации ряда определяется отношением:
а) среднего квадратического отклонения к среднему арифметическому значению ряда;
б) дисперсии к медиане ряда;
в) дисперсии к максимальному значению ряда;
г) абсолютного показателя вариации к среднему арифметическому значению ряда.

9. Мода данного вариационного ряда

x 10 15 35
n 1 2 3

это:
а) 20;
б) 16;
в) 3;
г) 35.

10. Среднее арифметическое значение совокупности это:
а) значение признака в середине вариационного ряда;
б) полуразность максимального и минимального значений вариационного ряда;
в) полусумма максимального и минимального значений вариационного ряда;
г) отношение суммы всех величин совокупности к их общему числу.

11. Известны данные о стаже работы семи продавцов магазина: 2; 3; 2; 5; 10; 7; 1 лет. Найти среднее значение стажа их работы.
а) 4,3 года;
б) 5 лет;
в) 3года;
г) 3,8 года.

12. Ряд распределения это:
а) последовательность выборочных данных;
б) упорядоченное расположение данных по количественному признаку;
в) числовая последовательность данных;
г) последовательность значений, упорядоченная по качественным признакам.

13. Частотой варианты вариационного ряда называется:
а) численность выборки;
б) значение варианты вариационного ряда;
в) численность отдельных вариант или группы вариационного ряда;
г) число групп вариационного ряда.

14. Мода — это:
а) максимальное значение признака совокупности;
б) наиболее часто встречающееся значение признака;
в) среднее арифметическое значение совокупности.

15. Известны данные о стаже работы продавцов магазина: 2; 3; 2; 5; 10; 7; 1. Найти медиану стажа их работы:
а) 4,5 года;
б) 4,3 года;
в) 3 года;
г) 5 лет.

16. Вариационный размах данного вариационного ряда:
x 10 15 20 30
n 1 2 3 2

это:
а) 15;
б) 10;
в) 30;
г) 20.

17. Численность упорядоченного ряда делит пополам:
а) мода;
б) средняя арифметическая;
в) средняя гармоническая;
г) медиана.

18. Статистическая группировка — это:
а) объединение или разделение данных по существенным признакам;
б) научная организация статистического наблюдения;
в) виды отчетности;
г) непосредственный сбор массовых данных.

19. Коэффициент осцилляции это:
а) абсолютный показатель;
б) средний показатель;
в) относительный показатель вариации.

20. Дисперсия вариационного ряда характеризует:
а) среднее значение индивидуальных признаков;
б) рассеяние индивидуальных значений признаков от среднего значения;
в) среднеквадратическое отклонение.

21. Уравнение прямолинейной функции регрессии отображает динамику развития:
а) с переменным ускорением;

в) равномерное;
г) равноускоренное.

22. Если величина коэффициента корреляции равна 0,6, то по шкале Чедд.ка:
а) связь практически отсутствует;
б) связь слабая;
в) связь умеренная;
г) связь сильная.

23. Данные представляют оценки взрослых людей в тесте на определение коэффициента интеллектуальности Стенфорда-Бине 104, 87, 101, 130, 148, 92, 97, 105, 134, 121. Найти размах вариации:
а) 61;
б) 60;
в) 75.

24. Найти среднюю арифметическую взвешанную для следующего интервального ряда:

li ni
10-14 1
15-19 1
20-24 4
25-29 2
30-34 4

а) 24;
б) 24,92;
в) 25,38.

25. Вычислить медиану следующего ряда 2,1; 1,5; 1,6; 2,1; 2,4:
а) 2;
б) 1,5;
в) 2,1.

26. Вычислить моду следующего интервального ряда

частота 5-7 8-10 11-13 14-16
интервал 4 7 26 41

а) 14;
б) 14,54;
в) 15,23;

27. Какие из следующих измерений относятся к классу наименований измерительных шкал:
а) диагноз больного;
б) автомобильные номера;
в) твердость минерала;
г) календарное время;
д) вес человека.

28. Какие из следующих измерений относятся к классу порядковый измерительных шкал:
а) диагноз больного;
б) автомобильные номера;
в) твердость минерала;
г) календарное время;
д) вес человека.

29. Какие из следующих измерений относятся к классу интервальный измерительных шкал:
а) диагноз больного;
б) автомобильные номера;
в) твердость минерала;
г) календарное время;
д) вес человека.
30. Какие из следующих измерений относятся к классу отношений измерительных шкал:
а) диагноз больного;
б) автомобильные номера;
в) твердость минерала;
г) календарное время;
д) вес человека.

31. Какую шкалу используют при измерении времени:
а) интервальную;
б) отношений;
в) Чеддока.

32. К количественным видам относятся следующие признаки:
а) рост человека;
б) награды за заслуги;
в) цвет глаз;
г) автомобильные номера.

33. К качественным видам относятся следующие признаки:
а) рост человека;
б) награды за заслуги;
в) цвет глаз;
г) автомобильные номера

34. Вычислить моду

xi 5 8 10 13 14
ni 7 4 5 9 1

а) 10;
б) 11;
в) 13

35. В больших по счету числу учеников в классах наблюдается меньшие успехи в приобретении знаний за четверть, чем в небольших классах. Что является результативным признаком?
а) число учеников в классе;
б) успехи в приобретении знаний,
в) число учеников с успехами в приобретении знаний.

36. Длина интервала в интервальном ряду – это:
а) размах вариации поделенное на среднеарифметическое значение;
б) размах вариации поделенный на число групп;
в) дисперсия поделенная на объем выборки.

37. Пример парной корреляции: ученики, научившиеся читать раньше других имеют тенденцию к более высокой успеваемости. Какой из этих признаков: умение рано читать или высокая успеваемость ученика является факторным признаком?
а) умение рано читать;
б) высокая успеваемость;
в) ни один из них.

38. Какой из следующих методов можно применять при сравнении средних трех и более выборок:
а) тест Стьюдента;
б) тест Фишера;
в) дисперсионный анализ.

39. Объем выборки вариационного ряда

xi 10 15 20 30
ni 1 2 3 2

а) 5;
б) 8;
в) 12;
г) 30.

40. Мода вариационного ряда

xi 10 15 20 25
ni 1 5 4 3

а) 15;
б) 5;
в) 23;
г) 3.

41. Уравнение параболической функции регрессии отражает динамику развития:
а) с переменным ускорением;
б) с замедлением роста в конце периода;
в) равномерное;
г) равноускоренное.

42.Коэффициент регрессии В показывает:
а) ожидаемое значение зависимой переменной при нулевом значении предиктора
б) ожидаемое значение зависимой переменной при изменении предиктора на единицу
в) вероятность ошибки регрессии
г) этот вопрос еще окончательно не решен

43. Выборка — это:
а) все множество объектов, по поводу которых строятся рассуждения исследователя;
б) множество объектов, доступных для эмпирического исследования;
в) все возможные значения дисперсии;
г) то же, что и рандомизация.

44. Какой из следующих коэффициентов корреляции демонстрирует наибольшую связь переменных:
а) -0.90;
б) 0;
в) 0.07;
г) 0.01.

45. Генеральная совокупность — это:
а) все множество объектов, по поводу которых строятся рассуждения исследователя;
б) множество объектов, доступных для эмпирического исследования;
в) все возможные значения математического ожидания;
г) нормальное распределение.

46. Как соотносятся объемы выборки и генеральной совокупности:
а) выборка как правило значительно меньше генеральной совокупности;
б) генеральная совокупность всегда меньше выборки;
в) выборка и генеральная совокупность практически всегда совпадают;
г) нет правильного ответа.

47. Точечно-бисериальный коэффициент корреляции является частным случаем коэффициента корреляции:
а) Спирмена;
б) Пирсона;
в) Кендала;
г) все ответы верны.

48. При каком минимальном уровне значимости принято отвергать нулевую гипотезу?
а) 5% уровень
б) 7 % уровень
в) 9 % уровень
г) 10% уровень

49. Какой из следующих методов обычно применяют при сравнении средних в двух нормальных выборках:
а) тест Стьюдента;
б) тест Фишера;
в) однофакторный дисперсионный анализ;
г) корреляционный анализ.

50. С помощью чего проверяются статистические гипотезы:
а) статистик;
б) параметров;
в) экспериментов;
г) наблюдения.

51. Какое из следующих значений коэффициента корреляции невозможно:
а) -0.54;
б) 2.18;
в) 0; г) 1.

52. Какое преобразование необходимо произвести при сравнении двух коэффициентов корреляции:
а) Стьюдента;
б) Фишера;
в) Пирсона;
г) Спирмена.

53. Что такое медиана распределения:
а) то же, что и биссектриса;
б) то же, что и мода;
в) среднее арифметическое;
г) 50%-ый квантиль распределения;
д) нет правильного ответа.

54. Точечно-биссериальный коэффициент корреляции является частным случаем коэффициента корреляции:
а) Спирмена;
б) Пирсона;
в) Кендалла;
г) все ответы верны.

55.Какая из следующих переменных является дискретной:
а) тип темперамента;
б) уровень интеллекта;
в) время реакции;
г) все ответы верны.

56. В каком диапазоне может изменяться коэффициент корреляции:
а) от –1 до 1;
б) от 0 до 1;
в) от 0 до 100;
г) в любом.

57. По поводу чего выдвигаются статистические гипотезы:
а) понятий;
б) статистик;
в) выборок;
г) параметров.

58. Как называется непараметрический аналог дисперсионного анализа:
а) тест Стьюдента;
б) метод Краскела-Уоллиса;
в) тест Вилкоксона;
г) тест Манна-Уитни.

59. Понятие коэффициента корреляции было впервые разработано в работах:
а) Фишера;
б) Стьюдента;
в) Пирсона;
г) Спирмена.

60. Какая из следующих статистик является несмещенной оценкой математического ожидания:
а) среднее арифметическое;
б) мода;
в) медиана;
г) все ответы верны.

61. Как соотносятся коэффициенты корреляции Пирсона и Спирмена:
а) коэффициент Пирсона является частным случаем Спирмена;
б) коэффициент Спирмена является частным случаем Пирсона;
в) эти коэффициенты имеют различную логику построения;
г) это одно и то же.

62. Согласно теоретическим предположениям дисперсионного анализа, F-отношение не может быть:
а) равно 1;
б) больше 1;
в) меньше 1;
г) нет правильного ответа.

Зависимость между переменными величинами X и У может быть описана разными способами. В частности, любую форму связи можно выразить уравнением общего вида у= f(х), где у рассматривают в качестве зависимой переменной, или функции от другой - независимой переменной величины х, называемой аргументом . Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д. Изменение функции в зависимости от изменений одного или нескольких аргументов называется регрессией .

Термин «регрессия» (от лат. regressio - движение назад) ввел Ф. Гальтон, изучавший наследование количественных признаков. Он обнаружил. что потомство высокорослых и низкорослых родителей возвращается (регрессирует) на 1/3 в сторону среднего уровня этого признака в данной популяции. С дальнейшем развитием науки, этот термин утратил свое буквальное значение и стал применяться для обозначения и корреляционной зависимости между переменными величинами Y и X.

Различных форм и видов корреляционных связей много. Задача исследователя сводится к тому, чтобы в каждом конкретном случае выявить форму связи и выразить ее соответствующим корреляционным уравнением, что позволяет предвидеть возможные изменения одного признака Y на основании известных изменений другого X, связанного с первым корреляционно.

Уравнение параболы второго рода

Иногда связи, между переменными Y и X можно выразить через формулу параболы

Где a,b,c - неизвестные коэффициенты которые и надо найти, при известных измерениях Y и X

Можно решать матричным способом, но есть уже рассчитанные формулы, которыми мы и воспользуемся

N - число членов ряда регресии

Y - значения переменной Y

X - значения переменной X

Если вы будете пользоваться этим ботом через XMPP клиента, то синаксис такой

regress ряд X;ряд Y;2

Где 2 - показывает что регрессию рассчитываем как нелинейную в виде параболы второго порядка

Что ж, пора проверить наши расчеты.

Итак есть таблица

X Y
1 18.2
2 20.1
3 23.4
4 24.6
5 25.6
6 25.9
7 23.6
8 22.7
9 19.2

Линейная регрессия

Уравнение линейной регрессии представляет собой уравнение прямой, аппроксимирующей (приблизительно описывающей) зависимость между случайными величинами X и Y.

Рассмотрим случайную двумерную величину (X, Y), где -- зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением величины в виде линейной функции величины X:

где -- параметры, подлежащие определению. Это можно сделать различными способами: наиболее употребительный из них -- метод наименьших квадратов. Функцию g(x) называют среднеквадратической регрессией Y на X. Функцию g(x) называют среднеквадратической регрессией Y на X.

где F -- суммарное квадратичное отклонение.

Подберем a и b так, чтобы сумма квадратов отклонений была минимальной. Для того, чтобы найти коэффициенты a и b, при которых F достигает минимального значения, приравняем частные производные к нулю:

Находим a и b. Выполнив элементарные преобразования, получим систему двух линейных уравнений относительно a и b:

где -- объём выборки.

В нашем случае A = 3888; B =549; C =8224; D = 1182;N = 100.

Найдём a и b из этой линейной. Получим стационарную точку для где 1,9884; 0,8981.

Следовательно, уравнение примет вид:

y = 1,9884x + 0,8981


Рис. 10

Параболическая регрессия

Найдем по данным наблюдений выборочное уравнение кривой линии среднеквадратичной (параболической в нашем случае) регрессии. Воспользуемся методом наименьших квадратов для определения p, q, r.

Ограничимся представлением величины Y в виде параболической функции величины X:

где p, q, и r -- параметры, подлежащие определению. Это можно сделать с помощью метода наименьших квадратов.

Подберем параметры p, q и r так, чтобы сумма квадратов отклонений была минимальной. Так как каждое отклонение зависит от отыскиваемых параметров, то и сумма квадратов отклонений есть функция F этих параметров:

Для отыскания минимума приравняем к нулю соответствующие частные производные:

Находим p, q и r. Выполнив элементарные преобразования, получим систему трех линейных уравнений относительно p, q и r:

Решая эту систему методом обратной матрицы, получим: p = -0,0085; q = 2,0761;

Следовательно, уравнение параболической регрессии примет вид:

y = -0,0085x 2 + 2,0761x + 0,7462

Построим график параболической регрессии. Для удобства наблюдения график регрессии будет на фоне диаграммы рассеивания (см. рисунок 13).


Рис. 13

Теперь изобразим линии линейной регрессии и параболической регрессии на одной диаграмме, для наглядного сравнения (см. рисунок 14).


Рис. 14

Линейная регрессия изображена красным цветом, а параболическая -- синим. По диаграмме видно, что отличие в данном случае больше, чем при сравнении двух линий линейных регрессий. Требуется дальнейшее исследование, какая же регрессия лучше выражает зависимость между x и y, т. е. какой тип зависимости между x и y.

Рассмотрим парную линейную регрессионную модель взаимосвязи двух переменных, для которой функция регрессии φ(х) линейна. Обозначим черезy x условную среднюю признакаY в генеральной совокупности при фиксированном значенииx переменнойХ . Тогда уравнение регрессии будет иметь вид:

y x = ax + b , гдеa коэффициент регрессии (показатель наклона линии линейной регрессии). Коэффициент регрессии показывает, на сколько единиц в среднем изменяется переменнаяY при изменении переменнойХ на одну единицу. С помощью метода наименьших квадратов получают формулы, по которым можно вычислять параметры линейной регрессии:

Таблица 1. Формулы для расчета параметров линейной регрессии

Свободный член b

Коэффициент регрессии a

Коэффициент детерминации

Проверка гипотезы о значимости уравнения регрессии

Н 0 :

Н 1 :

, ,, Приложение 7 (для линейной регрессии р = 1)

Направление связи между переменными определяется на основании знака коэффициента регрессии. Если знак при коэффициенте регрессии положительный, связь зависимой переменной с независимой будет положительной. Если знак при коэффициенте регрессии отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).

Для анализа общего качества уравнения регрессии используют коэффициент детерминации R 2 , называемый также квадратом коэффициента множественной корреляции. Коэффициент детерминации (мера определенности) всегда находится в пределах интервала . Если значениеR 2 близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значениеR 2 близкое к нулю, означает плохое качество построенной модели.

Коэффициент детерминации R 2 показывает, на сколько процентовнайденная функция регрессии описывает связь между исходными значениямиY иХ . На рис. 3 показана– объясненная регрессионной моделью вариация и- общая вариация. Соответственно, величинапоказывает, сколько процентов вариации параметраY обусловлены факторами, не включенными в регрессионную модель.

При высоком значении коэффициента детерминации 75%) можно делать прогноздля конкретного значенияв пределах диапазона исходных данных. При прогнозах значений, не входящих в диапазон исходных данных, справедливость полученной модели гарантировать нельзя. Это объясняется тем, что может проявиться влияние новых факторов, которые модель не учитывает.

Оценка значимости уравнения регрессии осуществляется с помощью критерия Фишера (см. табл. 1). При условии справедливости нулевой гипотезы критерий имеет распределение Фишера с числом степеней свободы , (для парной линейной регрессиир = 1 ). Если нулевая гипотеза отклоняется, то уравнение регрессии считается статистически значимым. Если нулевая гипотеза не отклоняется, то признается статистическая незначимость или ненадежность уравнения регрессии.

Пример 1. В механическом цехе анализируется структура себестоимости продукции и доля покупных комплектующих. Было отмечено, что стоимость комплектующих зависит от времени их поставки. В качестве наиболее важного фактора, влияющего на время поставки, выбрано пройденное расстояние. Провести регрессионный анализ данных о поставках:

Расстояние, миль

Время, мин

Для проведения регрессионного анализа:

    построить график исходных данных, приближенно определить характер зависимости;

    выбрать вид функции регрессии и определить численные коэффициенты модели методом наименьших квадратов и направление связи;

    оценить силу регрессионной зависимости с помощью коэффициента детерминации;

    оценить значимость уравнения регрессии;

    сделать прогноз (или вывод о невозможности прогнозирования) по принятой модели для расстояния 2 мили.

2. Вычислим суммы, необходимые для расчета коэффициентов уравнения линейной регрессии и коэффициента детерминации R 2 :

; ;;.

Искомая регрессионная зависимость имеет вид: . Определяем направление связи между переменными: знак коэффициента регрессии положительный, следовательно, связь также является положительной, что подтверждает графическое предположение.

3. Вычислим коэффициент детерминации: или 92%. Таким образом, линейная модель объясняет 92% вариации времени поставки, что означает правильность выбора фактора (расстояния). Не объясняется 8% вариации времени, которые обусловлены остальными факторами, влияющими на время поставки, но не включенными в линейную модель регрессии.

4. Проверим значимость уравнения регрессии:

Т.к. – уравнение регрессии (линейной модели) статистически значимо.

5. Решим задачу прогнозирования. Поскольку коэффициент детерминации R 2 имеет достаточно высокое значение и расстояние 2 мили, для которого надо сделать прогноз, находится в пределах диапазона исходных данных, то можно сделать прогноз:

Регрессионный анализ удобно проводить с помощью возможностей Exel . Режим работы "Регрессия" служит для расчета параметров уравнения линейной регрессии и проверки его адекватности исследуемому процессу. В диалоговом окне следует заполнить следующие параметры:

Пример 2. Выполнить задание примера 1 с помощью режима "Регрессия" Exel .

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

R-квадрат

Нормированный R-квадрат

Стандартная ошибка

Наблюдения

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

Переменная X 1

Рассмотрим представленные в таблице результаты регрессионного анализа.

Величина R-квадрат , называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). В нашем примере мера определенности равна 0,91829, что говорит об очень хорошей подгонке регрессионной прямой к исходным данным и совпадает с коэффициентом детерминации R 2 , вычисленным по формуле.

Множественный R - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных (X) и зависимой переменной (Y) и равен квадратному корню из коэффициента детерминации. В простом линейном регрессионном анализе множественный коэффициент R равен линейному коэффициенту корреляции (r = 0,958).

Коэффициенты линейной модели: Y -пересечение выводит значение свободного члена b , а переменная Х1 – коэффициента регрессии а. Тогда уравнение линейной регрессии:

у = 2,6597 x + 5,9135 (что хорошо согласуется с результатами расчета в примере 1).

Далее проверим значимость коэффициентов регрессии: a и b . Сравнивая попарно значения столбцов Коэффициенты и Стандартная ошибка в таблице, видим, что абсолютные значения коэффициентов больше, чем их стандартные ошибки. К тому же эти коэффициенты являются значимыми, о чем можно судить по значениям показателя Р-значение, которые меньше заданного уровня значимости α=0,05.

Наблюдение

Предсказанное Y

Остатки

Стандартные остатки

В таблице представлены результаты вывода остатков . При помощи этой части отчета мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее абсолютное значение остатка в данном случае - 1,89256, наименьшее - 0,05399. Для лучшей интерпретации этих данных строят график исходных данных и построенной линией регрессии. Как видно из построения, линия регрессии хорошо "подогнана" под значения исходных данных, а отклонения носят случайный характер.

Что еще почитать