РЕГРЕССИОННЫЙ АНАЛИЗ общая идея | АНАЛИЗ ДАННЫХ #16

Регрессионный анализ общая идея. Как проводить множественный регрессионный анализ? Цель - построение регрессионной модели. Общее назначение множественной регрессии (этот термин был впервые использован в работе Пирсона - Pearson, 1908) состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной. Термин регрессия в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regression to mediocrity), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс — значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной. Цели регрессионного анализа Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными) Предсказание значения зависимой переменной с помощью независимой(-ых) Определение вклада отдельных независимых переменных в вариацию зависимой Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа. Регрессионный анализ – статистический метод, с помощью которого можно построить модель с одной зависимой переменной (откликом) и одной или несколькими независимыми переменными (факторами). Регрессионный анализ позволяет: 1) Выявить, какие из факторов действуют на отклик, а какие – нет. 2) Ранжировать факторы по степени влияния на отклик. 3) Спрогнозировать значение отклика при определенных значениях факторов. Для обеспечения приемлемой точности модели минимальный объем выборки не должен быть меньше величины «число факторов, умножить на 10». Приведем примеры постановок задач для регрессионного анализа. Определить, какие факторы влияют на расход электроэнергии на предприятии, и построить прогноз расходов электроэнергии на ближайший квартал. Планируется строительство нового торгового центра. Требуется спрогнозировать «проходимость» секций будущего торгового центра с целью обоснования ставки арендной платы и оптимальной площади помещений. На основе риэлтерской базы данных по реализованным объектам недвижимости построить прогноз стоимости квартиры с учетом площади, удобств, типа дома и других факторов. Выявить факторы, определяющие долю рынка торговой марки определенных товаров. При покупке автомобиля требуется выбрать такую модель, которая по истечении трех лет службы на вторичном рынке незначительно потеряет в цене. Построенная с помощью регрессионного анализа модель представляет собой уравнение вида: Y=b_0+b_1 X_1+b_2 X_2+⋯+b_k X_k где X_1,X_2,…,X_k – факторы, Y – отклик, b_0,b_1,…,b_k – параметры (коэффициенты) регрессии. Математически, суть регрессионного анализа сводится к нахождению параметров регрессии, проверке их значимости и оценке приемлемости всей построенной линейной модели в целом. Поясним на примере модели с одним количественным фактором. Пусть требуется выяснить, влияет ли на цену объекта недвижимости (у.е.) его площадь (кв.м). Построим график зависимости цены (по вертикальной оси) от площади (по горизонтальной оси). Такой график называется полем корреляции или диаграммой рассеяния. Линия, проходящая через сгущение точек, называется линией регрессии. Она строится согласно методу наименьших квадратов, который заключается в минимизации расстояния по вертикали всех точек поля корреляции от линии регрессии. Если модель, в множественном регрессионном анализе, адекватна, т.е. отражает истинную силу связи цены и площади, то по линии регрессии можно предсказать значение цены при конкретном значении площади объекта недвижимости.

Смотрите также