Навіщо бізнесу лінійна регресія?

Застосування аналітики даних в бізнес-процесах сьогодні вже більше не примха окремих техгігантів, а сувора необхідність.

Якщо раніше бізнес аналітика давала конкурентну перевагу, то сьогодні це одна з небагатьох, а часто єдина можливість збільшити прибутковість бізнесу. В цьому відношенні корисно зрозуміти перший і найголовніший інструмент аналітики даних, а саме, лінійну регресію.

Лінійна регресія часто дає прогноз, який за якістю не набагато поступається більш сучасним методам машинного навчання (таким як random forest, extreme boosting algorithm тощо). Але на відміну від цих сучасних методів, які часто представляють собою “black-box”, регресія має перевагу інтуїтивної і простої інтерпретації отриманої моделі.

Лінійна регресія дозволяє моделювати лінійну залежність однієї змінної (дохід, витрати) від декількох інших (вік, стать, рівень освіти тощо). Лінійна регресія (і її похідні) є основним методом прогнозування в бізнесі та дозволяє прогнозувати безперервні, бінарні, панельні дані, часові ряди і т.д., і т.п. Класична регресія, розроблена Гаусом і Марковим на основі методу мінімізації суми квадратів найменших відхилень, дає стабільні за якістю прогнози. Включена абсолютно в усі (!) статистичні пакети як основний інструмент аналізу і прогнозування

Уявіть, що рітейлер (або FMCG компанія) зацікавлений у визначенні витрат на їжу домогосподарства, залежно від його характеристик. Це дозволить краще таргетувати певні категорії громадян під час рекламної кампанії. Припустимо, що ми зібрали у файлі MS Excel дані про витрати на їжу (залежна змінна), а також декілька незалежних змінних (вік респондента, рівень освіти та самооцінка рівня доходу), які можуть впливати на витрати на їжу https://i0.wp.com/obrizan.org/wp-content/uploads/2021/06/%D0%94%D0%B0%D0%BD%D1%96%D0%A0%D0%B5%D0%B3.png?w=369&ssl=1

В цьому прикладі ми застосували дві індикаторні змінні, що стосуються рівня освіти. Наприклад, якщо респондент має Вищу освіту, то індикаторна змінна «Має вищу освіту» дорівнює 1, а в інших випадках – 0.

Лінійна регресія може приймати форму:

Витрати на їжу = а0 + а1*Вік + а2*Проф. освіта + а3*Вища освіта + а4*Самооцінка доходу від 1 до 10

Після оцінки моделі ми можемо дати відповіді на три ключові питання. По-перше, ми зможемо сказати які чинники (вік, освіта тощо) впливають на витрати, а які не впливають. По-друге, ми зможемо оцінити величину цього впливу. Найголовніше, ми зможемо спрогнозувати витрати для нового респондента, знаючи його характеристики.

Оцінена модель може виглядати, наприклад, як:

Витрати на їжу = 21340 – 160*Вік + 1440*Проф. освіта + 5900*Вища освіта + 1270*Самооцінка доходу від 1 до 10

21340 – константа показує витрати для базового респондента (новонароджений, з середньої освітою та 0 самооцінкою доходу). Витрати падають на 160 грн для респондентів старших на 1 рік, а респонденти з вищою освітою витрачають на 5900 грн більше.

Модель, яку ми оцінили, дозволяє дуже просто спрогнозувати витрати на їжу, наприклад, для 30-річного респондента з професійної освітою та самооцінкою доходу на рівні 6

21340 – 160*30 + 1440 + 1270*6 = 25600 грн

та для інших респондентів поза вибіркою. В наступних стаття ми познайомимося з поняттями практичної та статистичної значимості, вибором оптимальної моделі та навчимося оцінювати лінійну регресію в MS Excel.

Коментарі

Залишити коментар

Ваше ім’я

Будь ласка, введіть ваше ім’я

Коментар

Будь ласка, введіть коментар.

1000 символів

надсилати мені нові коментарі за цією темою

Будь ласка, введіть email

або Відмінити

Інші статті в категорії IT, програмування, розробка Project management, управління проектами Бізнес освіта, MBA