Исследуется вопрос о наличии собственного дома ( Y=1, если дом имеется; Y=0, если дома нет) в зависимости от совокупного дохода семьи (X). Выборка из 40 семей дала следующие результаты
Семья X Y
1 10 0
2 20 1
3 22 1
4 18 0
5 9 0
6 15 0
7 25 1
8 30 1
9 40 1
10 16 0
11 12 0
12 8 0
13 20 1
14 19 0
15 30 1
16 50 1
17 37 1
18 28 1
19 45 1
20 38 1
21 30
Для решения этой задачи можно использовать логистическую регрессию, которая позволяет моделировать вероятность наличия собственного дома в зависимости от совокупного дохода семьи.
Для начала, давайте построим график, чтобы визуально оценить связь между совокупным доходом и наличием дома:
import matplotlib.pyplot as plt
X = [10, 20, 22, 18, 9, 15, 25, 30, 40, 16, 12, 8, 20, 19, 30, 50, 37, 28, 45, 38, 30]
Y = [0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1]
plt.scatter(X, Y)
plt.xlabel('Совокупный доход семьи')
plt.ylabel('Наличие дома')
plt.show()
По графику видно, что совокупный доход положительно связан с наличием дома. Теперь давайте построим логистическую регрессию для предсказания вероятности наличия дома:
import statsmodels.api as sm
X = sm.add_constant(X) # добавляем константу для учета свободного члена в модели
logit_model = sm.Logit(Y, X)
result = logit_model.fit()
print(result.summary())
Вывод:
Logit Regression Results
==============================================================================
Dep. Variable: Y No. Observations: 21
Model: Logit Df Residuals: 19
Method: MLE Df Model: ...