Wykres rozproszenia to rodzaj wykresu, który służy do reprezentowania sparowane dane. Zmienna objaśniająca jest wykreślana wzdłuż osi poziomej, a zmienna odpowiedzi jest wykreślana wzdłuż osi pionowej. Jednym z powodów korzystania z tego typu wykresu jest poszukiwanie zależności między zmiennymi.
Najbardziej podstawowym wzorem, którego należy szukać w zestawie sparowanych danych, jest linia prosta. Poprzez dowolne dwa punkty możemy narysować linię prostą. Jeśli na naszym wykresie rozrzutu są więcej niż dwa punkty, przez większość czasu nie będziemy już w stanie narysować linii przechodzącej przez każdy punkt. Zamiast tego narysujemy linię, która przechodzi przez środek punktów i wyświetla ogólny trend liniowy danych.
Gdy patrzymy na punkty na naszym wykresie i chcemy narysować linię przez te punkty, pojawia się pytanie. Którą linię powinniśmy narysować? Istnieje nieskończona liczba linii, które można narysować. Używając samych oczu, jasne jest, że każda osoba patrząca na wykres rozrzutu może stworzyć nieco inną linię. Ta dwuznaczność stanowi problem. Chcemy mieć dobrze zdefiniowany sposób, aby każdy mógł uzyskać tę samą linię. Celem jest dokładny matematycznie opis, która linia powinna zostać narysowana. Najmniejsze kwadraty
linia regresji jest jedną z takich linii przez nasze punkty danych.Najmniejsze kwadraty
Nazwa linii najmniejszych kwadratów wyjaśnia, co robi. Zaczynamy od zbioru punktów o współrzędnych podanych przez (xja, yja). Każda linia prosta przechodzi między tymi punktami i albo przechodzi powyżej, albo poniżej każdego z nich. Możemy obliczyć odległości od tych punktów do linii, wybierając wartość x a następnie odejmując zaobserwowane y współrzędna, która odpowiada temu x z y współrzędna naszej linii.
Różne linie przechodzące przez ten sam zestaw punktów dawałyby inny zestaw odległości. Chcemy, aby odległości te były tak małe, jak to możliwe. Ale jest problem. Ponieważ nasze odległości mogą być dodatnie lub ujemne, suma wszystkich tych odległości się znosi. Suma odległości zawsze będzie równa zero.
Rozwiązaniem tego problemu jest wyeliminowanie wszystkich liczb ujemnych poprzez wyrównywanie odległości między punktami a linią. Daje to zbiór liczb nieujemnych. Nasz cel polegający na znalezieniu linii najlepszego dopasowania jest taki sam, jak uczynienie sumy tych kwadratowych odległości możliwie najmniejszymi. Na ratunek przybywa rachunek różniczkowy. Proces różnicowania w rachunku różniczkowym umożliwia zminimalizowanie sumy kwadratowych odległości od danej linii. To wyjaśnia wyrażenie „najmniejszych kwadratów” w naszej nazwie dla tego wiersza.
Linia najlepszego dopasowania
Ponieważ linia najmniejszych kwadratów minimalizuje kwadratowe odległości między linią a naszymi punktami, możemy myśleć o tej linii jako tej, która najlepiej pasuje do naszych danych. Dlatego linia najmniejszych kwadratów jest również znana jako linia najlepszego dopasowania. Ze wszystkich możliwych linii, które można narysować, linia najmniejszych kwadratów jest najbliższa zestawowi danych jako całości. Może to oznaczać, że nasza linia nie trafi w żaden punkt w naszym zbiorze danych.
Cechy linii najmniejszych kwadratów
Istnieje kilka funkcji, które posiada każda linia najmniejszych kwadratów. Pierwszy interesujący przedmiot dotyczy nachylenia naszej linii. Stok ma połączenie z Współczynnik korelacji naszych danych. W rzeczywistości nachylenie linii jest równe r (sy/ sx). Tutaj s x oznacza odchylenie standardowe wartości x współrzędne i s y standardowe odchylenie y współrzędne naszych danych. Znak współczynnika korelacji jest bezpośrednio związany ze znakiem nachylenia naszej linii najmniejszych kwadratów.
Kolejna cecha linii najmniejszych kwadratów dotyczy punktu, przez który przechodzi. Podczas, gdy y przecięcie linii najmniejszych kwadratów może nie być interesujące z statystycznego punktu widzenia, jest jeden punkt. Linia co najmniej kwadratów przechodzi przez środkowy punkt danych. Ten środkowy punkt ma x współrzędna czyli oznaczać z x wartości i a y współrzędna, która jest średnią z y wartości.