OLS vs. gradient descent ?
При OLS linear regression в статистиката, казваме, че при определени assumptions за errors и variables, OLS estimator, е този, който е BLUE (best linear unbiased estimator). Намираме параметрите а(intercept), b(slope), които най добре минимизират грешките (или distances btw. y and ỹ
В Maschine Learning се изчислява gradient descent.
Дали може на лекциите да се поясни каква е причината за това? Какви качества има по-добри от тези на OLS, Maximum Likelihood и др. техники ?
Как точно изчисляваме gradient descent. Взимат се a и b близки до нула, изчисляваме посоката към минимума, но кои точки се взимат при следващата итерация?
В този смисъл при linear regression оценена с gradient descent, оценяваме ли въобще втория момент – variance (sigma squared) и интересуваме ли се от signifigance levels при impact на съответните variables и т.н.