gradient-descent

Causas comunes de nans durante el entrenamiento

He notado que una ocurrencia frecuente durante el entrenamiento se está introduciendo NAN. Muchas veces parece ser introduci ... N ocurran durante el entrenamiento? Y en segundo lugar, ¿cuáles son algunos métodos para combatir esto (y por qué funcionan)?

por qué descenso de gradiente cuando podemos resolver la regresión lineal analíticamente

¿Cuál es el beneficio de usar el Descenso de Gradiente en el espacio de regresión lineal? parece que podemos resolver el pro ... func) con el método analítico, así que ¿por qué todavía queremos usar el descenso de gradiente para hacer lo mismo? gracias

descenso de gradiente usando python y numpy

def gradient(X_norm,y,theta,alpha,m,n,num_it): temp=np.array(np.zeros_like(theta,float)) for i in range(0,num_it): ... m_it) print theta Mi theta del código anterior es 100.2 100.2, pero debería ser 100.2 61.09 en matlab, lo cual es correcto.

Sklearn SGDClassifier ajuste parcial

Estoy tratando de usar SGD para clasificar un conjunto de datos grande. Como los datos son demasiado grandes para caber en la ... r 60 veces sobre los datos para alcanzar la misma precisión. ¿por Qué esta diferencia (5 vs 60)? O estoy haciendo algo mal?

el descenso de gradiente parece fallar

Implementé un algoritmo de descenso de gradiente para minimizar una función de costo con el fin de obtener una hipótesis para ... p=0; for i=1:m, tmp = tmp+ (theta (1,1) + theta (2,1)*X(i,2) - y(i))^2; %differenzberechnung end J= (1/(2*m)) * tmp end

¿Qué es el meta parámetro 'pérdida de peso' en Caffe?

Mirando un ejemplo 'solver.prototxt', publicado en BVLC / caffe git, hay un parámetro meta de entrenamiento weight_decay: 0.04 ¿Qué significa este meta parámetro? ¿Y qué valor debo asignarle?