[Deep learning] Gradient Descent Optimizer

주어진 목적함수

f

의 최솟값(minimum)을 찾아가는 알고리즘으로 다음과 같은 방식으로 최솟값을 찾아간다.

초기값 $x_{0}$ 을 임의로 설정, 적당한 Learning rate $α$ 설정
$n \geq 0$ 인 정수에 대해서 $x_{n + 1}$ 은 다음과 같이 정의한다.

x_{n + 1} := x_{n} - α \cdot \nabla f (x_{n})

주의사항
- 함수 $f$ 의 모양이 convex가 아닌 경우 global minimum이 아닌 local minimum으로 $x_{n}$ 이 수렴할 가능성이 있다.
- Learning rate $α$ 값이 큰 경우 최솟값으로 $x_{n}$ 이 수렴하는 것이 아니라 발산할 수 있다.
- Learning rate $α$ 값이 작은 경우 수렴하는 속도가 지나치게 느릴 수 있다.

global minimum, local minimum, large learning rate, small learning rate 그래프

방정식

2 \cdot x = 10

의 근을 Gradient Descent를 이용해서 찾아보자.

목적함수 $f (x) := (10 - 2 x)^{2}$ 으로 설정하겠다( $f$ 의 최솟값인 0이 되게 하는 $x$ 값이 우리가 원하는 방정식의 근이다).
초기값 $x_{0} = 0$ , Learning rate $α = 0.05$ 으로 설정

f^{'} (x) = 4 (2 x - 10)

이므로

x_{1}

은 다음과 같이 구할 수 있다.

x_{1} = x_{0} - α \cdot f^{'} (x_{0}) = 0 - 0.05 \cdot (- 40) = 2

그리고

x_{2}

는

x_{2} = x_{1} - α \cdot f^{'} (x_{1}) = 2 - 0.05 \cdot (- 24) = 3.2

반복적으로 이 같은 작업을 하면

x_{n}

의 수열을 다음과 같이 얻을 수 있다.

(x_{n}) = (0, 2, 3.2, 3.92, 4.352, 4.6112, . . .)

Seauence of x 그래프 (가로축 : Steps, 세로축 : x value)

이를 그래프로 나타내면 다음과 같고

x_{n}

은 5로 수렴하는 것을 확인할 수 있다. 이를 TensorFlow code로 작성하면 다음과 같이 작성할 수 있다.

# 방정식 2*x = 10 을 만족하는 x 찾기
# x 초깃값 = 0

X = tf.Variable(0.)
Y = tf.constant(10.)
H = 2 * X


loss = tf.square(H-Y)
optimize = tf.train.GradientDescentOptimizer(0.05).minimize(loss)


sess = tf.Session()
sess.run(tf.global_variables_initializer())
sequence = []

for i in range(10):
    print("x_%i = %s" %(+i, sess.run(X)))
    sess.run(optimize)
    sequence.append(sess.run(X))

plt.suptitle("Sequence of x", fontsize=20)
plt.ylabel("x value")
plt.xlabel("Steps")
plt.plot(sequence, "o")

실행화면

x_0 = 0.0
x_1 = 2.0
x_2 = 3.2
x_3 = 3.92
x_4 = 4.352
x_5 = 4.6112
x_6 = 4.76672
x_7 = 4.86003
x_8 = 4.91602
x_9 = 4.94961

Learning rate가 0.5인 경우(발산)

x_0 = 0.0
x_1 = 20.0
x_2 = -40.0
x_3 = 140.0
x_4 = -400.0
x_5 = 1220.0
x_6 = -3640.0
x_7 = 10940.0
x_8 = -32800.0
x_9 = 98420.0

이 블로그 검색

Simple is best

[Deep learning] Gradient Descent Optimizer

알기 쉬운 산업수학

Gradient Descent Optimizer

실행화면

Learning rate가 0.5인 경우(발산)

댓글

댓글 쓰기

이 블로그의 인기 게시물

[Android] Android Read SQLite database From Assets Folder

[Anaconda][Python][Visual Studio] How to add virtual environment to visual studio python project.

MagicaVoxel black screen