PGR21.com
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
Date 2016/03/10 18:50:43
Name jjune
Subject [일반] 알파고... 지난 5개월간의 급격한 성능 향상에 대한 상상들...
알파고는 5달전에 판후이(2단?)를 5:0으로 이겼었지만. 기보 내용이 좋지 못하여. 실력을 높게 인정받지 못했습니다.
그런데 오늘도 놀라운 모습을 보여주며 세계 순위 3위권인 이세돌 9단을 이겼습니다. 이제 프로 정상급 이상 실력이란건 누구도 부인하기 어려울껍니다..
도대체 5개월 동안 무슨 일이 있었길래? 이렇게 실력이 급성장했을까요?

(과연 성능이 향상되었을까라는 부분도 논란의 여지가 있는데.. 판후이와의 속기 대전 승률과 비교해 타이젬에서 알파고로 추정되는 플레이어의 속기 승률이 비약적으로 향상된점으로 보아 사견으로는 대국시 시간이 많이 드는 시뮬레이션을 활용하는 부분에서 근본적인 향상이 있었다고 보입니다.. 5개월전 방식은 무조건 시뮬레이션을 사용했는데 이게 수읽기 레벨에 직접적인 영향을 미칠것으로 보여.. 시간을 줄이는 속기시 시뮬레이션을 제한적으로 사용하게 되므로 급격한 성능하락을 막을수가 없을껍니다..)

간단하게 5달전 판후이를 이기고 발표됐던 알파고 알고리즘을 정리하면 다음과 같습니다..(참조: http://spri.kr/download/14726)
단계1: 딥러닝(CNN) 으로 다수(다양한 수준의)의 기보를 이용한 학습 => 정확도 57%
단계2: 단계1에서 만들어진 네트워크를 이용한 자체 대국을 통한 강화 학습 => 기존 바둑프로그램 대비 85% 승률
단계3: 단계2의 프로그램을 이용해 데이터를 만들어 딥러닝(CNN)을 통해 형세판단 기능을 학습 => 오차 0.234
단계4: 단계2의 네트워크를 이용한 다음착수 후보군 결정해서, 단계3과 MCTS 시뮬레이션을 1:1 결합한 방식으로 평가해 후보군중 선택해 다음수 결정

5개월전에는 이런 방식이었는데 과연 어떻게 성능향상이 있었을까 한번 상상해봤습니다...
(일단 하드웨어적으로는 성능향상이 있었을것 같고.. 이것 이외에 소프트웨어적으로 어떻게 향상시켰을까 위주로 생각해봤습니다...)

상상1: 단계1에서 성능 향상? 비록 단계1이 거의 초기 네트워크 정도로만 쓰이지만 57% 정확도는 아무래도 부족하다고 생각합니다. 특히나 다양한 수준의 기보를 혼용해서 썼다면 노이즈가 과도하게 많아서 변수가 충분한 딥러닝을 쓰더라도 그 노이즈가 포용되지 않을 가능성이 큰 것으로 생각되어 학습에 문제가 있는게 아닌가 하는 생각도 듭니다.. 좀 더 수준급 기보만 정제해서 데이터를 구성했다면 딥러닝의 변수로도(심하면 쉘로우 러닝으로도 가능?) 학습 가능한 수준의 노이즈로 줄어 정확도가 많이 올라가지 않을까 합니다..

상상2: 단계2에서 성능 향상? 5개월전 방식이 단계1에서 나온 네트워크간의 대결만으로 강화 학습을 통해 성능 향상을 시켰다고 나오는데.. 이 부분이 조금 이해가 안 갑니다.. 단계4까지 이용하는 최강자를 투입해서 강화학습을 시키면 성능이 더 올라갈꺼 같습니다..

상상3: 단계3에서 성능 향상? 여기도 5개월전 방식에서는 단계2에서의 최강자를 이용해 시뮬레이션을 해서 데이터를 만들어 학습시킨다고 나오는데.. 이 부분도 역시 이해가 안 갑니다.. 역시나 단계4까지 이용하는 최강자를 투입해 더 정확한 학습 데이터를 만들수도 있고.. 이 방법 이외에도 비용만 충분하다면 정상급 프로기사를 활용해 정확한 학습 데이터를 직접적으로 제조할수도 있습니다.. 이렇게 해서 학습시키면 형세판단 네트워크 정확도가 더 올라갈껍니다

상상4: 5개월전 방식에서는 단계4에서 단계3과 MCTS 시뮬레이션을 같은 비중으로 결합한다고 나오는데.. 단계3의 성능이 비약적으로 올라갔다면 시간이 많이 소모되는 MCTS 시뮬레이션의 비중을 낮출수 있어 속기의 승률도 높일 수 있고 남는 시간을 이용해 더 깊은 수읽기도 가능하리라 봅니다....

상상5: 리워드 방식에서도 변화가 가능하리라 봅니다. 5개월전 방식에서는 예상 승률을 최대화 시키는 쪽으로만 리워드를 줬다면... 여기에 몇집 이득인지에 대한 리워드를 혼합해서 넣어서 보완할수 있는 여지가 있죠... 예를 들어 5집 이상 이길 승률을 최대화 시키는 쪽으로 리워드를 줄수도 있고 특히나 국면이 암울할때는 몇집 이득인지에 대한 리워드를 좀 더 중점적으로 쓸수도 있을것 같습니다

통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
솔로11년차
16/03/10 18:53
수정 아이콘
5개월전도 우리가 보기에 기보가 별로였을 뿐, 딱 이길정도로만 뒀을 가능성도 있는 것 같습니다.
릴리스
16/03/10 18:56
수정 아이콘
Elo 레이팅을 보면 판후이랑 붙을 당시의 알파고는 아마 이세돌 9단에게 상대가 안되었을 것 같습니다.

Elo레이팅이 400점 차이날때 하수가 400점 위의 상수 상대로의 승률이 -90%이 됩니다. 당시 알파고와 이세돌이 대략 400점 차이났으니 알파고가 당시엔 이세돌을 거의 못이기는 수준이었다고 봐도 무방할 것 같네요.
16/03/10 18:55
수정 아이콘
판후이때보다 비약적으로 성능이 좋아진게 아닐가능성이큽니다.
이미 그 당시에도 지금과 같은 실력일것이고 인간이 이해를 못한 수였고 상대가 하수였으니 바둑기사들이 평가절하한것이죠
구글에서 그 기간동안 조정이야 있었겠지만 본질적으로 성능이 바뀐건 아닐겁니다.
레모네이드
16/03/10 19:03
수정 아이콘
그당시 알파고의 기력에 대해 구글이 논문에 공개한 elo 레이팅이 많이 낮습니다.
16/03/10 18:58
수정 아이콘
이런종류의 신경망 사스템은 학습에 비해 실력이 늘지않는 한계점에 다다르는 어떤 수렴하는 순간이 옵니다.

제가 알파고 개발자였다면 굳이 안정기에 접어들기전에 실전 대결을 해볼이유가없죠. 학습에 그렇게 오랜시간이 걸리는것도 아닌데...
16/03/10 18:58
수정 아이콘
바뀐 게 있다면 논문이 나올 듯..
왕삼구
16/03/10 19:00
수정 아이콘
성능도 성능이지만 과연 오늘 두었던 알파고의 초반 수들을 처음 두었을까 하는 의문이 들더군요. 프로들이 의야하게 생각했던 것들을 수도 없는 대국을 통해서 이미 가치평가했을 것 같거든요. 오늘 대국 전체와 똑같은 대국은 안나왔겠지만 오늘 둔 바둑의 초반과 똑같은 대국은 사전에 경험을 했을 겁니다. 워낙 단기간에 많은 대국을 할 수 있으니까요.
열역학제2법칙
16/03/10 19:02
수정 아이콘
사실 다른 연구들이 그렇듯 돈과 사람을 갈아넣으면 불가능 한 건 없습니다. 흐흐흐
타임트래블
16/03/10 19:03
수정 아이콘
입력데이터의 차이죠. 처음에는 좀 더 쉬운 아마추어의 기보로 학습시켜 아마추어 최고수를 이겼지만 지금은 프로기사의 대국까지 학습한 상태라 프로 최강자를 이긴 겁니다. 알고리즘 자체가 변화할 여지는 거의 없습니다.
은때까치
16/03/10 19:15
수정 아이콘
처음에도 프로기사들의 대국으로 학습했습니다. supervised learning에 필요한 초기 데이터 수량 확보 때문에 아마추어기보까지 학습한거죠.
그리고 어짜피 기존 기보의 학습은 1단계에 불과하기 때문에 뭘로 시작했든 큰 차이는 없을 것입니다.
은때까치
16/03/10 19:12
수정 아이콘
몇가지 추측할만한 근거가 있습니다. 먼저 딥마인드 CEO는 강화학습으로 [아직 한계를 확인하지 못했다]라고 말했습니다. 큰 알고리즘 변경 없이 self learning만으로 ELO가 계속 올라갔다는걸 간접적으로 시사하는 말이죠.

제 짧은 생각으로는 말씀해주신대로 강화학습을 계속하는 과정에서 알파고의 성능이 비약적으로 상승하면서, 학습하는 기보의 수준이 이에 비례해서 계속해서 상승한게 아닌가 싶습니다. 처음에 학습했던 아마추어 기보 따위는 잊어버릴만큼의 압도적인 분량이 확보되면서 학습 퀄리티가 올라가는거죠.

사실 초기에 SL로 배운 기존 기보들은, 이 스텝까지 와버리면 있으나 마나한 것이 될겁니다. 이세돌과의 기보를 학습하는것도 아무런 의미가 없죠. 이세돌보다 강한 상대(자기자신)와 얼마든지 연습을 할 수 있으니까요.
물만난고기
16/03/10 19:15
수정 아이콘
알파고는 중앙계산이 된다는 점에서 오히려 인간이 불리하다란 댓글을 봤는데 형세판단에서 당연히 인간이 아직까지는 훨씬 우세할 줄 알았으나 그게 아닌 것 같네요.
16/03/10 19:22
수정 아이콘
인간들 전쟁터에 터미네이터가 등장한다면 이런 느낌일까요 ㅠㅠ

그것도 T-800도 아니고 T-1000이.... ㅜㅠ
16/03/10 19:30
수정 아이콘
아뇨 그냥 이기게만 두기 때문에 상대의 실력이 높아질 수록 알파고의 실력이 더 높아 보일거에요

이세돌기사와 대결 후에 아마추어 수준의 바둑기사와 대결을 한다면 딱 그 아마추어 기사에게 승리 할 정도의 기보 밖에 나오지 않을 거에요
세츠나
16/03/10 19:51
수정 아이콘
최선수를 추구한다면 그렇게는 안되지 않나요? 바둑 같은 게임은 근본적으로 최선의 수에 비해 '얼마나 더 못두는가'의 게임이라고도 볼 수 있기 때문에 알파고의 실력이 그때나 지금이나 같았다면 더 쉽게 더 크게 이겼을 겁니다. 굳이 상대에 맞춰서 더 약한 수를 둘 이유가 없죠. 기보는 여전히 프로도 의문스러워하는 수가 나올지 모르지만 결과가 차이날겁니다. 초중반에 2~30집 이상 차이가 나는 불계승이 되었겠죠.
솔로11년차
16/03/10 21:39
수정 아이콘
아니죠. 예를들면 대마를 잡을 확률이 99%지만, 대마를 잡지 않아도 이길 수 있을 경우, '이기는 것'이 포인트기 때문에 집에 거대한 손해가 있더라도 대마를 살려줄 수도 있거든요. 당시와 지금의 실력차가 어느정도인가는 별개로, 이기는데 최선의 수가 반드시 많은 집을 가져가는 수라고는 할 수 없다고 생각합니다.
김테란
16/03/10 20:08
수정 아이콘
보통 완착과 실착은 어느정도는 구분되어서 쓰입니다.
이번 대결에서 승기를 잡은 후 의문의 수들은 완착이라고들 하고 있고,
판후이와의 대국에서 실착이 있었다 하는 것은 여러 검토끝에 확실히 잘못된 수로 판명되었다는 것입니다.
승리를 위해 쉽게 가려고 조금 양보하는 수준의 수를 실착이라 하지는 않거든요.
16/03/11 08:44
수정 아이콘
저도 여기에 동의합니다.

대마를 잡을경우 크게이김, 승률 90%
안전하게 갈 경우 작은 차이로 이김, 승률 92%

이런 상황에서 알파고와 인간의 선택이 달라지지 않을까 싶네요.
16/03/10 19:33
수정 아이콘
바둑이 결국 앞 수를 계산하는 거라고 생각했을 때, 과거 맨손으로 때리던 걸 방망이로 때리고 총을 쏘는 거나 비슷하지 싶어요. 사람 몸이 총칼을 이길 수 없듯이, 인간 두뇌가 컴퓨터의 계산 능력을 이길 수는 없으니까요.
그런 면에서 아직까지도 우리는 맨몸 격투기가 스포츠로 남아있는 것처럼 바둑이란 게임은 존속되지 싶네요. 다만 인간 두뇌에 대한 자만심을 내려놓는 계기가 되는듯합니다.
16/03/10 19:36
수정 아이콘
저거 만든게 인간인걸요?
16/03/10 19:40
수정 아이콘
창조자는 인간이지만, 그것 스스로 발전하죠. 청출어람이죠. 개발자는 이세돌을 바둑으로 못이기구요.
물론 바둑의 영역을 벗어나서 저런 인공지능을 만들었다는 인간 능력도 대단하다고 생각합니다.
16/03/10 21:14
수정 아이콘
머신 러닝 쪽 다시 좀 살펴봐야겠어요..
알파고도 파이썬으로 구성된 부분이 있다던데..
방민아
16/03/10 22:25
수정 아이콘
구글에서 제공하는 머신러닝 api가 파이썬으로 제공됩니다
16/03/11 00:39
수정 아이콘
구글에서 일단 만들때 지지않는 프로그래밍을 했기때문에 이길려고 노력하는 인간은 상대가 .......
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회 추천
64010 [일반] 취미로 바둑을 하는 컴퓨터다 [26] 좋아요8504 16/03/10 8504 8
64009 [일반] 룰라는 타락했는가? 브라질의 비극 [49] santacroce15720 16/03/10 15720 88
64008 [일반] 알파고의 승리에서 떠오르는 망상? [94] 마스터충달9936 16/03/10 9936 0
64007 [일반] 알파고... 지난 5개월간의 급격한 성능 향상에 대한 상상들... [24] jjune8926 16/03/10 8926 1
64006 [일반] [3.10] 김치찌개의 오늘의 메이저리그(이대호 1타점 적시타) [2] 김치찌개3497 16/03/10 3497 0
64005 [일반] 2016 ESPN 선정 NBA 역대 포인트 가드 TOP 10 [22] 김치찌개8641 16/03/10 8641 0
64004 [일반] [바둑] 인공지능의 도전 제2국 - 알파고 불계승 [187] 낭천18814 16/03/10 18814 1
64003 [일반] 개인의 신상정보를 단순히 공개한 것은 처벌받을 일인가요 아닌가요? [35] 삭제됨5318 16/03/10 5318 0
64002 [일반] 불평등의 딜레마: 피케티와 세계화 이슈 [22] santacroce7422 16/03/10 7422 16
64001 비밀글입니다 王天君13064 16/03/10 13064 69
64000 [일반] 음악 프로듀서 조지 마틴 별세 [4] 트라웃3364 16/03/10 3364 0
63999 [일반] 체스판은 딥블루 때문에 망했는가? [23] 최유형14165 16/03/10 14165 11
63998 [일반] 국어국문학과 전공책 나눔합니다. [20] 푸른봄3985 16/03/10 3985 2
63997 [일반] 애초에 바둑은 스포츠가 아닙니다 [90] threedragonmulti12473 16/03/10 12473 14
63996 [일반] 바둑이라는 게임의 깊이, 그리고 인공지능. [8] Quantum6048 16/03/10 6048 4
63994 [일반] 사과하면 죽는 병. [40] 세인트8355 16/03/10 8355 12
63993 [일반] 차단 시스템 이렇게 개선하면? [71] 에버그린5069 16/03/10 5069 0
63992 [일반] 피에스타/비스트/거미/우주소녀/JJCC의 MV와 레드벨벳의 티저 이미지가 공개되었습니다. [11] 효연덕후세우실6015 16/03/10 6015 0
63991 [일반] (인터넷) 개인 방송에 대한 심의 문제 [106] 수면왕 김수면8723 16/03/10 8723 4
63990 [일반] 노를 젓다가 [7] Colorful3758 16/03/10 3758 13
63989 [일반] 한 달 쉬었습니다. [7] 캡틴백호랑이5094 16/03/10 5094 6
63988 [일반] 캐치 유 타임 슬립! - 8 튜토리얼(7) (본격 공략연애물) [6] aura3886 16/03/10 3886 3
63987 [일반] 점점 그럴 나이 [23] The xian4911 16/03/10 4911 6
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로