2016年3月Alpha Go令人震撼地打敗韓國棋王李世乭,所有關心圍棋與人工智慧的專家們都五味雜陳心情矛盾,因為,不知人類未來將何去何從? 這與20年前IBM的深藍贏了西洋棋的等級完全不同!

 

圍棋是人類所發明最複雜的遊戲,其排列組合有10的170次方,而人類卻敗給了電腦。 每一局下到中盤時,李世乭看似都居於優勢,大勢底定,也看不出來他哪裡沒走好,但總是莫名其妙地開始落後,終至落敗。

 

2015年10月,Alpha Go雖然贏了歐洲棋王樊麾,但樊麾實力比李世乭差兩子。李世乭想:Alpha Go和我相比,我的勝算應該比較高。 但短短5個月,Alpha Go從武林高手變成盟主! Alpha Go發生了什麼狀況? 因為它會不停地自我進化。

 

第1招 深度學習 : 以天下棋士為師

早期的人工智慧,實際上是「人工指導智慧」,也就是由人來指導電腦什麼是對錯,甚至是由人來命令電腦怎麼做。當初的「深藍」便是如此。

 

但Alpha Go則是只由人「餵」給它大量的數據,放它自主學習,像人腦的神經元一樣相互聯繫產生訊號,最終理解複雜的圍棋。

 

Alpha Go厲害的地方,在於它用了兩套大腦,並結合蒙地卡羅樹狀搜尋法(Monte Carlo Tree Search)。

 

當年「深藍」打敗西洋棋棋王,靠的是每走一步,就把接下來所有的可能性都算過一遍,這項技術叫作「窮舉法」或「暴力搜尋法」。 但是圍棋比西洋棋複雜許多,如果Alpha Go也學深藍,則資料量、計算量大到無法想像不說,運算起來耗時耗電,根本行不通。

 

Alpha Go使用兩個大腦:第一套大腦名叫「策略網路」(policy network),第二套大腦叫「價值網路」(value network)。

 

策略網路讓Alpha Go根據經驗值,挑出下一步可用的20個「好步」,放棄其餘的步數,把資源集中在獲勝機率高的步數。

 

接著,價值網路負責算出這二十步每一步的下三層,哪一方會佔優勢,然後再告訴第一套大腦,選擇獲勝機率最高的那一步去走。

但這些判斷都只是AlphaGo根據被「餵」的幾千萬步中學到的經驗,它只能模仿,無法創新。

 

第2招 隨機亂下 : 打破常規求創新

為了要突破人類經驗的限制,找出新的可能性,這時蒙地卡羅樹狀搜尋法登場了。 蒙地卡羅法就是隨機亂下,靠讀萬卷書無法創新,蒙地卡羅的目的,就是為了要讓它創新。

 

Alpha Go不時使「怪招」,某些步數剛開始看起來笨拙又失誤連連,但最終證明那些爛招都是致勝關鍵。 看起來招式凌亂難看,但卻是處處打破常規,讓學棋者的視野大為開闊。 Alpha Go重新定義了什麼是圍棋。

 

人類下棋講究步步都要贏,贏愈多愈好,但Alpha Go的目標只有贏,贏多少完全不重要,局部犯錯無傷大雅,大局贏就是贏。 許多步數如果在學圍棋的時候這樣下,是會被老師打手!

 

蒙地卡羅法雖說是亂下,卻是聰明的隨機,因為有兩套電腦幫它篩選,Alpha Go因此學到了很多人類從來沒有走過,其實勝率不錯的步數。

 

第3招 增強式學習 : 自己打自己

在準備挑戰韓國棋王李世乭的5個月裡,Alpha Go做了一件外界想也想不到的事:沒日沒夜地自己打自己。

 

兩個Alpha Go,A和A互打,贏的人就是B,B再和B打,創造出C。 和李世乭打的時候,已經是第十八代。

 

讓不同版本的Alpha Go自己跟自己對打,看誰贏的多。系統會追蹤這些步數哪一步會帶來更大的勝算,再往前一直回饋給前面的步數去修正。 透過無數次對打,Alpha Go自己學到了新的招數,變得愈來愈強。

 

這就是「增強式學習」。 所有以前的程式,從來沒有自我成長的能力。 先跟高手學,再跟自己學,一天24小時不斷自我對弈,反正它又不會累,所以人類再聰明也不可能比它勤奮。

 

Alpha Go從模仿人類到創新、超越人類,靠的就是兩個大腦配上蒙地卡羅法。 無招勝有招,以及隨便亂下找到的創新,組成了學習、思考和決策的勝利方程式。

 

..........................................................................................

 

Alpha Go 教給人類的5大黃金法則

Alpha Go從模仿人類到超越人類,教了我們五件人類不適應就可能被淘汰的法則。   達爾文也說過:「能生存下來的物種,不是最強,也不是最聰明的,而是最能適應變化的。」

 

黃金法則1 忘記,比記得更重要

核心的東西不能弄錯,掌握住大原則、理解就好了,小地方不要太在意。就像微積分,你只要知道什麼叫作微積分? 它能解決什麼問題? 你不用會積,有工具、會用工具就可以了。你會積得比電腦快嗎?

 

Alpha Go如果只走它記得的人類步數,不會走出人類不可能去走的那一步而逆轉勝,學了很多之後要統統忘掉,才有可能創新。有創意的人之所以能夠有創意,就是有時候會忘記以前怎麼做。如果不能忘記以前怎麼做,永遠做同樣的事情,就永遠不會有創新。

 

黃金法則2 練習,比天分更重要

Alpha Go打敗李世乭,是一萬個小時不眠不休的自我練習、自我進化的結果。 腦神經科學已經證明,神經元之間的連結可以經由不斷刺激而增強。

 

腦神經學家列維廷(Daniel Levitin)研究多種領域的世界級名家之後,得到的結論是,無論任何職業、任何技術,如果要達到世界級專家的程度,一萬小時的練習必不可少。這也便是葛拉威爾(Malcolm Gladwell)在著作《異數:超凡與平凡的界線在哪裡?》所說的「一萬小時規則」。

 

黃金法則3 大局,比小節更重要

其實Alpha Go小節常常出錯,反而大局非常強。 我們人類常常一定要每一步都贏,認為這樣最後才會贏,你走錯了一步,老師就會制止你、罵你。人類就是有一種每一步都不能出錯,步步要完美的固執。可是蒙地卡羅法不在乎這個,它就是通盤的考量,不計較一時的得失,它要的就是最後的勝利,至於勝多少它不在乎。

 

黃金法則4 割捨,比周全更重要

我們在處理複雜的問題時,常常會鬼打牆,尤其,決策做了,也開始執行了,一些前面的想法又會跑回來,反反覆覆,談了半天又回原地打轉。

 

Alpha Go會評估若步數勝算不高,就直接割捨掉,絕不猶豫,為的是把資源做最有效的分配。就像果樹,如果捨不得摘掉大部份的花,所有果子都結不好。

 

黃金法則5 軟,比硬更重要

硬體式微,軟體崛起。 「深藍」是IBM開發的,那是因為當年IBM有最好的硬體。 可是Alpha Go是Google的,Google是軟體公司,它用雲端串起很多弱弱的硬體,勝過一台超級硬體。 這對以製造硬體見長的台灣而言是個很大的警訊。

 

就算你不是做軟體的工作,也要有軟體的思惟。 寫程式要有很強烈的邏輯性思考,可以訓練你怎麼樣去組織一件事的能力。 一件事情,可以分成好幾個部份,分完之後若覺得不對,還可以再調整,每個部份可能完全獨立,但又有相關性必須串聯起來。 這是很好的邏輯思考與組織能力訓練。

  

..............................................................................................

 

電腦 VS 人腦

誰掌握人腦科技,誰就掌握世界的未來。一場腦力科技的研發大競賽,已在歐美各國起跑。 Alpha Go的出現,會鼓舞更多人投入這個領域的研究。

 

也許有一天,我們可以下載大腦記憶備份保存,或把一個人的智慧和記憶下載,再上傳到另一個人的腦中。 或運用「心念」溝通,人和人連成「腦聯網」(internet of brain 或brain-net)。

 

目前,「腦機介面」其實已經出現,訊號可以跨洲傳遞。科學家在美國把晶片放到猴子的腦中,讓這隻猴子走跑步機,地球另一端的京都,一個機器人接收猴子的訊號,做出一模一樣的動作。

 

美國海軍也正在研發能增進記憶、人類能力的植入裝置,海軍部長辦公室說,現在只剩下時間問題。

 

IBM最近的「未來五年五大預測」報告中,「科學家能用精神溝通」就是被預期五年內會發生的事情之一。

 

結論

電腦的記憶與運算,是用串聯的方式去處理,電腦的優勢是速度快,所以能夠很快的把資料找出來。 而人類的大腦是並聯式的記憶與思考運算,雖然速度比電腦慢很多,但是大腦能夠觸類旁通,可以同時找出有關聯、甚至無關聯的資料,我們常有經驗在思考A事情時,靈光乍現,跑出B事情的資訊,而並聯式記憶與思考,讓人類發揮出更多的創新與創意能力。

 

Alpha Go的蒙地卡羅樹狀搜尋法,正是希望能模擬人腦的運作方式。 未來當人類更理解大腦的記憶與運作方式時,如同存取電腦資料一樣地存取大腦資訊,將成為可能。 配合生物技術的發展,複製人加上大腦資料的存取與複製,「人」將重新定義。

 

當然,在那一天到來之前,我們只能先試試「換頭」的驚恐伎倆。 2016年4月,義大利神經外科醫生卡納維羅 (Sergio Canavero) 宣布將與中國大陸哈爾濱醫科大學教授任曉平共同進行一項頭部移植手術,為一位罹患肌肉萎縮症的俄羅斯程式設計師斯皮里多諾夫(Valery Spiridonov)換頭,這項手術確定將在2017年年底進行。

    

    

arrow
arrow

    凱文 發表在 痞客邦 留言(0) 人氣()