| 主頁 | 頻道首頁 | 本站地圖 | 論壇留言 | 合作聯系 | 本站消息 | |
科技動態 技術發展 文化研究 生物生態 人的研究 生命起源 基因工程 科學普及 科學探索 專題其他

如何向你奶奶解釋機器學習是什么

2016-12-15
機器學習,許鐵,混沌巡洋艦,什么是機器學習
機器學習是你不去設計, 而讓計算機自己去琢磨,讓它在一套很一般的模子里打磨出能夠解決特定問題的武器。 這點上,機器學習做的正是” 自發能夠產生解決問題的程序的程序” , 一些機器學習的經典算法如線性回歸, SVM, 神經網絡, 它們單個都不能解決問題, 但是通過“學習”卻可以一會去預測房價一會去尋找美女。


如何向你奶奶解釋機器學習是什么
2016-12-15 許鐵 混沌巡洋艦

今天這篇文章想用最直白的話講講大數據和機器學習的幾個基本概念。 部分案例來自machine learning is fun ,(https://medium.com/@ageitgey/machine-learning-is-fun-80ea3ec3c471#.onsw9pi04),之后巡洋艦會有翻譯!

什么是機器學習:

我想巡洋艦的關注者很多是偉大的碼農, 一個基本的問題是, 碼農(傳統算法工程師)和機器學習工程師都在碼程序做算法,大家都想讓計算機給人類做事, 兩個有什么區別?

這里可以從一個簡單的例子入手, 一段程序可以看做一連串從輸入到輸出的過程,無論是工程師還是程序員,我們都想通過設計來完成某種功能, 比如說你做一個網頁, 你要畫視覺圖, UI圖, 前端后端交互圖,我們是給計算機設計一套解決具體問題的流程, 如做一個淘寶網。

機器學習呢? 機器學習是你不去設計, 而讓計算機自己去琢磨,讓它在一套很一般的模子里打磨出能夠解決特定問題的武器。 這點上,機器學習做的正是” 自發能夠產生解決問題的程序的程序” , 一些機器學習的經典算法如線性回歸, SVM, 神經網絡, 它們單個都不能解決問題, 但是通過“學習”卻可以一會去預測房價一會去尋找美女。

它是怎么做到的:

我們模仿人學習的過程讓機器來學習些程序:

最常見的方法就是是有老師告訴你對錯的學習 ,這個稱為有監督學習 。

一個一般被作為監督學習入門的實例, 是預測房產的價格, 一個房子的價格決定于非常多的相關因素, 比如房子中臥室, 廁所,客廳的數量和面積, 周圍環境的交通, 安靜與否,有無學校等, 我們要從這些要素中知道房子的價格。如果你是傳統的房產專家, 你的方法一定是到各個地點做調查成交價, 隨著經驗的增加, 你會得到各個區域的基準價格, 然后按照這個基本價格結合房子的特征上下調整,得出你的經驗公式。 這真是累死小哥啊。

有了最原始的機器學習,我們也可以把這個人類得出經驗的過程讓機器解決。我們的小哥現在只需要在網上放一分表格, 讓人們把有關房子的有用無用的信息和價格都填了, 做一個巨大的excel表格。 然后我們讓程序從這些信息學習價格的pattern(模式)。

之前的因素在這里我們換以一個新的詞匯-特征。每一個特征, 這次要用一個數表示, 如同線性代數里的坐標基。而這些特征如何決定價格的, 我們就可以不管, 讓機器決定去。特征的個數我們通常稱之為維度,一個問題的維度往往決定其復雜性, 以及所使用的方法, 這就是復雜系統所擅長討論的范疇了在此不詳述。 維度本身同時決定我們可能需求的數據量多少, 高維度意味著我們需要求解問題的信息量也成比例的增長。 特征工程就是在大量的信息, 比如“我的房子有個大落地窗”這種話里提取出和房價可能相關的屬性(attribute)。

所謂機器學習的模型選擇,就是在尋找一個基本學習框架, 包含你對預測事物的非常一般的理解, 比如房子的價格可能是很多因素的疊加這種初中水平的東西,學名線性回歸:

你不是有眾多特征嗎? 我可以用一個算法,讓一個非常初級的模型自動的進化,機器學習工程師要做的是把這個模式的毛坯找出來,以及這個尋找自動算法的算法做出來,這個一旦做出來, 后續的數據就像一顆顆子彈把模型打造成型。

這個把模型打磨成型的過程就是學習,行里叫求解參數。這組參數不是讓某個特定的房子的價格被最好的擬合,而是讓整個數據集都被一組參數涵蓋。 這組參數就是我們學習的結果, 放佛具有了一種人一樣的預測未知房價的能力。

就像人一樣,機器也是從錯誤中學習的,因此,最經典的監督學習里, 我們首先要做的是衡量錯誤的大小,我們用一個叫cost function的東西衡量模型預測的結果與真實值的差距, 模型的效果越差, 這個cost function的值就越高。

這個函數告訴你的是,每次犯錯都是潛在的風險和損失,我們稱之為cost。而cost 函數來衡量目前模型離最終正確模型的距離。

這個cost函數恰恰是由剛剛說的參數決定的。 這些參數的含義是, 當你改變某一個特征比如房屋的面積,你的房子價格就會變動,但是變動的方式是什么, 你不知道, 你就去隨機的擾動這些參數看看得來的價格會如何變化,并且和真實的價格信息比較, 可能你忽然發現某個瞬間, 你的所有房子的價格都被一組參數神奇的擬合了。對, 就是這么神奇, 幾個參數可以預言不是一個,而是所有房子的價格!

我們稱這組參數為最優,或者說我們學習的結果。雖然這個cost函數和統計學里的方差很相近,但說的不是一個意思。

機器學習能否成功,就在于這個最優位置能否找到, 而在大多數時候,我們連這個最優位置是否存在都不知道。

當然剛剛說的隨機方法很是不靠譜,實際操作中我們用到的是一個叫梯度下降的方法, 讓參數順著最快速減少預測錯誤的方向去自動調整,如下圖。

圖中的x,y軸代表參數, 高度代表錯誤率, 洼地的那個點正是最優參數點。


訓練與測試:


用一個形象的比喻理解有監督學習,它就像一個拿著一堆模擬考試題學習的學生, 這個過程里你通過不停的比較你和標準答案的差距來學習完成試卷, 而最終這個學生要面對的是真實的考試。 相對應的,我們通常在有監督學習里把我們的數據分成兩部分, 一部分做學習的試題,另一個部分做考試用。 一個學生完全可能在平時練習的時候把每道考題被的滾瓜爛熟,而在真正的考試里一塌糊涂,這種情形我們稱之為過擬合。


如果用兩個最簡單的例子來解釋過擬合發生的原因,主要就是在局限的數據里過度的挖掘模式導致的。 比上圖說一個人想要識別樹葉,它只見過那些有鋸齒的樹葉, 見到沒有鋸齒的葉子就會判斷它不是葉子。 或者一個人只見過白天鵝, 它拼命的根據已有的經驗去定義天鵝,而當第一個黑天鵝出現時候, 它的定義就失效了。

無監督學習 :

再一些更困難的問題里, 我們根本不掌握我們所要求解的信息,比如房屋的價格, 這好比一個沒有標準答案的開放性考題, 我們需要學生發散式的探索。

無監督學習看起來不能給出一定的答案, 但是其結果卻可以讓我們得到意想不到的驚喜。

無監督學習最典型的范例是聚類, 一個典型的例子是, 你是一家互聯網公司,你要對你的一大堆客戶信息, 你首先面對的是如何把這些數據進行整理歸類,無監督學習里的聚類算法如k-means,它可以輕松的把你的客戶信息根據特征自動劃分成大類, 之后你可以發現喜歡愛馬仕包的女生也愛喝拉菲的紅酒這種信息,然后你可以驗證一下你的猜測,就可以愉快的推銷啦!

再有說如果你有大量的人的心電圖,你要分辨出哪些是異常的可能是心臟病的情況,但是你又不知道病人有關的信息, 讓機器自己去無監督學習, 都可能得到意想不到的insight。

機器學習很美嗎:

機器學習這件事, 看上去很美, 事實上一點也不, 因為你面臨的是變幻莫測的問題, 你訓練的再好, 你的預測也是有風險(no free lunch here)的。首先, 因為存在模式,問題才可以預測, 如果你的問題本身就沒有模式, 或者模式極為不可捉摸, 你的算法再強大也會失敗。比如說你要預測某個商品網站上衣服的價格, 但是這個網站里的衣服都是一個瘋狂銷售者根據他每天的心情好壞定的, 而你卻去找了一堆衣服的尺碼材質特征來, 那你的算法終究要失敗。

即使是一個模式存在的問題, 也總會在某個時點上, 碰到問題的邊界。比如說你要做一個根據女生特征匹配對象的機器學習算法, 你的算法總是根據你過去掌握的男女匹配記錄預測的, 而總會有某個時刻, 你的對象已經不符合歷史數據的規律,這時候要不你調整算法, 要不你直接放棄服務這類無法預測的人。

機器學習最難的是什么?

如果你思考一遍上述流程, 你可能發現一切都很容易, 從數據清洗,特征提取,到模型選擇, 事實上這你就錯了。 因為機器學習最難的一部 , 這里根本就沒提到, 那就是把現實生產生活中的問題, 提煉成一個機器學習問題 。

這需要的是你對問題本身的深刻洞察。 有一天也許整個數據清洗到模型選擇和交叉驗證都自動化了。但始終有一個東西不能完全被機器搞定, 那就是你如何從一個全新的領域, 去提取機器學習可以有助解決的最重要的問題。

再有, 無論機器的預測多準確, 它的結果如果不是在解答人的需求, 也是一個沒用的或至少不令人喜歡的東西。 比如我發明一個算法能夠特別準的預測老人的壽命, 或者根據女生現在的長相推測她80歲的長相, 即使算法十分牛掰, 這樣的產品估計也不是客戶喜聞樂見的。



如何向你奶奶解釋機器學習是什么
六個月內學會一門外語 5個原則7個行動
巫師外星人和星艦中的書目
引力之謎:從牛頓的蘋果到愛因斯坦的時空彎曲
Science刊文對年輕科學家提出5點忠告
《馬奇論管理》讀書摘要
那些氣候、生活、文明的秘密,土壤能告訴你
不可捉摸的現實——《量子理論》序
小徑交叉的命運:地理決定論之一種
美國頂尖醫生談癌癥
李莊:抗戰后方的學術重鎮
各學科領域入門書籍推薦
《數據之巔》涂子沛著
張首晟:大數據時代感受物理、科技、人文的跨界之美
MIT牛人解說數學體系
人造愛因斯坦:一場關于“現代物理奠基人”的鬧劇
國外大牛們一年發7點以上SCI的訣竅
植物神經生物學的誕生
記憶是如何儲存的
人腦之謎——專訪復旦大學腦科學家楊雄里院士
中國私募行業的7大派系各有千秋
一個學術報告,別人可看透你一切
神作《禪與摩托車維修藝術》
物理學的邏輯和霍金的答案
第四個科學發現范式
香港臺灣部分大學的學術論文期刊下載方法
麻省理工(MIT)牛人解說數學體系
《潛意識:控制你行為的秘密》
海外中國研究叢書
四位大牛的看文獻方法
DARPA究竟是什么
爆發:大數據時代預見未來的新思維
西學基本經典
MIT牛人解說數學體系
喬治·戴森講述計算機的誕生
大牛很通俗地介紹《信號與系統》
對稱破缺之美:2008年物理諾貝爾獎工作介紹
達爾文和他改變的世界
認知科學的幾個基礎假設
田國強: 現代經濟學的基本分析框架與研究方法
《美國經濟評論》百年經典論文導讀
各學科領域入門書籍推薦
物理學的詩,關于將相對論,量子力學,弦理論與文學結合的第一次嘗試
筆記本電池容量恢復
一不小心成了計算機病毒的教父Adleman
好的搜索引擎盡在此處
個性化推薦系統簡介
學者稱中國50年內出不了《自然》雜志
科學作家嵇曉華:中國讀者很難提出好問題
量子物理學量子通信技術未來
Google應用大全
科學:人文科學、自然科學和社會科學
傅立葉變換和卷積的物理意義
關聯規則挖掘綜述和關聯規則挖掘算法
量子物理學引發奇談怪論:薛定諤的貓
CIPP評估模型與信用評估模型
《行為經濟學新進展》簡介
《行為經濟學新進展》
《紐約時報》2009年十大好書
[轉]MIT牛人解說數學體系
如何使用Google
世界數學大事記
如何寫出令同行感興趣的科技論文
什么是科學的研究方法
科學領袖的素質及特點講座總結
賈文毓:科學語境中的“道,可道,非常道...”
錢學森著《關于思維科學》
ctfmen.exe病毒分析和ctfmen.exe病毒查殺
葉永烈認為國家的科技實力決定科幻水平
查找文獻的一些體會
“貓癬下載器”病毒和“貓癬下載器”專殺工具
讓科學流行起來
“科普”要普及的是“科學思維”
科普:一顆難啃的大松果
科學家揭示做噩夢六大原因
地震探秘和火山探秘10
火山探秘和地震探秘7-9
科學技術普及,科普知識1 科學技術普及,科普知識2

本欄目主要介紹科學普及知識,包括科普知識、中國科普、科普文章、科普讀物、如何向你奶奶解釋機器學習是什么等。特別關注有關人與文化方面的研究。

『科學頻道首頁』 『本欄頁首』 『關閉窗口』

神龙宝石救援彩金