2018年4月29日 星期日

[KaaS] 為了找出狗的行為模式,美團隊讓 AI 透過 GoPro 從狗視角看世界

參考資料:
https://technews.tw/2018/04/27/decade/

本文:
寵物的想法應該是所有飼主所關注的焦點,近期華盛頓大學正在使用 GoPro 鏡頭訓練 AI 神經網路,希望未來能找出狗的行為模式,並使機器狗也能像狗一樣行動。


團隊將這個項目稱為「DECADE」,意思是以狗環境的自我為中心的行動數據資料,將 GoPro 相機綁在阿拉斯加雪橇犬的頭上,團隊錄製了 380 段從狗視角出發的影片用以訓練演算法。
▲(Source:University of Washington
這些影片分別在 50 多個地點錄製,其中包含狗狗常見的活動地區:客廳、樓梯、街道和狗公園,而在錄製的同時,狗也一如以往的進行各項活動:走路、跟隨、抓取、跟蹤移動的物體,或是與其他狗互動。
除了拍攝影片,研究人員也透過將 Arduino 錄製的音頻與 GoPro 影片音檔對比,運用 Raspberry Pi 微型電腦將片段與狗身體位置的數據精確同步,進而記錄下各個時間點狗的身體、腿部及尾巴位置。
簡單來說,研究人員就是在詢問演算法「接下來會發生什麼?」當一系列片段展示時,演算法必須對接下來可能的行為進行建模,像是看到球被扔出去,狗可能會去追,又或是聽到食物會搖尾巴等。
團隊甚至嘗試只提供活動開頭及結尾的片段,並不給出發生在兩者間的訊息,讓模型去猜測狗狗在這之間究竟做了什麼活動──雖然聽來簡單,但這是必須由神經網路才能解決的問題,因為狗狗的每個動作都與環境變化相關。
▲ 實驗中只憑團隊提供的 5 幀影像,演算法確實模擬出了狗的實際反應。(Source:University of Washington
儘管並沒有被賦予任何指示或與預期結果的相關資訊,但實驗模型確實展現出對狗未來動向的預測,甚至是規劃出與狗行為模式類似的行動。團隊相信未來透過收集多隻狗的影片資料,再加入觸覺、聲音及嗅覺數據的整合,將可以改善模型,並將數據運用在更多樣的發展中。
這些資訊未來將可以用來增進機器狗的發展,同時也能投入其他任務的應用,像是透過環境辨識安全路線。研究草案已在 arxiv.org 公布,團隊預計將在 6 月的電腦視覺大會 CVPR 2018 公布相關內容。
(首圖來源:pixabay
關鍵字:  ,  ,  ,  , 

心得:
AI一直都是以人為主來做樣本以及採樣,當把這樣的技術放在其他物體上面,或許又可以結合出更新盈的應用!

[KaaS] 商湯科技──中國天網系統的驅動者

參考資料:
https://technews.tw/2018/04/30/hong-kong-sensetime/

本文:
當全球科技重鎮的台灣還在設法培育第一家「獨角獸」企業時,製造業和科技業實力相對較弱的香港,卻孵出了 4 隻「獨角獸」,分別是專攻網路金融的 WeLab、旅遊手機出租的 Tink Labs、物流匹配平台的 GOGOVAN,以及人工智慧(AI)的商湯科技;其中,又以商湯科技最炙手可熱,成為投資界各方人馬追逐標的。


商湯科技是香港中文大學工程學院教授湯曉鷗帶領研究團隊,2014 年於香港中大的聯合實驗室創辦,其後公司遷址香港科學園。初創團隊包括副總裁徐冰、執行長徐立、香港公司總經理尚海龍等人,都是湯曉鷗在香港中大的師兄弟或得意門生。

大學實驗室養出獨角獸

商湯科技成立僅 4 年,就從一個大學實驗室團隊翻身為估值 45 億美元的獨角獸公司,最大制勝武器就是領先同業的人臉辨識技術。商湯的技術已具備在畫質不佳的閉路電視中,從遠距離辨識大量人臉的能力。中國當前推動在全國架設 2,000 萬台監視器的「天網」監控工程,每秒可辨識幾萬張人臉,據稱,中國公安部門已藉此抓獲數百名通緝犯,關鍵技術便來自商湯科技。
香港為何突然冒出商湯科技這樣的 AI 高科技企業,並成為多家獨角獸的發源地呢?一切要從教育說起。
早期香港專上(高等)教育資源貧缺,主要大學僅香港大學和香港中文大學,但 2000 年,香港政府提出將香港打造為教育樞紐,支持自資大學院校的發展,並從 2003 年起以政府資金資助 8 所公立大學。
8 大名校從全球知名學府延攬優秀師資,吸引不少各國優秀學生來就讀。經過十多年發展,香港專上教育終於開花結果。今年 2 月英國泰晤士高等教育(THE)公布的亞洲大學排行榜,香港有 5 所大學擠進前 20 名,其中香港大學、香港科技大學和香港中文大學分居第 3、5、7 名。
這些名校的學術成就和校友的表現出色。全球最大的消費性無人機製造商大疆創新創辦人汪滔,便是香港科技大學畢業的碩士。王滔曾表示,他在校已萌生創業計畫。而今年連升 4 級、首度擠進前 10 名的香港中文大學,則是商湯科技的誕生地。
商湯科技的靈魂人物湯曉鷗,在美國麻省理工學院(MIT)攻讀博士時,開始接觸人臉辨識的演算法。湯曉鷗畢業後,先後任職香港中文大學和微軟亞洲研究院,專攻計算機視覺等領域。
2014 年 3 月,湯曉鷗團隊公布重大研究成果,GaussianFace 人臉辨識算法的準確率達 98.52%,是全球首次超過人眼辨識能力(97.53%)。當年 6 月,發表 DeepID 演算法,將人臉辨識準確率提升至 99.55%,不僅將中國推向全球領先地位,更宣告人臉辨識技術的應用時代全面來臨。
此外,商湯科技業務還包括利用神經網路來提升圖像和影片解析度的技術,也被視為 AI 重要一環。同時,商湯積極投入自動駕駛解決方案,如駕駛員監控系統、車道偏離預警、遙感影像智慧解譯解決方案,全力搶攻自動駕駛商機。

人臉辨識技術領先同業

如今,商湯科技員工逾 900 人,其中 100 多人有博士學位,被稱為博士密度最高的 AI 公司。創辦人之一的徐立自豪地表示,懂得 AI 深度學習的人都有博士學位,全中國才只有 100、200 人,而商湯就包攬了 120 人。
商湯科技已與 400 多家企業合作,包括高通、輝達、本田、華為、小米、OPPO、vivo、中國移動、銀聯等,涵蓋安防、金融、智慧手機、行動網路、汽車、智慧零售、機器人等產業。
如此實力雄厚的新創公司,自然引來投資者的關愛。2017 年 7 月,商湯科技獲得 4.1 億美元的 B 輪融資,創下全球人工智慧領域最高融資紀錄,估值約 20 億美元,將商湯科技推向獨角獸之列。
今年 4 月 9 日,商湯又完成 6 億美元的 C 輪融資,估值不到一年翻倍至 45 億美元,成為全球最值錢的 AI 獨角獸。此輪投資方陣容堅強,包括阿里巴巴、新加坡政府主權基金淡馬錫和蘇寧。
(本文由 財訊 授權轉載;首圖來源:達志影像)

延伸閱讀:

關鍵字:  ,  , 

心得: 
商湯科技積極拓展人工智慧領域,尤其在深度學習和視覺計算方面,科研能力讓人印象深刻。隨著人工智慧時代的來臨,軟體工程也越來越顯重要。

2018年4月20日 星期五

[Line Bot] Line Bot & Google apps script

教學
http://www.oxxostudio.tw/articles/201804/line-bot-apps-script.html

Google apps script
https://script.google.com/d/1RtK30aaSERcC7J5n4-zCJXRcgiizUyQRLXPg4oqpVTQX7enR7JcKPVPZ/edit?usp=drive_web&folder=15v0Fyuk1PRFTPS8ePb_wgX2UoZ4wEt_Y&splash=yes

Line manager
https://admin-official.line.me/11545753/message/#/scheduled

Line developer
https://developers.line.me/console/channel/1574448901/security/?new=1

Google cloud platform
https://console.cloud.google.com/logs/viewer?project=project-id-8600951779248948702

Line API
https://developers.line.me/en/docs/messaging-api/overview/
------------


1. 課程名稱:  聊天機器人與雲端平台之應用
2. 適合對象:
 SW工程師
IoT application工程師
Interested in chatbots
3. 學習目標: 
實作出可針對特定問題回應,並結合搜尋引擎完成屬於自己的多功能的聊天機器人。
4. 課程大綱:
1. Line Message API簡述 (5mins)
2. Google apps script 簡述 (5mins)
3. 搜尋引擎簡網址規則與應用 (5mins)
4. 實作Line chat bot (15mins)
5. 說明 (製作課程海報使用,越詳細越好):
           本課程將說明如何結合Google apps scriptLine Bot及搜尋引擎,學習應用LINE Messaging API,讓與會者實作並了解其工作原理,製作屬於自己獨一無二的聊天機器人,不儘可以強化自己與朋友們間的社群軟體體驗,更可以成為跨入人工智慧的第一聲號角。
   
6. 考題:  10題單選選擇題 或是 是非題 (可以兩者都有)
skip

2018年4月16日 星期一

[Line Bot] 打造聊天機器人第一課,使用Line來收gmail (IFTTT)

通訊軟體是現在最夯的軟體應用之一,聊天機器人也是一般民眾接觸機器人的其中一個重要環節,我們就以Line這個通訊軟體來探討如何自己製造一個聊天機器人。

俗話說站在巨人的肩膀上,在自己建造聊天機器人之前,先拿一個人別人的作品來試玩看看吧!

IFTTT -> IF This Then That

IFTTT可以連結很多社群軟體與網路服務,讓A的訊息經由觸發或定時擷取等傳送到B,類似過去的RSS推播,我們可以看著line接收天氣狀況、股票、新聞等各種資訊
IFTTT服務首頁: https://ifttt.com/discover

登入IFTTT後可以在上方搜尋想要連結的服務,當然有Facebook, gmail, line等等很多都有支援,使用方法也大同小異,我們選現在大家最熟悉的Line來操作

IFTTT與Line連動


搜尋到line點選connect




IFTTT會對Line申請連結,因此會跳出Line登入畫面並進行連動


到這邊就完成Line跟IFTTT的連動了,在Line端應該會接收到Line Notify的連結成功訊息


當然我們也可以使用一些Line提供的API來進行推播天氣,mail等等的,但這邊能控制的比較受限就先不使用

將Gmail通知到Line

If this then that, 顧名思義就是當...就...,所以我們現在要做觸發條件(This),觸發條件就有很多很多種可以選了,包含YouTube, Twitch, Spotify, ESPN等包山包海的服務,我們這邊就以Gmail為例來進行觸發與推播!

選擇Add applet

一樣找到Gmail的小icon


 向Gmail帳號要求授權
我是選擇『any new mail in inbox』


認證後就完成連動了,一樣會收到gmail通知信
會發現原本的『This』變成Gmail的小icon了!


現在我們要設定『That』了,按下去後就會出現我們先前連動的裝置(Line)
選擇Send message

到目前為止就會是『當我gmail有新信時,就會送訊息到line』


這邊就可以選一些想要的參數
沒學過程式的也沒關係,應該還算蠻好懂的

其中<br>就是空格,參數都在下面的add  ingredient裡面
不想那麼複雜也可以自己更改內容~


然後就完成了!!

他也會把你的此時的整套活動簡述再確認一遍

有要修正也都隨時可以進setting更改

If any new email in inbox for account@gmail.com, then send message


 當收到信,從Line這邊就會看到 ↓





2018年4月12日 星期四

[KaaS] Supervise.ly 發佈人像分割數據集

參考資料:
https://hackernoon.com/releasing-supervisely-person-dataset-for-teaching-machines-to-segment-humans-1f1fc1f28469


內文:

我們非常自豪地在這裏宣佈,Supervisely人像數據集正式發佈。它是公開的並且免費,僅出於學術的目的。
終於!Supervise.ly 發佈人像分割數據集啦(免費開源)
要讓AI全民共享, 我們不僅需要開源,還要一場強有力的「開放數據」運動。——吳恩達
我們當然同意他的看法,並讓我們擴展一下這個想法。對於語義分割的人物,有很多深層神經網絡的研究。但是,大多數情況下,收集數據要比開發和應用算法去運行數據更困難和昂貴。
這就是爲什麼我們需要專門設計的平臺,這個平臺可以覆蓋全部的機器學習的工作流,從開發訓練數據集到訓練和部署神經網絡。
終於!Supervise.ly 發佈人像分割數據集啦(免費開源)
幾個例子來自"Supervisely人像數據集"
我們認爲,我們的工作將會幫助開發者、研究者和商人們。爲了更快地創建大型訓練數據集,我們的工作不僅可以看作一個公開的數據集,而且可以被視爲一套創新的方法和工具。
接下來,我們將介紹關於如何從頭建立這個數據集,讓我來展示一些有趣的事實:
  • 數據集由5711張圖片組成,有6884個高質量的標註的人體實例。
  • 下面的所有步驟在Supervisely內部完成的,沒有任何編碼。
  • 更重要的是,這些步驟是被我內部的註釋器執行的,沒有任何機器學習專業知識。數據科學家僅僅只是控制和管理這過程。
  • 註釋組由兩名成員組成並且這整個過程只花了4天。
Supervisely 是包含數據科學的智慧機器學習平臺。它允許數據科學家專注於真正的創新,並將日常工作留給其他人(是的,訓練衆所周知的神經網絡架構也是一項常規工作)。
要解決的問題
在許多真實世界的應用中,人像檢測是分析人類圖像中的關鍵任務,在動作識別、自動駕駛汽車、視頻監控、移動應用等方面均有使用。
我們在DeepSystems公司進行了內部研究,這讓我們意識到人體檢測任務缺乏數據。你會問我們:那COCO、Pascal、Mapillary 等公共數據集呢?爲了回答這個問題,我會更好地向你展示幾個例子:
終於!Supervise.ly 發佈人像分割數據集啦(免費開源)幾個來自COCO數據集的人類標註示例
大多數公共數據集中人體檢測數據的質量不符合我們的要求,我們必須創建自己的數據集,並提供高質量的註釋,我會告訴你我們是如何做到的。
步驟0:將公共數據集上傳和準備,作爲初始點來訓練初始神經網絡
將公共數據集上傳到系統:PascalVoc,Mapillary。我們的「導入」模塊支持大多數公共數據集,並將它們轉換爲統一的基於json-based的格式,稱爲Supervisely格式 :)
我們執行DTL(「數據轉換語言」)查詢以執行一些操作:合併數據集 - >跳過沒有人物的圖像 - >從圖像裁剪每個人 - >按寬度和高度過濾它們 - >分割爲訓練/測試集。
終於!Supervise.ly 發佈人像分割數據集啦(免費開源)
合併,裁剪和過濾公共數據集後的原始數據
似乎有很多公開可用的數據,但我們在前面提到過,存在一些隱藏的問題:註釋質量低,分辨率低等等。
因此,我們構建了第一個訓練數據集。
步驟1:訓練神經網絡
我們將對 UNet-like 架構進行稍微定製
終於!Supervise.ly 發佈人像分割數據集啦(免費開源)
Unet_v2架構
損失= 二進制損失熵+(1 -隨機數)。
該網絡訓練速度快,它非常準確,易於實施和定製。它允許我們進行大量的實驗。Supervisely可以分佈在集羣中的多個節點上。
因此我們可以同時訓練幾個神經網絡。同樣所有的神經網絡都支持我們平臺上的多GPU訓練。每個訓練試驗的輸入分辨率爲256 * 256,且都不超過15分鐘。
終於!Supervise.ly 發佈人像分割數據集啦(免費開源)
步驟2:準備數據進行註釋
我們沒有收集未標記的圖像,所以我們決定從網上下載它。我們在github上實現了這個項目,從而可以從優秀的照片庫中下載數據 ,由Pexels完成(感謝他,這真的很酷的工作)。
因此,我們下載了大約15k的圖片,其中包含與我們的任務相關的標籤,並將其上傳到Supervisely並通過DTL查詢執行調整大小操作,因爲它們具有超高分辨率。
步驟3:將神經網絡應用於未標記的圖像
過去的架構不支持實例分段。 因此我們沒有使用Mask-RCNN,因爲靠近物體邊緣的分割質量很低。
這就是爲什麼我們決定做兩步計劃:應用Faster-RCNN(基於NasNet)來檢測圖像上的所有人,然後爲每個人定界框應用分割網絡來分割支配對象。 這種方法保證我們既模擬實例分割又準確地分割對象邊緣。
應用模型和手動修正檢測的3分鐘視頻
我們嘗試了不同的分辨率:我們傳遞給NN的分辨率越高,它產生的結果就越好。 我們並不關心總推理時間,因爲Supervisely支持分佈在多臺機器上的推理。 對於自動預標註任務來說,這已經足夠了。
步驟4:手動驗證和糾錯
所有推斷結果都會實時顯示在儀表板中。 我們的操作員預覽所有結果並使用幾個標籤標記圖像:不良預測、預測糾正、良好預測。 這個過程是快速的,因爲他們需要很少的鍵盤快捷鍵「下一個圖像」和「分配標籤圖像」。
終於!Supervise.ly 發佈人像分割數據集啦(免費開源)
我們如何標記圖像:左 - 不良預測,中 - 預測需要輕度手動校正,右 - 好預測。
標記爲「不良預測」的圖像被跳過。 進一步的工作繼續是處理我們需要糾正的圖像。
如何校正神經網絡預測
手動校正所需的時間比從頭開始的註釋少得多。
步驟5:將結果添加到訓練數據集並轉到第1步
完成!
一些提示:
  1. 當我們應用僅對公共數據進行訓練的NN時,「合適」圖像(標記爲「良好預測」和「預測正確」)的百分比約爲20%。
  2. 經過樹型快速迭代後,這個數字增加到70%。我們總共完成了6次迭代,最終的NN變得相當準確:-)
  3. 在訓練之前,我們在物體邊緣添加了小波段以平滑鋸齒狀邊緣並執行多種增強:翻轉,隨機裁剪,隨機角度旋轉和顏色轉換。正如您所看到的,即使您需要在圖像上註釋多個對象類,這種方法也適用於許多計算機視覺任務。
獎勵
這個數據集幫助我們改進AI支持的註釋工具 - 定製化的用它來檢測人類。 在我們的最新版本中,我們添加了在系統內部訓練NN的能力。 以下是基於類別的工具與其定製版本的比較。 它是可用的,你可以試試你的數據。
如何訪問數據集
註冊Supervisely,進入「Import」 tab -> 「Datasets library」。 點擊「Supervisely Person」數據集,爲新項目編寫名稱。 然後點擊「three dots」按鈕 - >「下載爲json格式」 - >「Start」按鈕。 就這樣, 總下載時間可能需要15分鐘(~ 7 GB)。
終於!Supervise.ly 發佈人像分割數據集啦(免費開源)
如何下載結果
結論
看看沒有任何ML背景的人如何完成所有這些步驟是非常有趣的。 我們作爲深度學習專家節省了大量時間,我們的註釋團隊在註釋速度和質量方面變得更加高效。
我們希望,Supervisely平臺將幫助每個深度學習團隊更快更輕鬆地製作AI產品。
讓我列出我們在這項工作中使用的最有價值的Supervisely功能:
1. 「Import」模塊可以上傳所有公共數據集
2. 「Data Transformation Language」來操作,合併和增強數據集
3.「 NN」模塊使用Faster-RCNN和UnetV2
3. 「Statistics」模塊自動從我們擁有的數據中獲得有用的見解
4. 「Annotation」就像Photoshop一樣用於訓練數據「協作」功能,允許將工作人員與註釋團隊相結合,爲他們分配任務並控制整個過程。




心得與分享:
  影像辨識雖然不是最好的AI素材,但是最直覺、應用也最廣泛的,Supervise.ly 這次發佈人像分割數據集是對影像辨識、深度學習界拋下一塊非常珍貴的寶石,我們可以利用裡面玩全開源的程式集來做到非常大團隊才能完成的成果,希望也會有越來越多開發者一起參與此項計畫,甚至一起開源其他好用的數據集!

[Kaas] DeepMind 新研究:讓機器自學理解圖像意義,不再依賴人為標籤資料辨識

參考資料:
https://technews.tw/2018/04/02/learning-to-write-programs-that-generate-images/

內文:
近日,DeepMind 一篇部落格文章提到一種新的人工智慧體,可推斷數字、角色和人像的構造方式,更關鍵的是,它們是自己學會做這件事,而不是靠人工標記的資料集。


真實世界並不僅是我們眼裡反映的圖像。例如,當我們看到建築物並欣賞其設計之美時,我們也欣賞所需的技術。這種思維方式可使我們對世界有更豐富的理解,也是人類智慧的重要體現之一。
DeepMind 研究員希望系統也能創造出同樣豐富的世界表現形式。例如,觀察繪畫圖像時,希望系統能了解用於創建繪畫的筆觸,而不僅是表現在螢幕上的畫素。
在這項工作中,研究員為人造智慧體(agents)配備了人類用來生成圖像相同的工具,並證明它們可以推斷數字、人物和肖像的構造方式。更關鍵的是,它們是自學如何做到這一點,而不是透過人為標籤的資料集。這與最近的一項研究「A Neural Representation of Sketch Drawings」提到的依賴從人類經驗學習的方式恰恰相反。依賴人類經驗的學習通常很耗時。


研究員設計了一個可與計算機繪畫程序互動的深度強化學習智慧體,將筆觸放在數位畫布上並更改畫筆大小、壓力和顏色,未經訓練的智慧體畫筆很隨意,並沒有明顯的意圖或結構。為了克服這點,研究員需要創建一種獎勵方式,鼓勵 agents 生成有意義的圖片。
為此,研究員訓練了第二個神經網路,稱之為鑑別器。它唯一目的是預測特定圖形是由 agents 製作的,還是從真實照片的資料集中採樣的。agents 的獎勵是透過「欺騙」鑑別者認為它的繪畫是真實的。換句話說,agents 的獎勵信號本身就是學習的。雖然這與生成對抗網路(GAN)中使用的方法類似,但並不相同。因為 GAN 網路設置中的生成器通常是直接輸出像素的神經網路。而這裡的agents 是透過編寫圖形程式與繪圖環境互動來生成圖像。


在第一組實驗中,agents 透過訓練生成類似於 MNIST 數字的圖像:它顯示了數字的樣子,但沒有顯示它們是如何繪製的。透過嘗試生成欺騙鑑別器的圖像,agents 學會控制畫筆,並操縱它以適應不同數字的風格,這是一種稱為可視化程式合成的技術。
研究員也訓練它重現特定圖像的能力。在這裡,鑑別器的目的是確定再現圖像是否是目標圖像的副本,或者是否由 agents 產生。鑑別器越難區分,agents 得到的獎勵就越多。
最重要的是,這個框架也是可以解釋的,因為它產生了一系列控制模擬畫筆的動作。這意味著該模型可以將其在模擬繪圖程式中學到的知識,應用到其他類似環境中的字元重建中,例如用在仿造的或真實的機械手臂上。
還有可能將這個框架擴展到真實的資料集。agents 經過訓練可以繪製名人臉部表情,能夠捕捉到臉部的主要特徵,例如形狀、色調和髮型,就像街頭藝術家在使用有限數量的畫筆描繪肖像時一樣:


(Source:DeepMind
從原始感受中提取訊息結構化表示,是人類很容易擁有並經常使用的能力。在這項工作中,研究員表明可以透過讓智慧體獲得和人類重現世界的相同工具,來指導智慧體產生類似的表示。在這樣做時,它們學會製作可視化程式,簡潔地表達因果關係,提升了它們的觀察力。儘管該工作目前僅代表了向靈活的程式合成邁出一小步,但預計需要類似的技術才能使智慧體具有類似人的認知,包括歸納概括和溝通交流等能力。
(本文由 雷鋒網 授權轉載;首圖來源:shutterstock)
關鍵字:  ,  , 

心得與分享:
  目前的deeplearing比較偏向用人類已知的資訊、資料,讓電腦分類出一個規則去進行動作,而agents所要做的就是讓電腦自主的產生文字或影像,而不是經由人類外部介入,雖然初步會認為這樣的動作過於隨機,沒有意義,但或許未來可以將這樣的方法放在一些無須特定規則的地方或應用上。