提及人工智能(AI),恐怕大多數人首先想到的仍是多年前,斯皮爾伯格執導的那部電影。實際上,很長一段時間,人們對AI的研究尚且停留在文字層面,且計算機對普片的識別,要依靠人工添加的標簽與注釋。現在,這一窘境終于有望被打破。
文字層面尚淺 盤點五類可識別圖片AI技術
今年5月份,谷歌推出了Google Photos,谷歌聲稱搜尋特定某人,你會找到對方從現在到嬰兒時期的照片;搜索品種名,則能找到相應品種狗的照片。把名字和食品類別結合起來,比如輸入‘最大披薩’,就能鎖定特定圖片。
之后,谷歌以TensorFlow平臺形式開源了它的人工智能主體部分。盡管TensorFlow并不是第一個開源人工智能平臺,但它卻是與谷歌強大圖片搜索關系最為密切一個。
同樣在今年,一家名為CamFind的圖片識別和視覺搜索公司,推出了一款“云視覺”(CloudSight)公共應用平臺。該API支持開發者通過CamFind的人工智能,進行圖片內容分析。
這樣,可使大多數情況下掃描具有高度特定性,例如識別汽車的制造與模型,寵物狗的品種以及食品的具體類型。一旦分析出圖片中的物品,開發者便可通過這些信息來獲取網絡上的文字信息。
目前,Facebook已開始在Messenger應用上測試一項新功能“Facebook Photo Magic”,該應用會掃描手機相冊照片,并對照片進行面部識別處理。“Photo Magic”會識別照片中的人物并建議你和他們一起分享這些照片。Facebook使用人工智能對面部和名字進行匹配,人工智能掌握的照片越多其識別效果越佳,即便臉部被遮住,Facebook的“面部識別”一樣能夠識別出你的臉部。
當然,除了面部特征該系統還關注發型、姿勢、衣著和身材。此外,Photo Magic拓展了圖片庫來源。也就是說,它除了收集Facebook外,還可以收集Messenger(聊天應用)的數據,擴充數據量。
近日,微軟也更新了自己的牛津項目(Project Oxford)。實際上,Project Oxford是一個讓開發者通過旗下的Azure云平臺,使用微軟人工智能系統的工具包。
據了解,Project Oxford工具包能夠支持包括口語、視頻以及其他媒體在內的人工智能應用。但與這些相比,其最強大的功能要屬牛津項目現在支持開發者通過牛津人臉應用平臺接口項目( Project Oxford Face API),檢測照片中的人物表情。
例如用Project Oxford處理上圖的五個人組成照片,Project Oxford可以識別照片中的人臉以及每個人的表情,或快樂或憤怒或者焦慮等等。不得不說,該項功能創造了一個全新的高度,讓人工智能像人類一樣“解讀”圖片。
巧合的是,Pinterest也在近期發部了自己全新的圖片搜索功能“Visual Search”,幫助用戶發現更多的信息,甚至幫助他們購買在固定照片中找到的產品。該功能以伯克利視覺和學習中心的深度學習人工智能為基礎。
用戶在Pinterest頁面看中的圖片中,來回拖動一個盒狀標識以選中自己心儀的物體。隨后,搜索工具會找到具有相似圖案與顏色的類似產品,系統將最匹配的結果鏈接到購買按鈕上,點擊這里就能購買該產品。這點倒是與淘寶中的“查找相似款”有些類似,只不過Pinterest是通過圖片。
最后,再來說說Deepomatic。Deepomatic網站開發了一個服務型的智能搜索引擎,可以識別圖片中的各類商品數據。Deepomatic不僅可以為用戶找到相匹配的顏色、圖案以及其它數據,還能識別出圖片中的物品,將該物品與一個全面的時尚產品數據庫進行匹配。
對此,Deepomatic網站表示,該技術是模擬了人類大腦接收視覺信息的方式,并將這種方式用來理解各種概念。
實際上,這僅僅是人工智能從文字層面邁向圖片識別的一個開始。通過API,開源程序以及服務化處理讓人工智能識別圖片能夠成為實現。要知道,若想真正做到模擬人類,人工智能即計算機必須擁有自己的視覺。
(審核編輯: 智慧羽毛)
分享