北京2022年9月14日 /美通社/ -- 日前,亞馬遜云科技為其機器學習數據標注服務Amazon SageMaker Ground Truth新增合成數據(圖像)生成功能??蛻羰褂眠@一新功能,可以生成數十萬計已標注的合成圖像,無需手動標注數據,提高標注的準確性,并快速獲取高質量的訓練數據集。該功能的推出讓Amazon SageMaker變得更強大,作為亞馬遜云科技機器學習服務層面的核心產品,亞馬遜云科技不斷豐富Amazon SageMaker的功能,僅2021年就推出60多項新的特性和功能。
機器學習(ML)模型構建是一個不斷重復、迭代的過程,從數據收集和準備開始,然后是模型訓練和部署。其中,為模型訓練收集大量、多樣化且準確標注的數據集,是非常具有挑戰(zhàn)性并耗時的第一步。
以計算機視覺(CV)應用為例,在工業(yè)領域,該技術能夠改善生產質量、提高倉庫管理的自動化水平等,目前已在工業(yè)數字化和智能化發(fā)揮了關鍵作用。然而,為訓練計算機視覺模型而收集數據的過程既耗時又費力,有時甚至幾乎無法完成。為確保模型的準確性,數據科學家可能會花費數月時間,從生產環(huán)境中收集數十萬張圖像,盡可能涵蓋數據的所有變化。但在某些情況下,例如,要獲取罕見或價格昂貴的產品的缺陷的圖像,只有通過故意損壞產品這種極端方式才能實現,這讓數據科學家無法從真實數據中找到所有的數據變化。
收集完所有數據后,數據科學家團隊還需要準確地標注圖像,這又是一項艱巨的任務。手動標注圖像進程緩慢且容易出現人為錯誤;同時,構建自定義標注工具和設置縮放標注操作可能既耗時又昂貴。將真實數據與合成數據相結合是緩解這一挑戰(zhàn)的方法之一,讓數據科學團隊可以創(chuàng)建更完整和平衡的數據集并增加數據的多樣性。
亞馬遜云科技機器學習數據標注服務Amazon SageMaker Ground Truth,可以讓客戶創(chuàng)建任何圖像數據,包括在現實世界中難以發(fā)現和復制的特殊場景數據。客戶甚至可以自定義對象和環(huán)境的變量,例如反映不同的照明、顏色、紋理、姿勢或背景。Amazon SageMaker Ground Truth讓數據科學家可以為其正在訓練的機器學習模型"量身定制"特定用例。此外,客戶還可以選擇Amazon SageMaker Ground Truth Plus,借助亞馬遜云科技的專家團隊創(chuàng)建高質量的訓練數據集,無需構建用于標注的應用程序或自行管理標注的人員。
Plus One Robotics是一家物流機器人視覺軟件開發(fā)商。Plus One Robotics 創(chuàng)始人、首席技術官Shaun Edwards 表示,"隨著人力資源的減少以及倉庫商品量的激增,客戶希望我們能幫助他們處理倉庫中千變萬化的物品。新入庫的商品可能是首次出現,或者只在特定情形下出現。使用合成數據能讓我們預先對系統(tǒng)進行訓練,以應對現實可能遇到的各種情況。我們使用Amazon SageMaker Ground Truth生成數以萬計帶標簽的、來自不同承運商的逼真物品圖像,對物品姿勢、位置、甚至貼紙或標簽之類的表面變化進行建模。合成圖像使我們能夠更快地訓練性能更好的系統(tǒng),其完整性和精確性使我們免去繁瑣的數據標注和清洗步驟,每天為客戶超過100萬的運單提供支持。