亞馬遜云科技為Amazon SageMaker Ground Truth新增合成數據(圖像)生成功能

亞馬遜云科技

2022-09-14 14:54 3766

北京2022年9月14日 /美通社/ -- 日前，亞馬遜云科技為其機器學習數據標注服務Amazon SageMaker Ground Truth新增合成數據（圖像）生成功能?？蛻羰褂眠@一新功能，可以生成數十萬計已標注的合成圖像，無需手動標注數據，提高標注的準確性，并快速獲取高質量的訓練數據集。該功能的推出讓Amazon SageMaker變得更強大，作為亞馬遜云科技機器學習服務層面的核心產品，亞馬遜云科技不斷豐富Amazon SageMaker的功能，僅2021年就推出60多項新的特性和功能。

機器學習（ML）模型構建是一個不斷重復、迭代的過程，從數據收集和準備開始，然后是模型訓練和部署。其中，為模型訓練收集大量、多樣化且準確標注的數據集，是非常具有挑戰(zhàn)性并耗時的第一步。

以計算機視覺（CV）應用為例，在工業(yè)領域，該技術能夠改善生產質量、提高倉庫管理的自動化水平等，目前已在工業(yè)數字化和智能化發(fā)揮了關鍵作用。然而，為訓練計算機視覺模型而收集數據的過程既耗時又費力，有時甚至幾乎無法完成。為確保模型的準確性，數據科學家可能會花費數月時間，從生產環(huán)境中收集數十萬張圖像，盡可能涵蓋數據的所有變化。但在某些情況下，例如，要獲取罕見或價格昂貴的產品的缺陷的圖像，只有通過故意損壞產品這種極端方式才能實現，這讓數據科學家無法從真實數據中找到所有的數據變化。

收集完所有數據后，數據科學家團隊還需要準確地標注圖像，這又是一項艱巨的任務。手動標注圖像進程緩慢且容易出現人為錯誤；同時，構建自定義標注工具和設置縮放標注操作可能既耗時又昂貴。將真實數據與合成數據相結合是緩解這一挑戰(zhàn)的方法之一，讓數據科學團隊可以創(chuàng)建更完整和平衡的數據集并增加數據的多樣性。

亞馬遜云科技機器學習數據標注服務Amazon SageMaker Ground Truth，可以讓客戶創(chuàng)建任何圖像數據，包括在現實世界中難以發(fā)現和復制的特殊場景數據。客戶甚至可以自定義對象和環(huán)境的變量，例如反映不同的照明、顏色、紋理、姿勢或背景。Amazon SageMaker Ground Truth讓數據科學家可以為其正在訓練的機器學習模型"量身定制"特定用例。此外，客戶還可以選擇Amazon SageMaker Ground Truth Plus，借助亞馬遜云科技的專家團隊創(chuàng)建高質量的訓練數據集，無需構建用于標注的應用程序或自行管理標注的人員。

Plus One Robotics是一家物流機器人視覺軟件開發(fā)商。Plus One Robotics 創(chuàng)始人、首席技術官Shaun Edwards 表示，"隨著人力資源的減少以及倉庫商品量的激增，客戶希望我們能幫助他們處理倉庫中千變萬化的物品。新入庫的商品可能是首次出現，或者只在特定情形下出現。使用合成數據能讓我們預先對系統(tǒng)進行訓練，以應對現實可能遇到的各種情況。我們使用Amazon SageMaker Ground Truth生成數以萬計帶標簽的、來自不同承運商的逼真物品圖像，對物品姿勢、位置、甚至貼紙或標簽之類的表面變化進行建模。合成圖像使我們能夠更快地訓練性能更好的系統(tǒng)，其完整性和精確性使我們免去繁瑣的數據標注和清洗步驟，每天為客戶超過100萬的運單提供支持。

消息來源：亞馬遜云科技