Meta強化電腦視覺AI高效辨識不常見物體

Meta發表最新的物體偵測研究，採用新方法的ViTDet模型，在LVIS（Large Vocabulary Instance Segmentation）資料集的電腦視覺表現優於其他基於ViT（Vision Transformers）的模型。ViTDet不僅能夠偵測桌椅等標準物體，還能夠找出包括餵鳥器、花圈和甜甜圈等物品。

這項研究之所以重要，是因為物體偵測是電腦視覺一個重要的任務，應用範圍從自動駕駛、電子商務甚至是增強實境，要使物體偵測更有用，就需要能夠辨識出更多不常見的物件，或是在訓練資料中很少出現的物件。

內文以過去物體偵測的任務來說，FPN（Feature Pyramid Networks）基本上是標準設計，但Meta這項新研究，顯示這並非必然，僅從單一尺度的特徵圖，就可以建構簡單的特徵金字塔，不需要用到過去常見的FPN設計，直接使用ViT最後一層特徵，就可以重建出FPN，這樣的做法更為簡單直覺，對運算效能來說，記憶體使用下降，訓練和推理的速度也更快。

新的ViTDet模型受益於其更大的主幹，以及更好的MAE（Masked Autoencoders）預訓練方法，即便ViTDet模型運算量少上許多，但是效能仍優於過去的領先方法。Meta現在於開源Detectron2物體偵測函式庫中釋出ViTDet程式碼和訓練方法，作為新的基線。

轉貼自： ithome.com

若喜歡本文，請關注我們的臉書 Please Like our Facebook Page： Big Data In Finance

AI

Meta強化電腦視覺AI高效辨識不常見物體

留下你的回應

以訪客張貼回應

回應

釘選列表

喜愛列表

Web Services

YOU MAY BE INTERESTED

	今日	572
	昨日	1322
	本週	6275
	本月	27650
	總訪客量	2111101