Loading AI tools
来自维基百科,自由的百科全书
物體識別在計算機視覺任務中被廣泛應用,有許多基於物體識別之下游任務,如圖像自動標註、物體計數 (頁面存檔備份,存於網際網路檔案館)、人臉識別。物體識別亦可應用於物件追蹤,例如:追蹤球類比賽中的球與追蹤影片中的人物。
為了解決上述問題,TrackNet利用深度神經網路追蹤球體在影像中的軌跡,並且可以克服球體影響模糊、面積小、且在部分影片幀中消失之問題。TrackNet使用了基於熱點圖的卷積神經網路[3][4],並利用產生的熱點圖來表示球體所在位置的機率分佈。由於TrackNet試圖克服上述「部分影片幀中消失」的問題,模型的輸入為相鄰的三個幀,輸出則為中間幀的結果。其輸出可以表示為,代表在座標與深度的位置上的機率,最終輸出為,即是使用各座標上機率最高的深度作為輸出。
在訓練神經網路方面,為了學習球體位置的機率分佈,TrackNet使用高斯分佈來建模球體在真實位置的熱點圖,表示如下:
,其中
近代常見的物體識別方法多為基於深度神經網路模型之方法,核心概念為利用神經網路模型抽取影像之特徵圖,並以此識別出物體類別與位置。
在這個方法中,作者提出一個神經網路模型DETR,旨在將物件偵測任務視為一個集合預測任務,並在訓練時將神經網路模型預測的集合與正確結果集合間進行二分圖匹配。
為了能夠產生出一個集合,DETR,借鑒了自然語言處理領域的Seq2Seq概念,並首次在物件偵測領域引入了Transformer模型,在此方法中同時使用到Transformer編碼器與解碼器,其中在解碼器部分,DETR進行了修改,提出了對象查詢(object queries)的概念,使得模型可以自己學習需要偵測的對象的特徵。
由於這是物件偵測領域首次使用了這種簡化的集合預測方法,因此具有其重要性,並引領後續集合預測方法的蓬勃發展。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.