人體姿態(tài)估計(Pose Estimation):可以視為圖像或視頻中人體關(guān)節(jié)位置(也稱為關(guān)鍵點,如手肘、膝蓋、肩膀等)的定位問題,因此也被稱為人體關(guān)鍵點檢測。人體姿態(tài)估計示例如圖1所示。
當(dāng)前的人體姿態(tài)估計包括兩種:單人姿態(tài)估計(single person pose estimation,SPPE)與多人姿態(tài)估計(multi person pose estimation, MPPE),如圖2所示。姿態(tài)估計方法最初集中于SPPE,隨著更多的MPPE數(shù)據(jù)集出現(xiàn),針對MPPE的研究工作越來越多。

圖1 人體姿態(tài)估計示例

圖2 單人姿態(tài)估計與多人姿態(tài)估計
當(dāng)前主流的姿態(tài)估計算法有DeepPose(如圖3)、AlphaPose等。

圖3 DeepPose網(wǎng)絡(luò)架構(gòu)圖
人體行為識別任務(wù)旨在從視頻剪輯中識別人體不同的動作/行為,可以視為圖像分類任務(wù)在多個幀(視頻)上的擴展。人體行為識別有兩種常見的方法:一種方法是直接將視頻幀作為輸入,利用深度學(xué)習(xí)模型提取具有判別性的空間特征和時序特征,然后進行行為識別,如Two-Stream類方法和C3D類方法,但是該類方法無法很好解決復(fù)雜背景、光照變化等問題;另一種方法是基于骨架的行為識別,即首先利用前面介紹的姿態(tài)估計算法對視頻中人的骨架姿態(tài)進行估計(一般進行3D姿態(tài)估計),再利用LSTM對序列骨架特征進行時序建模?;诠羌艿姆椒ǜ鼧闼氐乇憩F(xiàn)了人的動作軌跡,能很好克服復(fù)雜背景、光照變化等問題,但其效果也過度依賴姿態(tài)估計算法的好壞。常見的人體行為識別算法有ST-GCN(如圖4)、PoseC3D(如圖5)等。

圖4 ST-GCN算法示意圖

圖5 PoseC3D算法示意圖
我們在人體姿態(tài)估計/行為識別算法的應(yīng)用方面具有創(chuàng)新,主要包括生產(chǎn)現(xiàn)場工人操作規(guī)范性檢測、公共場所人體異常行為識別、體育項目動作規(guī)范性評估等。