Kompüter görmə qabiliyyətindəki əsas tətbiqetmələrdən biri olaraq, yüksək dəqiqlik tələb edən, lakin robotik və sürücüsüz avtomobillər kimi məhdud hesablama mənbələrinə sahib olan ssenarilərdə obyekt aşkarlanması getdikcə daha çox əhəmiyyət kəsb edir. Təəssüf ki, bir çox müasir yüksək dəqiqlikli detektorlar bu məhdudiyyətlərə cavab vermir. Daha da əhəmiyyətlisi, real dünyadakı obyekt aşkarlama tətbiqləri, fərqli platformalarda işləyən, tez-tez fərqli mənbələrə ehtiyac duyan.
Beləliklə, təbii sual geniş bir sıra məhdudiyyətlərə uyğunlaşa bilən dəqiq və səmərəli obyekt detektorlarının necə dizayn edilməsidir?
EfficientDet: CVPR 2020-də qəbul edilən ölçeklenebilir və səmərəli obyekt aşkarlama, yeni bir ölçeklenebilir və səmərəli obyekt detektorları ailəsini təqdim edir. Sinir şəbəkələrini (EfficientNet) miqyaslaşdırmaq və yeni iki yönlü funksional şəbəkə (BiFPN) və yeni miqyaslandırma qaydalarını özündə cəmləşdirmək üçün əvvəlki işlərə əsaslanan EfficientDet, 9 dəqiqəlik kiçik olduqda və müasir müasir detektorlardan xeyli az hesablama istifadə edərək müasir dəqiqliyə nail olur. Aşağıdakı şəkildə modellərin ümumi şəbəkə arxitekturası göstərilir.
Model Memarlığın optimallaşdırılması
EfficientDet-in arxasındakı fikir, əvvəlki ən müasir aşkarlama modellərini sistematik olaraq araşdıraraq hesablama səmərəliliyini artırmaq üçün həll yolları tapmaq səyindən irəli gəlir. Ümumiyyətlə, obyekt detektorlarının üç əsas komponenti var: verilmiş bir görüntüdən xüsusiyyətləri çıxaran onurğa sütunu; onurğa sütundan giriş kimi çoxsaylı səviyyəli funksiyaları götürən və görüntünün xarakterik xüsusiyyətlərini əks etdirən birləşmiş funksiyaların siyahısını çıxaran obyektlər şəbəkəsi; və hər bir obyektin sinifini və yerini proqnozlaşdırmaq üçün birləşmiş funksiyalardan istifadə edən son sinif / qutu şəbəkəsi.
Bu komponentlər üçün dizayn variantlarını nəzərdən keçirdikdən sonra performans və səmərəliliyi artırmaq üçün bir neçə əsas optimallaşdırma müəyyən etdik. Əvvəlki dedektorlar, daha az güclü və ya EfficientNets-dən daha aşağı effektivliyə sahib olan onurğa sütunu olaraq daha çox ResNets, ResNeXt və ya AmoebaNet istifadə edirlər. EfficientNet magistralının ilkin tətbiqi ilə daha çox səmərəlilik əldə edilə bilər. Məsələn, bir ResNet-50 onurğa sütunu istifadə edən bir RetinaNet bazasından başlayaraq ablasyon işimiz göstərir ki, sadəcə ResNet-50-in EfficientNet-B3 ilə əvəzlənməsi dəqiqliyi% 3 artıraraq hesablamanı% 20 azaldır. Digər bir optimallaşdırma funksional şəbəkələrin səmərəliliyinin artırılmasıdır. Əvvəlki detektorların əksəriyyəti sadəcə Downlink Piramida Şəbəkəsindən (FPN) istifadə edərkən, aşağı FPN-in mahiyyət etibarilə birtərəfli məlumat axını ilə məhdudlaşdığını görürük. PANet kimi alternativ FPN-lər, əlavə hesablama dəyəri ilə əlavə axın əlavə edirlər.
Son Sinir Mimarlığı Axtarışı (NAS) istifadə cəhdləri, daha mürəkkəb bir NAS-FPN arxitekturasını kəşf etdi. Bununla birlikdə, bu şəbəkə quruluşu təsirli olsa da, qeyri-müntəzəmdir və müəyyən bir tapşırıq üçün yüksək dərəcədə optimallaşdırılıb, digər tapşırıqlara uyğunlaşmağı çətinləşdirir. Bu problemləri həll etmək üçün məlumatların həm yuxarıdan aşağıya, həm də ötürülməsini təmin edən FPN / PANet / NAS-FPN-dən çox qatlı funksiyaları birləşdirmək ideyasını həyata keçirən BiFPN yeni iki yönlü funksiyalar şəbəkəsi təklif edirik. aşağıdan yuxarıya. müntəzəm və effektiv əlaqələrdən istifadə etmək.
Səmərəliliyi daha da artırmaq üçün yeni sürətli normallaşdırılmış bir sintez texnikasını təklif edirik. Ənənəvi yanaşmalar ümumiyyətlə fərqli qətnamələrdə də FPN-ə daxil olan bütün məlumatları eyni şəkildə müalicə edirlər. Bununla birlikdə, fərqli qətnamələrə sahib giriş xüsusiyyətlərinin əksər hallarda çıxış funksiyalarına qeyri-bərabər qatqı təmin etdiyini müşahidə edirik. Beləliklə, hər bir giriş funksiyasına əlavə çəki əlavə edirik və şəbəkənin hər birinin əhəmiyyətini öyrənməsinə imkan veririk. Bütün müntəzəm qarışıqları daha az bahalı, bir-birindən çox ayrılan konvolyusiyalarla əvəz edəcəyik. Bu optimallaşdırma ilə BiFPN hesablama xərclərini% 50 azaldaraq dəqiqliyi% 4 artırır.
Üçüncü optimallaşdırma, müxtəlif resurs məhdudiyyətləri altında dəqiqlik və səmərəlilik arasında ən yaxşı kompromisə nail olmağı əhatə edir. Əvvəlki işimiz göstərdi ki, bir şəbəkənin dərinliyini, genişliyini və çözünürlüğünü birlikdə ölçmək, görüntü tanıma performansını əhəmiyyətli dərəcədə inkişaf etdirə bilər. Bu fikirdən ilhamlanaraq, qətnaməni / dərinliyi / genişliyi kollektiv şəkildə artıran obyekt detektorları üçün yeni bir kompozit miqyaslandırma metodu təklif edirik. Hər bir şəbəkə komponenti, yəni onurğa sütunu, obyekt və blok / sinif proqnozlaşdırma şəbəkəsi, evristik qaydalardan istifadə edərək bütün miqyaslı ölçüləri idarə edən bir kompleks miqyaslandırma faktoruna sahib olacaqdır. Bu yanaşma, müəyyən bir hədəf resurs məhdudiyyəti üçün bir miqyas faktorunu hesablayaraq modelin necə miqyaslanacağını təyin etməyi asanlaşdırır.
Yeni onurğa sütunu və BiFPN-i birləşdirərək əvvəlcə kiçik bir EfficientDet-D0 bazasını hazırlayırıq və sonra E7DD-D1-dən D7-yə çatmaq üçün qarışıq miqyaslaşdırma tətbiq edirik. Hər bir serial modeli 3 milyard FLOP-dan 300 milyard FLOPS-a qədər müxtəlif resurs məhdudiyyətlərini əhatə edən daha yüksək hesablama maliyyətinə malikdir və daha yüksək dəqiqlik təmin edir.
Performans modeli
COCO məlumat bazasında EfficientDet-in qiymətləndirilməsi, obyekt aşkarlanması üçün geniş istifadə olunan istinad məlumat dəsti. EfficientDet-D7, 4 qat daha az parametr və 9,4 dəfə az hesablama istifadə edərək əvvəlki müasir modeldən 1,5 bal daha yüksək olan ortalama 52,2 dəqiqlik (mAP) əldə edir.
Parametr ölçüsü ilə CPU / GPU gecikməsini EfficientDet və əvvəlki modellər arasında müqayisə etdik. Bənzər dəqiqlik məhdudiyyətləri ilə, EfficientDet modelləri GPU-da 2-4 dəfə, prosessorda digər dedektorlardan 5-11 dəfə daha sürətli işləyir. EfficientDet modelləri əsasən obyekt aşkarlanması üçün nəzərdə tutulsa da, semantik seqmentləşdirmə kimi digər tapşırıqlarda da effektivliyini sınayırıq. Seqmentasiya tapşırıqlarını yerinə yetirmək üçün, eyni miqyaslı onurğa sütunu və BiFPN-i qoruyarkən algılama başını və baş itkisini və itkisini əvəz edərək EfficientDet-D4-u bir qədər dəyişdiririk. Bu modeli, geniş istifadə olunan seqmentləşdirmə test verilənlər bazası olan Pascal VOC 2012 üçün əvvəlki müasir seqmentasiya modelləri ilə müqayisə edirik.
Müstəsna performanslarını nəzərə alaraq, EfficientDet-in gələcək obyekt aşkarlama tədqiqatları üçün yeni bir təməl rolunu oynayacağı və potensial olaraq bir çox real dünya tətbiqetmələrində çox dəqiq bir obyekt aşkarlama modelləri hazırlayacağı gözlənilir. Beləliklə Github.com-da kodun və sınanmış modelin bütün kəsmə nöqtələrini açdı.