EfficientDet: Hacia Una Detección De Objetos Escalable Y Eficiente

2025 Autor: Ian Gardner | [email protected]. Última modificación: 2025-01-24 11:00

Como una de las principales aplicaciones de la visión por computadora, la detección de objetos es cada vez más importante en escenarios que requieren alta precisión pero tienen recursos informáticos limitados, como la robótica y los automóviles sin conductor. Desafortunadamente, muchos detectores modernos de alta precisión no cumplen con estas limitaciones. Más importante aún, las aplicaciones de detección de objetos del mundo real se ejecutan en diferentes plataformas, que a menudo requieren diferentes recursos.

Entonces, la pregunta natural es cómo diseñar detectores de objetos precisos y eficientes que también puedan adaptarse a una amplia gama de limitaciones de recursos.

EfficientDet: Detección de objetos escalable y eficiente, adoptado en CVPR 2020, presenta una nueva familia de detectores de objetos escalables y eficientes. Sobre la base de trabajos anteriores sobre el escalado de redes neuronales (EfficientNet) e incorporando una nueva red funcional bidireccional (BiFPN) y nuevas reglas de escalado, EfficientDet logra una precisión moderna mientras que 9 veces más pequeño y utiliza significativamente menos computación que los detectores modernos conocidos. La siguiente figura muestra la arquitectura de red general de los modelos.

Optimización de la arquitectura del modelo

La idea detrás de EfficientDet surge de un esfuerzo por encontrar soluciones para mejorar la eficiencia computacional mediante el examen sistemático de modelos de detección de última generación anteriores. En general, los detectores de objetos tienen tres componentes principales: una columna vertebral que extrae características de una imagen determinada; una red de objetos que toma múltiples niveles de funciones de la columna vertebral como entrada y genera una lista de funciones combinadas que representan características características de la imagen; y una red final de clase / caja que utiliza funciones combinadas para predecir la clase y ubicación de cada objeto.

Después de revisar las opciones de diseño para estos componentes, identificamos varias optimizaciones clave para mejorar el rendimiento y la eficiencia. Los detectores anteriores utilizan principalmente ResNets, ResNeXt o AmoebaNet como backbones, que son menos potentes o tienen menor eficiencia que EfficientNets. Con la implementación inicial de la red troncal EfficientNet, se puede lograr mucha más eficiencia. Por ejemplo, comenzando con una línea de base RetinaNet que utiliza una red troncal ResNet-50, nuestro estudio de ablación muestra que simplemente reemplazar ResNet-50 con EfficientNet-B3 puede mejorar la precisión en un 3% y reducir los cálculos en un 20%. Otra optimización es mejorar la eficiencia de las redes funcionales. Si bien la mayoría de los detectores anteriores simplemente usan la red piramidal de enlace descendente (FPN), encontramos que el FPN descendente está inherentemente limitado a un flujo de información unidireccional. Los FPN alternativos como PANet agregan aguas arriba adicionales a costa de cálculos adicionales.

Los intentos recientes de utilizar la búsqueda de arquitectura neuronal (NAS) han descubierto una arquitectura NAS-FPN más compleja. Sin embargo, si bien esta estructura de red es efectiva, también es irregular y está altamente optimizada para una tarea específica, lo que dificulta la adaptación a otras tareas. Para solucionar estos problemas, proponemos una nueva red de funciones bidireccionales BiFPN, que implementa la idea de combinar funciones multicapa de FPN / PANet / NAS-FPN, que permite que la información se transmita tanto de arriba a abajo como de abajo a arriba. utilizando conexiones regulares y efectivas.

Para mejorar aún más la eficiencia, proponemos una nueva técnica de síntesis rápida normalizada. Los enfoques tradicionales generalmente tratan todas las entradas a FPN de la misma manera, incluso con diferentes resoluciones. Sin embargo, observamos que las características de entrada con diferentes resoluciones a menudo contribuyen de manera desigual a las funciones de salida. Por lo tanto, agregamos un peso adicional a cada función de entrada y dejamos que la red aprenda la importancia de cada una. También reemplazaremos todas las circunvoluciones regulares con circunvoluciones menos costosas y profundamente separables. Con esta optimización, nuestro BiFPN mejora aún más la precisión en un 4% al tiempo que reduce los costos computacionales en un 50%.

La tercera optimización implica lograr el mejor compromiso entre precisión y eficiencia bajo diversas limitaciones de recursos. Nuestro trabajo anterior ha demostrado que el escalado conjunto de la profundidad, el ancho y la resolución de una red puede mejorar significativamente el rendimiento del reconocimiento de imágenes. Inspirándonos en esta idea, proponemos un nuevo método de escalado compuesto para detectores de objetos que aumenta colectivamente la resolución / profundidad / ancho. Cada componente de la red, es decir, la red principal, el objeto y la red predictiva de bloques / clases, tendrá un factor de escala complejo que controla todas las dimensiones de escala utilizando reglas heurísticas. Este enfoque facilita la determinación de cómo escalar el modelo mediante el cálculo de un factor de escala para una restricción de recursos de destino determinada.

Al combinar la nueva red troncal y BiFPN, primero diseñamos una pequeña línea de base EfficientDet-D0 y luego aplicamos una escala compuesta para obtener EfficientDet-D1 a D7. Cada modelo en serie tiene un costo computacional más alto, que cubre una amplia gama de limitaciones de recursos desde 3 mil millones de FLOP hasta 300 mil millones de FLOPS, y proporciona una mayor precisión.

Modelo de desempeño

Evaluación de EfficientDet en el conjunto de datos COCO, un conjunto de datos de referencia ampliamente utilizado para la detección de objetos. EfficientDet-D7 logra una precisión promedio (mAP) de 52,2, que es 1,5 puntos más alta que el modelo moderno anterior, utilizando 4 veces menos parámetros y 9,4 veces menos cálculos

También comparamos el tamaño de los parámetros y la latencia de CPU / GPU entre EfficientDet y modelos anteriores. Con restricciones de precisión similares, los modelos EfficientDet se ejecutan de 2 a 4 veces más rápido en la GPU y de 5 a 11 veces más rápido en el procesador que otros detectores. Si bien los modelos EfficientDet están destinados principalmente a la detección de objetos, también probamos su eficacia en otras tareas como la segmentación semántica. Para realizar tareas de segmentación, modificamos ligeramente EfficientDet-D4 reemplazando la cabeza de detección y la pérdida y pérdida de carga mientras se mantiene la misma columna vertebral escalada y BiFPN. Comparamos este modelo con modelos de segmentación modernos anteriores para Pascal VOC 2012, un conjunto de datos de pruebas de segmentación ampliamente utilizado.

Dado su rendimiento excepcional, se espera que EfficientDet sirva como una nueva base para la investigación futura de detección de objetos y potencialmente haga que los modelos de detección de objetos de alta precisión sean útiles en muchas aplicaciones del mundo real. Así que abrí todos los puntos de interrupción del código y el modelo preentrenado en Github.com.

Recomendado:

Cómo Tomar Una Captura De Pantalla De La Pantalla En Una Tableta

La captura de pantalla es una instantánea del escritorio de cualquier dispositivo, ya sea una computadora portátil, una tableta o un teléfono. En la computadora, hay un botón especial en el teclado para esto. En los dispositivos móviles, no siempre sucede y, por lo tanto, muchos están interesados en cómo tomar una captura de pantalla de la pantalla en una tableta

Cómo Tomar Una Foto Con Una Cámara Web

Por lo general, se utiliza una cámara web para transmitir una señal de video a través de Internet. Gracias a esta función, puede comunicarse con sus seres queridos y amigos, viéndoles la cara, incluso si está separado por grandes distancias

Cómo Cargar Un Video Desde Una Videocámara A Una Computadora

Dependiendo del tipo de videocámara que esté usando, existen diferentes formas de copiar video a su computadora. Determina el tipo de dispositivo que estás usando y selecciona el que mejor se adapte a tus necesidades. Instrucciones Paso 1 Si está utilizando una videocámara que graba video en la unidad de disco duro incorporada (HDD) o en la tarjeta de memoria (tarjeta Flash), siga estos pasos

Cómo Transferir Fotos De Una Cámara A Una Computadora

Trabajar con fotos es divertido. Pero antes de comenzar a editar imágenes, debe transferirlas de la cámara a su computadora. Es necesario - cámara digital; - Computadora personal; - lector de tarjetas; - Cable USB; - una tarjeta de memoria flash con una foto

Cómo Mostrar Una Imagen De Una Computadora A Un Televisor

En el pasado, los ordenadores domésticos se diseñaron para conectarse a televisores. Un automóvil moderno funciona en conjunto con un monitor, pero si lo desea, puede conectarlo a un televisor. Instrucciones Paso 1 Desconecte la alimentación del televisor y la computadora, y de cualquier dispositivo conectado a ellos

EfficientDet: Hacia Una Detección De Objetos Escalable Y Eficiente

Tabla de contenido:

Optimización de la arquitectura del modelo

Modelo de desempeño

Recomendado:

Cómo Tomar Una Captura De Pantalla De La Pantalla En Una Tableta

Cómo Tomar Una Foto Con Una Cámara Web

Cómo Cargar Un Video Desde Una Videocámara A Una Computadora

Cómo Transferir Fotos De Una Cámara A Una Computadora

Cómo Mostrar Una Imagen De Una Computadora A Un Televisor

Cómo Usar Un Reloj Binario Y Dónde Comprarlo

Como Se Escribe Disa

Cómo Funciona La Mini Impresora Para IPhone

Cómo Iniciar Sesión En Icq Desde Su Teléfono

Cómo Elegir Un Teléfono Inalámbrico

Cómo Transferir Dinero En El Teléfono2

Cómo Transferir Dinero De TELE2 A TELE2

Cómo Aceptar El Pago Prometido En Tele2

Cómo Pedir Prestado En Tele2

Cómo Transferir Dinero A Otro Suscriptor En Tele2

Cómo Conectar Un Emisor Piezoeléctrico (zumbador Piezoeléctrico) A Arduino

Cómo Conectar Un Amplificador De Dos Canales

Cómo Conectar Un DVD Al Receptor

Cómo Conectar La Acústica A Un Amplificador

Cómo Hacer Una Cámara Web Con Un Celular