Muy buena explicación, solo señalar que cuando se quantiza el modelo la reducción en tamaño no implica per se la reducción del tiempo de inferencia, ya que el número de parámetros a ejecutar sigue siendo el mismo. La mejora que aporta está en la posibilidad de ejecutar los modelos en dispositivos empotrados como Google Coral que tienen procesadores específicamente diseñados para trabajar en 8 bits con un consumo y coste muy inferior al de una GPU convencional.
@fullscan3 жыл бұрын
Interesante aportación. En general en arquitecturas generalistas modernas hw que tienen FPUs etc .. no debería existir mucha diferencia, aunque desde un punto de vista teórico una representación con 4x más de información implica más trabajo. Por curiosidad encontré este gráfico comparando operaciones bajo nivel entre diferentes arquitecturas --> i.stack.imgur.com/rbPmq.png
@LuisAngel-np3ct3 жыл бұрын
Por favor, deja los enlaces a los artículos. Gracias por los vídeos.
@fullscan3 жыл бұрын
Aqui estan, también ya en la descripcion del video: * A Universal Law of Robustness via Isoperimetry : arxiv.org/abs/2105.12806 * On Compressing Deep Models by Low Rank and Sparse Decomposition : kzbin.info/www/bejne/iZLdiaemZ995hbs * Reference article : medium.com/gsi-technology/an-overview-of-model-compression-techniques-for-deep-learning-in-space-3fd8d4ce84e5 * Reference article :towardsdatascience.com/three-model-compression-methods-you-need-to-know-in-2021-1adee49cc35a * Google Matrix Compression Operator blog.tensorflow.org/2020/02/matrix-compression-operator-tensorflow.html * TFLIte : www.tensorflow.org/lite/performance/post_training_quantization * Distilling the Knowledge in a Neural Network : arxiv.org/abs/1503.02531 * Ejemplo Keras KD keras.io/examples/vision/knowledge_distillation/