Skip to main content

Makale: Object Discovery in 3D scenes via Shape Analysis

We present a method for discovering object models from 3D meshes of indoor environments. Our algorithm first decomposes the scene into a set of candidate mesh segments and then ranks each segment according to its “objectness” — a quality that distinguishes objects from clutter. To do so, we propose five intrinsic shape measures: compactness, symmetry, smoothness, and local and global convexity. We additionally propose a recurrence measure, codifying the intuition that frequently occurring geometries are more likely to correspond to complete objects. We evaluate our method in both supervised and unsupervised regimes on a dataset of 58 indoor scenes collected using an Open Source implementation of Kinect Fusion. We show that our approach can reliably and efficiently distinguish objects from clutter, with Average Precision score of .92. We make our dataset available to the public.

Makale: Visualizing and Understanding Recurrent Networks

Recurrent Neural Networks (RNNs), and specifically a variant with Long Short-Term Memory (LSTM), are enjoying renewed interest as a result of successful applications in a wide range of machine learning problems that involve sequential data. However, while LSTMs provide exceptional results in practice, the source of their performance and their limitations remain rather poorly understood. Using character-level language models as an interpretable testbed, we aim to bridge this gap by providing a comprehensive analysis of their representations, predictions and error types. In particular, our experiments reveal the existence of interpretable cells that keep track of long-range dependencies such as line lengths, quotes and brackets. Moreover, an extensive analysis with finite horizon n-gram models suggest that these dependencies are actively discovered and utilized by the networks. Finally, we provide detailed error analysis that suggests areas for further study.

Makale: Deep Visual-Semantic Alignments for Generating Image Descriptions

We present a model that generates free-form natural language descriptions of full images and their regions. For generating sentences about a given image region we describe a Multimodal Recurrent Neural Network architecture. For inferring the latent alignments between segments of sentences and regions of images we describe a model based on a novel combination of Convolutional Neural Networks over image regions, bidirectional Recurrent Neural Networks over sentences, and a structured objective that aligns the two modalities through a multimodal embedding. This work was also featured in a New York Times article.

DARPA Radar Hedef Tanıma’da Derin Öğrenme Kullanacak

Amerikan askeri araştırma görevlileri, insanlı ve insansız hava araçlarında radar algılayıcıların kullanılarak askeri hedeflerin hızlı ve doğru teşhis edilmesine yönelik radar hedef tanımada kullanılan bilgisayar algoritmaları için yeni yöntem ve yüksek-performanslı gömülü işlem (high-performance embedded computing – HPEC) mimarilerine ihtiyaç duymuşlardır. Araştırma görevlileri işte bu ihtiyaca yönelik çözümü derin öğrenme ile buldu.

Amerikan Hava Kuvvetleri Araştırma Laboratuarı Deep Learning Analytics ile Target Recognition and Adaption in Contested Environments (TRACE) programı kapsamında 6 milyon dolarlık bir sözleşme imzaladı.

DARPA TRACE programının üç hedefi bulunmaktadır: düşük güçlü hava araçlarında askeri hedefleri tanıma, karmaşık ortamlarda hedef tespitinde düşük yanlış alarm seviyesi ve yeni hedefleri aralıklı veya sınırlı ölçülen eğitim verisi ile hızlı öğrenme.

Radarların güvenli mesafeden yerdeki hedeflerin görüntüsünü alabilmesine rağmen, insan ve makine tabanlı radar resim tanıma yanlış alarm oranı kabul edilemez seviyededir. Ayrıca mevcut hedef tanıma algoritmaları insanlı ve insansız hava araçlarında elverişsiz büyük hesaplama kaynağına ihtiyaç duymaktadır.

Bu zorlukların üstesinden gelmek için TRACE programı kapsamında kesin, gerçek zamanlı, düşük güç ihtiyacı olan hedef tanıma sistemi geliştirecektir.

Bu çalışmada mühendisler gelişmekte olan mobil hesaplama mimarileri, ARM işmeciler gibi genel maksat hesaplama elemanlarını birleştiren bir çip üzerindeki (SoC) çoklu işlemciler, grafik işlemci üniteleri (GPUs) ve FPGA’den (Field Programmable Gate Array – Alanda Programlanabilir Kapı Dizileri) faydalanacaklardır.

Geçtiğimiz 30 yıl içinde radar görüntü tanımaya harcanan paranın büyüklüğü ve elde edilen başarı seviyesi değerlendirildiğinde derin öğrenmenin insan tanıma hata eşiğinin altında yakaladığı başarı ile diğer ülke ordularının da bu alana bir an önce yatırım yapmasını teşvik edecektir.

Yazının devamı için kaynaklara bakabilirsiniz.

Kaynak: