Dolar 13,5906
Euro 15,3931
Altın 791,56
BİST 1.979,83
Adana Adıyaman Afyon Ağrı Aksaray Amasya Ankara Antalya Ardahan Artvin Aydın Balıkesir Bartın Batman Bayburt Bilecik Bingöl Bitlis Bolu Burdur Bursa Çanakkale Çankırı Çorum Denizli Diyarbakır Düzce Edirne Elazığ Erzincan Erzurum Eskişehir Gaziantep Giresun Gümüşhane Hakkari Hatay Iğdır Isparta İstanbul İzmir K.Maraş Karabük Karaman Kars Kastamonu Kayseri Kırıkkale Kırklareli Kırşehir Kilis Kocaeli Konya Kütahya Malatya Manisa Mardin Mersin Muğla Muş Nevşehir Niğde Ordu Osmaniye Rize Sakarya Samsun Siirt Sinop Sivas Şanlıurfa Şırnak Tekirdağ Tokat Trabzon Tunceli Uşak Van Yalova Yozgat Zonguldak
İstanbul 4 °C
Hafif Yağmurlu

Yeni Yapay Zeka Sistemi, Dünyayı İnsanlar Gibi Daha Çok Gören Makineleri Sağlıyor

14.12.2021
101

Bilgisayarla görüye yönelik yeni bir “sağduyu” yaklaşımı, sahneleri diğer sistemlerden daha doğru yorumlayan yapay zekayı mümkün kılıyor.

Yeni Yapay Zeka Sistemi, Dünyayı İnsanlar Gibi Daha Çok Gören Makineleri Sağlıyor

Bilgisayarlı görme sistemleri bazen sağduyu karşısında uçuşan bir sahne hakkında çıkarımlarda bulunur. Örneğin, bir robot bir yemek masası sahnesini işliyorsa, herhangi bir insan gözlemci tarafından görülebilen bir kaseyi tamamen görmezden gelebilir, bir tabağın masanın üzerinde yüzdüğünü tahmin edebilir veya bir çatalın bir kaseye girdiğini yanlış algılayabilir.

Bu bilgisayarlı görüş sistemini kendi kendini süren bir araca taşıyın ve riskler çok daha yüksek hale gelir – örneğin, bu tür sistemler caddeden geçen acil durum araçlarını ve yayaları tespit edemedi.

Bu hataların üstesinden gelmek için MIT araştırmacıları, makinelerin dünyayı insanlar gibi görmesine yardımcı olan bir çerçeve geliştirdi. Sahneleri analiz etmeye yönelik yeni yapay zeka sistemleri, gerçek dünyadaki nesneleri sadece birkaç görüntüden algılamayı öğrenir ve sahneleri bu öğrenilen nesneler açısından algılar.

Araştırmacılar, çerçeveyi, bir kameradan kaydedilen görüntülerin herhangi bir aday sahneyle olası bir eşleşme olup olmadığını görmek için sistemin algılanan nesneleri giriş verilerine karşı kontrol etmesini sağlayan bir yapay zeka yaklaşımı olan olasılıksal programlamayı kullanarak oluşturdu. Olasılıksal çıkarım, sistemin, uyumsuzlukların olası gürültüden mi yoksa daha sonraki işlemlerle düzeltilmesi gereken sahne yorumundaki hatalardan mı kaynaklandığını çıkarmasına olanak tanır.

Bu sağduyulu koruma, sistemin, bilgisayar görüşü için de kullanılmış olan “derin öğrenme” yaklaşımlarını rahatsız eden birçok hatayı tespit etmesine ve düzeltmesine olanak tanır. Olasılıksal programlama, aynı zamanda, sahnedeki nesneler arasındaki olası temas ilişkilerini ortaya çıkarmayı ve nesneler için daha doğru konumlar elde etmek için bu temaslar hakkında sağduyulu akıl yürütmeyi kullanmayı mümkün kılar.

“Eğer temas ilişkilerini bilmiyorsanız, o zaman bir nesnenin masanın üzerinde yüzdüğünü söyleyebilirsiniz – bu geçerli bir açıklama olacaktır. İnsanlar olarak, bunun fiziksel olarak gerçekçi olmadığı ve masanın üzerinde duran nesnenin nesnenin daha olası bir pozu olduğu bizim için açıktır. Akıl yürütme sistemimiz bu tür bilgilerin farkında olduğundan, daha doğru pozlar çıkarabilir. Olasılıksal Hesaplama Projesi’nde elektrik mühendisliği ve bilgisayar bilimi (EECS) doktora öğrencisi olan Nishad Gothoskar, bu çalışmanın temel bir kavrayışıdır” diyor.

Kendi kendini süren arabaların güvenliğini artırmanın yanı sıra, bu çalışma, karmaşık bir mutfağı temizlemekle görevli bir robot gibi nesnelerin karmaşık düzenlemelerini yorumlaması gereken bilgisayar algılama sistemlerinin performansını artırabilir.

Geçmişten bir patlama

Araştırmacılar, “Olasılıksal Programlama yoluyla 3D Sahne Algısı (3DP3)” adı verilen sistemi geliştirmek için, yapay zeka araştırmasının ilk günlerinden kalma bir kavramdan yararlandılar; bu, bilgisayarla görmenin bilgisayar grafiklerinin “tersi” olarak düşünülebileceğidir.

Bilgisayar grafikleri, bir sahnenin temsiline dayalı olarak görüntüler oluşturmaya odaklanır; bilgisayarla görme bu sürecin tersi olarak görülebilir. Gothoskar ve işbirlikçileri, olasılıksal programlama kullanılarak oluşturulmuş bir çerçeveye dahil ederek bu tekniği daha öğrenilebilir ve ölçeklenebilir hale getirdiler.

“Olasılıksal programlama, dünyanın bazı yönleri hakkındaki bilgilerimizi bir bilgisayarın yorumlayabileceği şekilde yazmamıza izin veriyor, ancak aynı zamanda bilmediğimizi, belirsizliği ifade etmemize de izin veriyor. Böylece sistem verilerden otomatik olarak öğrenebiliyor ve ayrıca kuralların ne zaman tutmadığını otomatik olarak algılayabiliyor,” diye açıklıyor Cusumano-Town.

Bu durumda model, 3B sahneler hakkında ön bilgi ile kodlanır. Örneğin, 3DP3, sahnelerin farklı nesnelerden oluştuğunu ve bu nesnelerin genellikle üst üste düz durduğunu “bilir” – ancak bunlar her zaman bu kadar basit ilişkiler içinde olmayabilirler. Bu, modelin daha sağduyulu bir sahne hakkında akıl yürütmesini sağlar.

Şekilleri ve sahneleri öğrenme

Bir sahnenin görüntüsünü analiz etmek için, 3DP3 önce o sahnedeki nesneleri öğrenir. 3DP3, bir nesnenin her biri farklı bir açıdan çekilmiş yalnızca beş görüntüsü gösterildikten sonra, nesnenin şeklini öğrenir ve uzayda kaplayacağı hacmi tahmin eder.

“Size bir nesneyi beş farklı açıdan gösterirsem, o nesnenin oldukça iyi bir temsilini oluşturabilirsiniz. Onun rengini, şeklini anlarsınız ve o nesneyi birçok farklı sahnede tanıyabilirsiniz” diyor Gothoskar.

Mansinghka ekliyor, “Bu, derin öğrenme yaklaşımlarından çok daha az veri. Örneğin, Yoğun Füzyon sinirsel nesne algılama sistemi, her nesne türü için binlerce eğitim örneği gerektirir. Buna karşılık, 3DP3, nesne başına yalnızca birkaç görüntü gerektirir ve her nesnenin şeklinin bilmediği kısımlarıyla ilgili belirsizliği bildirir.”

3DP3 sistemi, her nesnenin bir düğüm olduğu ve düğümleri birbirine bağlayan çizgilerin hangi nesnelerin birbiriyle temas halinde olduğunu gösterdiği sahneyi temsil etmek için bir grafik oluşturur. Bu, 3DP3’ün nesnelerin nasıl düzenlendiğine dair daha doğru bir tahmin üretmesini sağlar. (Derin öğrenme yaklaşımları, nesne pozlarını tahmin etmek için derinlik görüntülerine dayanır, ancak bu yöntemler temas ilişkilerinin bir grafik yapısını üretmez, bu nedenle tahminleri daha az doğrudur.)

Daha iyi performans gösteren temel modeller

Araştırmacılar, 3DP3’ü, hepsi bir sahnedeki 3B nesnelerin pozlarını tahmin etmekle görevli birkaç derin öğrenme sistemiyle karşılaştırdı.

Neredeyse tüm durumlarda, 3DP3 diğer modellerden daha doğru pozlar üretti ve bazı nesneler diğerlerini kısmen engellediğinde çok daha iyi performans gösterdi. Ve 3DP3’ün her nesnenin yalnızca beş görüntüsünü görmesi gerekirken, daha iyi performans gösterdiği temel modellerin her biri eğitim için binlerce görüntüye ihtiyaç duyuyordu.

3DP3, başka bir modelle birlikte kullanıldığında doğruluğunu artırmayı başardı . Örneğin, bir derin öğrenme modeli, bir kasenin bir masanın biraz üzerinde yüzdüğünü tahmin edebilir, ancak 3DP3 temas ilişkileri hakkında bilgi sahibi olduğu ve bunun olası bir konfigürasyon olmadığını görebildiği için, kaseyi hizalayarak bir düzeltme yapabilir.

“Derin öğrenmeden kaynaklanan hataların bazen ne kadar büyük olabileceğini görmek şaşırtıcı buldum – nesnelerin gerçekten insanların algılayacağıyla eşleşmediği sahne temsilleri üretiyor. Ayrıca, nedensel olasılık programımızda sadece biraz model tabanlı çıkarımın bu hataları tespit etmek ve düzeltmek için yeterli olduğunu şaşırtıcı buldum. Tabii ki, onu gerçek zamanlı görüş sistemlerini zorlamak için yeterince hızlı ve sağlam hale getirmek için hala uzun bir yol var – ancak ilk kez, olasılıklı programlama ve yapılandırılmış nedensel modellerin, sabit 3B üzerinde derin öğrenmeye göre sağlamlığı iyileştirdiğini görüyoruz, ”diyor Mansinghka.

Gelecekte araştırmacılar, tek bir görüntüden bir nesneyi veya bir filmdeki tek bir kareyi öğrenebilmesi ve ardından bu nesneyi farklı sahnelerde sağlam bir şekilde tespit edebilmesi için sistemi daha da ileriye taşımak istiyor. Ayrıca, bir sinir ağı için eğitim verilerini toplamak için 3DP3’ün kullanımını araştırmak istiyorlar. İnsanların görüntüleri 3B geometriyle manuel olarak etiketlemesi genellikle zordur, bu nedenle 3DP3 daha karmaşık görüntü etiketleri oluşturmak için kullanılabilir.

3DP3 sistemi “derin öğrenme sinir ağları tarafından yapılan büyük sahne yorumlama hatalarını düzeltmek için düşük kaliteli grafik modellemeyi sağduyulu akıl yürütme ile birleştirir. Bu tür bir yaklaşım, derin öğrenmenin önemli başarısızlık modlarını ele aldığından geniş bir uygulanabilirliğe sahip olabilir. MIT araştırmacılarının başarısı ayrıca, daha önce DARPA’nın İleri Düzey Makine Öğrenimi için Olasılıksal Programlama (PPAML) programı kapsamında geliştirilen olasılıksal programlama teknolojisinin, DARPA’nın mevcut Machine Common Sense (MCS) programı kapsamında sağduyulu yapay zekanın merkezi sorunlarını çözmek için nasıl uygulanabileceğini göstermektedir,” DARPA Program Yöneticisi Matt Turek diyor.

Referans: Nishad Gothoskar, Marco Cusumano-Town, Ben Zinberg, Matin Ghavamizadeh, Falk Pollok, Austin Garrett, Joshua B. Tenenbaum, Dan Gutfreund ve Vikash K. Mansinghka, “3DP3: Olasılıksal Programlama yoluyla 3D Sahne Algısı”, 30 Ekim 2021, Bilgisayar Bilimi > Bilgisayarla Görme ve Örüntü Tanıma.
arXiv:2111.00312

ZİYARETÇİ YORUMLARI - 0 YORUM

Henüz yorum yapılmamış.