Kendi kendini denetleyen robotik öğrenme
Takviye öğrenmenin (RL) şimdiye kadar yapay ajanları bireysel görevler konusunda eğitmek için etkili bir teknik olduğu kanıtlanmıştır. Bununla birlikte, farklı beceriler gerektiren çeşitli görevleri yerine getirmesi gereken çok amaçlı robotların eğitimi söz konusu olduğunda, mevcut RL yaklaşımlarının çoğu ideal olmaktan uzaktır.
Bunu akılda tutarak, UC Berkeley'deki bir araştırma ekibi son zamanlarda, robotlara sunulan davranışlarına göre davranışlarını adapte etmeyi öğretmek için kullanılabilecek yeni bir RL yaklaşımı geliştirmiştir. ArXiv'de önceden yayınlanan ve bu yıl Robot Öğrenme Konferansı'nda sunulan bir makalede açıklanan bu yaklaşım, robotların davranışları otomatik olarak ortaya koymalarını ve zaman içerisinde bunları uygulayarak hangilerinin belirli bir ortamda gerçekleştirilebileceğini öğrenmelerini sağlar. Robotlar daha sonra edindikleri bilgileri yeniden değerlendirebilir ve insan kullanıcılarının onlardan tamamlamasını istedikleri yeni görevlere uygulayabilir.
Çalışmayı yapan araştırmacılardan biri olan Ashvin Nair, "Robotun manipülasyonu için verilerin önemli olduğuna ve manipülasyonu genel bir şekilde çözmek için yeterli veriyi elde ettiğine inanıyoruz." Dedi. “Buna kendinden denetimli robot öğrenme diyoruz : Tutarlı keşif verilerini aktif olarak toplayabilen ve yeni beceriler öğrenmek için görevlerde başarılı veya başarısız olup olmadığını kendi başına anlayabilen bir robot .”
Nair ve meslektaşları tarafından geliştirilen yeni yaklaşım , önceki çalışmalarında sunulan hedef odaklı bir RL çerçevesine dayanıyor . Bu önceki çalışmada, araştırmacılar gizli bir alanda hedef belirlemeyi, harici bir ödüllendirme işlevine ya da durum tahminine ihtiyaç duymadan nesneleri itme ya da kapıları doğrudan piksellerden açma gibi beceriler konusunda eğitmek için bir teknik olarak tanıtmışlardır.
Uygulanabilir hedeflerin belirlenmesini gerektiren kendi kendini denetleyen robotik öğrenme için bir yöntem
Araştırmacılar, veri toplama sırasında sabit kalan içeriği dağıtan verilere bağlam koşullu bir VAE eğitimi verdi. Kredi: Nair ve diğ.
“Yeni çalışmamızda genellemeye odaklanıyoruz: Sadece tek bir beceri öğrenmekle kalmayıp aynı zamanda bu beceriyi gerçekleştirirken görsel çeşitliliği de genelleştirmeyi nasıl başarabilirim? Nair dedi. "Yeni durumlara genelleme yeteneğinin daha iyi robotik manipülasyon için anahtar olacağına inanıyoruz."
Bir robotu bireysel olarak birçok beceri üzerine eğitmek yerine, Nair ve meslektaşları tarafından önerilen koşullu hedef belirleme modeli, robot için uygun ve mevcut durumuyla uyumlu belirli hedefler belirlemek için tasarlanmıştır. Temel olarak, geliştirdikleri algoritma, robotun kontrol edemediği şeyleri kontrol edemediği şeylerden ayıran belirli bir gösterimi öğrenir.
Kendi denetimli öğrenme yöntemlerini kullanırken, robot başlangıçta etrafındaki ortamla rasgele etkileşime girerek verileri (yani bir dizi görüntü ve eylem) toplar. Daha sonra, görüntüleri dolaylı olarak nesnelerin konumu gibi bilgileri içeren düşük boyutlu vektörlere dönüştüren bu verilerin sıkıştırılmış bir gösterimini eğitir. Açıkça ne öğrenileceği anlatılmak yerine, bu temsil, sıkıştırma hedefi ile kavramları otomatik olarak anlar.
Nair, “ Öğrenilen gösterimi kullanarak, robot farklı amaçlara ulaşmak için pratik yapıyor ve donatı öğrenmeyi kullanarak bir politika geliştiriyor ” dedi. "Sıkıştırılmış gösterim, bu uygulama aşaması için anahtardır: iki görüntünün ne kadar yakın olduğunu ölçmek için kullanılır, böylece robotun ne zaman başarılı veya başarısız olduğunu anlar ve robotun pratik yapması için hedefleri örneklemek için kullanılır. Test zamanında, daha sonra öğrendiği politikasını uygulayarak bir insan tarafından belirtilen bir hedef imajını eşleştirebilir. "
Araştırmacılar, yaklaşımlarının etkililiğini, yapay bir ajanın MuJuCo simülasyon platformu kullanılarak yaratılmış bir ortamda daha önce görülmeyen nesneleri manipüle ettiği bir dizi deneyde değerlendirdi. İlginç bir şekilde, eğitim yöntemleri robotik aracının otomatik olarak daha sonra yeni durumlar için geçerli olabileceği becerileri kazanmasına izin verdi. Daha spesifik olarak, robot daha önce edindiği manipülasyon stratejilerini, eğitim sırasında karşılaşmamış olan yeni nesnelere genelleyerek, çeşitli nesneleri manipüle edebildi.
Nair, “Biz bu işten iki sonuç hakkında en heyecanlıyız” dedi. “İlk olarak, gerçek dünyadaki nesneleri yaklaşık 20 nesneye itmek için bir politika geliştirebileceğimizi keşfettik, ancak öğrenilen politika aslında başka nesneleri de zorlayabilir. Bu genelleme türü, derin öğrenme yöntemlerinin temel vaadidir ve umuyoruz Bu, gelecek çok daha etkileyici genelleme biçimlerinin başlangıcıdır. ”
Dikkat çekici bir şekilde, deneylerinde, Nair ve meslektaşları, çevrimiçi olarak büyük miktarda veri toplamak zorunda kalmadan sabit bir etkileşim veri kümesinden bir politika geliştirebildiler. Robotik araştırmalar için veri toplama genellikle çok pahalı olduğundan ve sabit veri kümelerinden gelen becerileri öğrenebilme yaklaşımlarını çok daha pratik hale getirdiğinden, bu önemli bir başarıdır.
Gelecekte, araştırmacılar tarafından geliştirilen kendi kendini denetleyen öğrenme modeli, bireysel olarak geniş bir beceri seti üzerinde eğitim almadan daha geniş çapta çeşitli görevlerle başa çıkabilen robotların geliştirilmesine yardımcı olabilir. Bu arada, Nair ve meslektaşları, benzetilmiş ortamlarda yaklaşımlarını test etmeye devam etmeyi ve bunun yanı sıra daha da geliştirilebilecek yolları araştırmayı planlıyor.