|
Proje Süresi: 1 Ekim 2007- 1 Ekim 2010
Proje Özeti:
Konuşma tanıma teknolojisi halen üzerinde çalışılan ve geliştirilmesi gereken bir teknolojidir. Özellikle gürültülü ortamlarda konuşma tanıma algoritmaları yüksek tanıma yüzdesi ile çalışamamaktadır. İşitsel özniteliklere ek olarak dudak bölgesinden çıkarılan görsel özniteliklerin konuşma tanımaya yardımcı olmak üzere kullanımı literatürde önerilmiştir. Bu metoda literatürde görsel-işitsel (audio-visual) konuşma tanıma denilmektedir. Dudak okuma, aynı zamanda güvenlik ve istihbarat amaçlı olarak uzaktan konuşulanları anlamak amacıyla da kullanılır. Hatta dudak okuma uzmanlığı gibi bir uzmanlık konusu da bulunmaktadır. Bu da dudak hareketlerinin, ses olmasa dahi, söyleneni anlamak amacıyla kullanılabildiğini ve zaman zaman başarılı sonuçlara ulaşılabildiğini gösterir.
Biz bu projede ses sinyallerini ve dudak görüntülerini beraber kullanarak otomatik konuşma tanıma başarımını arttırmayı amaçlıyoruz. Bu amaçla birkaç açıdan yenilik içeren yaklaşımlar geliştirdik ve bu yeniliklerin kullanıldığı sistemlerin mevcut sistemlerden daha başarılı olacağını beklemekteyiz. Bu konuda dünyada ve ülkemizde çok sayıda olmasa da çalışmalar bulunmaktadır. Biz bu çalışmada çoklu akım ve çoklu sınıflandırıcılar kullanarak geniş dağarcıklı ve fonetik model temelli görsel-işitsel konuşma tanıma başarımını arttırma üzerinde duracağız.
Önerdiğimiz projenin özgün değerleri aşağıda listelenmiştir:
- Dudak öznitelikleri olarak eğri tabanlı özniteliklerle beraber doku tabanlı öznitelikler denenecek ve aynı fonetik sese ait farklı insanlar ve değişik ortamdaki dudak görüntüleri arasındaki farklar normalize edilmeye çalışılarak öznitelikler çıkarılacaktır. Ayrıca zaman eksenindenki dinamik değişim bilgisi de özniteliklerde kullanılacaktır.
- Hem dudak hem de ses öznitelikleri için ilk başta çoklu fonetik sınıflandırıcılar kullanılacak ve her iki modalite için sınıflandırıcı ardıl olasılıkları hesaplanacak ve bu ikinci aşama öznitelikler saklı Markov modellere (hidden Markov model – HMM) gözlemler olarak verilecektir. Yani, seri (tandem) bir yapı kullanılacaktır. Bunun avantajı HMM gibi üretici ve gösterime dayalı bir modelde daha ayırıcı (discriminative) özniteliklerin kullanımı yoluyla her zaman istenilen ayırıcılığın sağlanması olacaktır.
- Saklı Markov Model yapısı olarak tek ve iki akımlı modeller denenecektir. Dudak ve ses özniteliklerinin iki akım olarak kullanıldığı modellerde fonetik bazda senkron alt-fonetik seviyede ise asenkron ya da kısmen senkron olanlar denenerek en uygun model tipine ulaşılmaya çalışılacaktır. Ayrıca, değişik durum uzunluklarında fonetik modeller denenecektir.
- Geliştirilecek sistem fonetik ve bağlam-bağımlı olacaktır. Türkçe ve İngilizce olarak geliştirilecektir. Sistemi eğitmek için Türkçe görsel-işitsel veri toplanacaktır. İngilizce görsel-işitsel verilerin satın alınması veya edinilmesi düşünülmektedir. Ayrıca İngilizce ve Türkçe TV yayınlarından toplanacak veriler de sistemi eğitmekte kullanılacaktır.
- Projenin ikinci safhasında uzaktan algılama yoluyla konuşma tanıma benzetimleri yapılacaktır. Buradaki çalışmalar teknolojinin özellikle güvenlik amaçlı olarak kullanılmasına yöneliktir.
Projenin gerçekleştirilmesi bu önemli teknolojide ülkemize önemli bir bilgi birikimi sağlayacaktır. Projenin uygulama alanları aşağıdaki gibi sıralanabilir:
- Arabada, uçakta ve diğer gürültülü ortamlarda konuşma tanımayı gürbüzleştirerek, başarımını arttırmak.
- TV haber sunumlarında ve diğer TV programlarında konuşma tanıma başarımını arttırmak.
- Güvenlik ve kriminal amaçlı olarak uzaktan dudak okuma ve ses algısını birleştirerek konuşulanı anlamak.
Ayrıca proje içeriğinin sıcak araştırma konusu olması ve iki değişik sinyal tipini içermesi nedeniyle yayın potansiyelinin yüksek olduğunu düşünüyoruz.
Proje Ekibi:
Yürütücü: Hakan Erdoğan
Araştırmacı: Mustafa Ünel
Burslu öğrenciler: Saygın Topkaya (doktora), Mustafa Berkay Yılmaz (doktora), Mehmet Umut Şen (yüksek lisans)
Eski çalışanlar: Erol Özgür, Harun Karabalkan (yüksek lisans bitirdi)
Gelişmeler:
Proje başarı ile tamamlanmıştır. Projeden çıkan yayınlar listelenmiştir. Birkaç yayın daha hazırlama aşamasında olduğundan henüz eklenmemiştir. Projede toplanan veritabanına ulaşmak için en aşağıdaki linke bakabilirsiniz.
Yayınlar:
- Topkaya, İ.S., Erdogan, H., "Using multiple visual tandem streams in audio-visual speech recognition," to appear in ICASSP 2011.
- Yilmaz, B., Erdogan, H., Unel, M., "Şekil Önbilgisi Kullanarak Gelişmiş Dudak Bölütlemesi," SIU 2010, Diyarbakır Türkiye, Nisan 2010.
- Erdoğan, H., Şen M.U. “Çoklu Sınıflandırıcıların Doğrusal Birleştiricilerinin Öğrenimi İçin Düzenlileştirmeli ve Bütünleyici Bir Yaklaşım," SIU 2010, Diyarbakır Türkiye, Nisan 2010.
- Yilmaz, B., Erdogan, H., Unel, M., "Probabilistic facial feature extraction using joint distribution of location and texture information," ISCV 2009, Las Vegas, 2009.
- Yilmaz, B., Erdogan, H., Unel, M., "Konum ve doku bilgisinin ortak dağılımını kullanarak yüz özniteliklerinin istatistiksel çıkarımı," SIU 2009, Antalya Türkiye, Nisan 2009.
- Karabalkan, H., Erdoğan, H., “Görsel – İşitsel Konuşma Tanıma’da Veri Kaynaştırma Teknikleri,” SIU 2009, Antalya Türkiye, Nisan 2009.
- Ozgur, E., Yilmaz B., Karabalkan, H., Erdogan, H., Unel, M., "Lip segmentation using adaptive color space training," International Conference on Auditory-Visual Speech Processing 2008, Moreton Island, Australia, Sep. 2008.
- Ozgur, E., Unel, M., Erdogan, H., Ercil, A., "Evolving Implicit Polynomial Interfaces," BMVC 2008, Leeds, UK, Sep. 2008.
Veritabanının açık kullanımını teşvik etme amacıyla;
https://vpa.sabanciuniv.edu/phpBB2/vpa_views.php?s=31&serial=29
adresinde tanıtıcı bir web sitesi hazırlanmıştır. Web sitesinde veritabanının tanıtımı ve araştırmacılar için edinilme bilgileri mevcuttur.
|