مکان یابی چند-منبعی در محیط های پرانعکاس توسط موسیقی-ریشه و خوشه بندی MULTI-SOURCE LOCALIZATION IN REVERBERANT ENVIRONMENTS BY ROOT-MUSIC AND CLUSTERING
- نوع فایل : کتاب
- زبان : فارسی
- ناشر : آی تریپل ای IEEE
- چاپ و سال / کشور: 2000
توضیحات
چاپ شده در مجله کنفرانس بین المللی آکوستیک، گفتار و پردازش سیگنال – International Conference on Acoustics, Speech, and Signal Processing
رشته های مرتبط مهندسی برق، مهندسی الکترونیک
مکان یابی منابع اکوستیک در محیط های پرانعکاس توسط آرایه های میکروفن, در پردازش سیگنال صوتی, هنوز هم یک کار چالش آور است. در حقیقت, بیشتر مفروضات در مورد مدل های اتخاذ شده رایج در کاربردهای واقعی برآورده نمی شوند. علاوه بر این, در سیستم های عملی, استفاده از معماری های پیچیده و هزینه بر, رایج یا ممکن نیست و به سنکرون سازی دقیق و ترکیب سریع داده های در میان حسگرها نیاز دارد. در این مقاله, یک رویه چند-مرحله ای نیرومند برای مکان یابی سخنگو (اسپیکر) در اتاق های پرانعکاس معرفی و توصیف شده است. این رویکرد جدید مبتنی بر یک مدل هارمونیک های توزیع شده از تاخیرات زمانی در حوزه فرکانس است و از الگوریتم شناخته شده ROOT-MUSIC (ریشه-موسیقی), بعد از یک پردازش توزیع شده مقدماتی از سیگنال های دریافتی استفاده می کند. سپس موقعیت های نمونه منبع با خوشه بندی برآوردهای TDOA خام تخمین زده می شوند. ویژگی های اصلی رویکرد پیشنهادی, در مقایسه با راه حل های قبلی, توانمندی ردیابی سخنگوهای متعدد و دقت بالای برآوردگر TDOA شکل بسته هستند. ۱٫ مقدمه مکان یابی منابع اکوستیک در محیط های پرانعکاس, یک وظیفه مهم در بسیاری از سیستم های خودکار برای نظارت, ویدئو کنفرانس, صحبت با هندزفری [۱] است. پارامترهای فضایی به دست آمده در فرآیند موقعیت یابی را می توان در انواع کاربردها استفاده نمود: طنین زدایی صحبت, پیش بینی خطا و تحلیل در دستگاه, اشاره و ردیابی دوربین های تلویزیونی, تایید سخنگو و غیره. از نقطه نظر پردازش سیگنال, این موضوع, یک راه حل مناسب برای ورودهای متعدد متناظر با سیگنال (ها) و انعکاسات است. سطوح انعکاسی در محیط های بسته معمولاً توسط اطلاعات منابع مجازی مدلسازی می شوند [۲] که تعداد آنها معمولاً از اندازه آرایه میکروفن بیشتر می شود. این حقیقت همراه با پهنای باند بسیار بزرگ سیگنال های مورد نظر, تکنیک های پارامتری مورد استفاده در آرایه باند-باریک یا باند-پهن متوسط را در حضور منابع میدان-دور نامناسب می سازد [۳][۴][۵]. به این دلایل, بیشتر رویکردها برای مکان یابی منبع شامل استفاده از تاخیرات زمانی مختلف (تاخیر زمانی ورودی, TDOA, در میان جفت های (دوبل ها) میکروفن های همزمان-واقع شده) می شوند [۶][۷][۸][۹]. این فرآیند به بهینه سازی پارامتری پیوسته از سیگنال های جمع آوری شده توسط چند حسگر در یک زمان نیاز دارد. نوعاً, برآورد TDOA توسط روش های همبستگی متقابل تعمیم یافته انجام می شود [۶][۹] که برای سادگی و سهولت پیاده سازی, جذاب هستند. در هر صورت, روش های همبستگی متقابل تعمیم یافته, یک مدل منبع-تک را فرض می کنند که در بسیاری از محیط های عملیاتی نوی فراتر از واقعیت است. بنابراین یک مدل متفاوت و راهبردها, برای غلبه بر محدودیت های رویکردهای سنتی نیاز می شوند. از نقطه نظر طراحی سیستم, کاهش الزامات سنکرون سازی و مسیرهای سیگنال به حداقل, برای کاهش هزینه ها در کاربردهای کنونی, بسیار مهم است. در این کار, ما یک راهبردی سه-مرحله ای جدید را برای مکانیابی نیرومند چندین سخنگو در اتاق های پرانعکاس پیشنهاد می دهیم. اولین مرحله شامل پیش-سفیدسازی داده ها با استفاده از کدگذاری پیش بینی خطی (LPC) می شود. آثار پیش سفیدسازی سیگنال برای تولید یک غلظت تقریبی از تابع احتمال (تحت یک فرض گاوسی ساده کننده) [۷] و کاهش آثار انعکاس است (مثلاً تعداد TDOA چشمگیر که باید برآورد شوند). در مرحله دوم, TDOAها برای مسیر مستقیم و انعکاسات اولیه (قوی ترین) توسط یک رویکرد پارامتری شکل-بسته بر اساس الگوریتم ریشه-موسیقی برآورد می شوند[۱۲]. در نهایت, مرحله سوم, محتمل ترین موقعیت سخنگوها را با استفاده از خوشه بندی در فضا می یابد که در میان تمام مکان های تخمین زده شده انجام می شود. چگال ترین خوشه ها به عنوان سخنگوهای نماینده انتخاب می شوند و در نتیجه بیشتر تشخیص های غلط تولید شده توسط برون هشته ها حذف می شود (منابع مجازی, ابهامان مکانی, نویز ضربه ای و غیره).
رشته های مرتبط مهندسی برق، مهندسی الکترونیک
مکان یابی منابع اکوستیک در محیط های پرانعکاس توسط آرایه های میکروفن, در پردازش سیگنال صوتی, هنوز هم یک کار چالش آور است. در حقیقت, بیشتر مفروضات در مورد مدل های اتخاذ شده رایج در کاربردهای واقعی برآورده نمی شوند. علاوه بر این, در سیستم های عملی, استفاده از معماری های پیچیده و هزینه بر, رایج یا ممکن نیست و به سنکرون سازی دقیق و ترکیب سریع داده های در میان حسگرها نیاز دارد. در این مقاله, یک رویه چند-مرحله ای نیرومند برای مکان یابی سخنگو (اسپیکر) در اتاق های پرانعکاس معرفی و توصیف شده است. این رویکرد جدید مبتنی بر یک مدل هارمونیک های توزیع شده از تاخیرات زمانی در حوزه فرکانس است و از الگوریتم شناخته شده ROOT-MUSIC (ریشه-موسیقی), بعد از یک پردازش توزیع شده مقدماتی از سیگنال های دریافتی استفاده می کند. سپس موقعیت های نمونه منبع با خوشه بندی برآوردهای TDOA خام تخمین زده می شوند. ویژگی های اصلی رویکرد پیشنهادی, در مقایسه با راه حل های قبلی, توانمندی ردیابی سخنگوهای متعدد و دقت بالای برآوردگر TDOA شکل بسته هستند. ۱٫ مقدمه مکان یابی منابع اکوستیک در محیط های پرانعکاس, یک وظیفه مهم در بسیاری از سیستم های خودکار برای نظارت, ویدئو کنفرانس, صحبت با هندزفری [۱] است. پارامترهای فضایی به دست آمده در فرآیند موقعیت یابی را می توان در انواع کاربردها استفاده نمود: طنین زدایی صحبت, پیش بینی خطا و تحلیل در دستگاه, اشاره و ردیابی دوربین های تلویزیونی, تایید سخنگو و غیره. از نقطه نظر پردازش سیگنال, این موضوع, یک راه حل مناسب برای ورودهای متعدد متناظر با سیگنال (ها) و انعکاسات است. سطوح انعکاسی در محیط های بسته معمولاً توسط اطلاعات منابع مجازی مدلسازی می شوند [۲] که تعداد آنها معمولاً از اندازه آرایه میکروفن بیشتر می شود. این حقیقت همراه با پهنای باند بسیار بزرگ سیگنال های مورد نظر, تکنیک های پارامتری مورد استفاده در آرایه باند-باریک یا باند-پهن متوسط را در حضور منابع میدان-دور نامناسب می سازد [۳][۴][۵]. به این دلایل, بیشتر رویکردها برای مکان یابی منبع شامل استفاده از تاخیرات زمانی مختلف (تاخیر زمانی ورودی, TDOA, در میان جفت های (دوبل ها) میکروفن های همزمان-واقع شده) می شوند [۶][۷][۸][۹]. این فرآیند به بهینه سازی پارامتری پیوسته از سیگنال های جمع آوری شده توسط چند حسگر در یک زمان نیاز دارد. نوعاً, برآورد TDOA توسط روش های همبستگی متقابل تعمیم یافته انجام می شود [۶][۹] که برای سادگی و سهولت پیاده سازی, جذاب هستند. در هر صورت, روش های همبستگی متقابل تعمیم یافته, یک مدل منبع-تک را فرض می کنند که در بسیاری از محیط های عملیاتی نوی فراتر از واقعیت است. بنابراین یک مدل متفاوت و راهبردها, برای غلبه بر محدودیت های رویکردهای سنتی نیاز می شوند. از نقطه نظر طراحی سیستم, کاهش الزامات سنکرون سازی و مسیرهای سیگنال به حداقل, برای کاهش هزینه ها در کاربردهای کنونی, بسیار مهم است. در این کار, ما یک راهبردی سه-مرحله ای جدید را برای مکانیابی نیرومند چندین سخنگو در اتاق های پرانعکاس پیشنهاد می دهیم. اولین مرحله شامل پیش-سفیدسازی داده ها با استفاده از کدگذاری پیش بینی خطی (LPC) می شود. آثار پیش سفیدسازی سیگنال برای تولید یک غلظت تقریبی از تابع احتمال (تحت یک فرض گاوسی ساده کننده) [۷] و کاهش آثار انعکاس است (مثلاً تعداد TDOA چشمگیر که باید برآورد شوند). در مرحله دوم, TDOAها برای مسیر مستقیم و انعکاسات اولیه (قوی ترین) توسط یک رویکرد پارامتری شکل-بسته بر اساس الگوریتم ریشه-موسیقی برآورد می شوند[۱۲]. در نهایت, مرحله سوم, محتمل ترین موقعیت سخنگوها را با استفاده از خوشه بندی در فضا می یابد که در میان تمام مکان های تخمین زده شده انجام می شود. چگال ترین خوشه ها به عنوان سخنگوهای نماینده انتخاب می شوند و در نتیجه بیشتر تشخیص های غلط تولید شده توسط برون هشته ها حذف می شود (منابع مجازی, ابهامان مکانی, نویز ضربه ای و غیره).
Description
ABSTRACT Localization of acoustic sources in reverberant environments by microphone arrays remains a challenging task in audio signal processing. As a matter of fact, most assumptions of commonly adopted models are not met in real applications. Moreover, in practical systems it is not convenient or possible to employ sophisticated and costly architectures, that require precise synchronization and fast data shuffling among sensors. In this paper, a new robust multi-step procedure for speaker localization in reverberant rooms is introduced and described. The new approach is based on a disturbed harmonics model of time delays in the frequency domain and employs the wellknown ROOT-MUSIC algorithm, after a preliminary distributed processing of the received signals. Candidate source positions are then estimated by clustering of raw TDOA estimates. Main features of the proposed approach, compared to previous solutions, are the capability of tracking multiple speakers and the high accuracy of the closed form TDOA estimator. ۱٫ INTRODUCTION Localization of acoustic sources in reverberant environments is an important task in many automatic systems for surveillance, videoconferencing, hands-free talking [I]. Spatial parameters obtained in the localization process can be used in a variety of applications: dereverberation of speech, fault prediction and analysis in machinery, cueing and tracking of TV cameras, speaker verification, etc. From a signal processing standpoint. the issue is a proper treatment of multiple arrivals, corresponding to both useful signal(s) and reflections. Reflective surfaces in closed environments are usually modeled by the introduction of virfual sources [2], whose number typically exceeds the microphone array size. This fact, coupled with the very large bandwidth of the signals of interest, makes unsuitable the parametric techniques used in narrow-band or moderately wide-band array processing in the presence of far-field sources [3][4][5]. For these reasons, most approaches to source localization involve the use of differential time delays (Time Delay of Arrival, TDOA) among pairs (“doublets”) of co-located microphones [6][7][8][9]. This process requires a joint parameter optimization from signals collected by many sensors at a time. Typically, TDOA estimation is performed by generalized crosscorrelation methods [6][9], that are appealing for their simplicity and ease of implementation. Anyway, generalized crosscorrelation methods assume a single-source model, which can be far from reality in many typical operating environments. A different model and strategies are thus needed to overcome the limitations of traditional approaches. From the point of view of system design, it is very important to reduce synchronization requirements and signal paths to a minimum, to reduce costs in current applications. In this work, we propose a novel three-stage strategy for the robust localization of multiple speakers in reverberant rooms. The first stage consists of data pre-whitening by use of Linear Predictive Coding (LPC). The effects of signal pre-whitening are to generate an approximate concentration of the likelihood function (under a simplifying Gaussian assumption) [7] and to reduce the reverberation effects (e.g. the number of significant TDOA to be estimated). In the second stage the TDOAs for the direct path and early (strongest) reflections are estimated by a closed-form parametric approach, based on the ROOT-MUSIC algorithm [ 121. Finally, the third stage finds the most likely position of the speakers by means of a clustering in space performed among all the estimated locations. The most dense clusters are selected as candidate speakers, thus eliminating most of false detections generated by outliers (virtual sources, localization ambiguities, impulsive noise, etc.).