بررسی روش های موجود در تشخیص الگو. مشکلات باز در تشخیص گفتار سخنرانی در Yandex

مروری بر روش های تشخیص الگوی موجود

L.P. پوپووا ، و در مورد. داتیف

توانایی "تشخیص" به عنوان دارایی اصلی انسان ها، در واقع، سایر موجودات زنده در نظر گرفته می شود. تشخیص الگو بخشی از سایبرنتیک است که اصول و روش هایی را برای طبقه بندی و شناسایی اشیا، پدیده ها، فرآیندها، سیگنال ها، موقعیت ها توسعه می دهد - همه آن اشیایی که می توانند با مجموعه محدودی از برخی ویژگی ها یا ویژگی هایی که یک شی را توصیف می کنند، توصیف شوند.

تصویر توصیفی از یک شی است. تصاویر دارای ویژگی مشخصه ای هستند که خود را در این واقعیت نشان می دهد که آشنایی با تعداد محدودی از پدیده ها از یک مجموعه امکان تشخیص تعداد زیادی از نمایندگان آن را به دلخواه می دهد.

دو جهت اصلی در تئوری تشخیص الگو وجود دارد:

مطالعه قدرت تشخیص انسان و سایر موجودات زنده.

توسعه تئوری و روش‌هایی برای ساخت دستگاه‌هایی که برای حل مشکلات فردی تشخیص الگو در زمینه‌های کاربردی خاص طراحی شده‌اند.

علاوه بر این، مقاله مشکلات، اصول و روش‌های پیاده‌سازی سیستم‌های تشخیص الگوی مربوط به توسعه جهت دوم را شرح می‌دهد. در بخش دوم مقاله به روش‌های شبکه عصبی تشخیص الگو می‌پردازیم که می‌توان آن را به جهت اول نظریه تشخیص الگو نسبت داد.

مشکلات ساخت سیستم های تشخیص تصویر

وظایف ناشی از ساخت و ساز سیستم های اتوماتیکمعمولاً تشخیص الگو را می توان به چندین حوزه اصلی طبقه بندی کرد. اولین مورد مربوط به ارائه داده های اولیه به دست آمده به عنوان نتایج اندازه گیری برای جسم مورد شناسایی است. مشکل حساسیت. هر مقدار اندازه‌گیری شده برخی از ویژگی‌های یک تصویر یا یک شی است. برای مثال، فرض کنید که تصاویر نویسه‌های الفبایی هستند. در این مورد، یک شبکیه اندازه‌گیری، مشابه آنچه در شکل 1(a) نشان داده شده است، می‌تواند با موفقیت استفاده شود. اگر شبکیه از n عنصر تشکیل شده باشد، نتایج اندازه گیری را می توان به عنوان یک بردار اندازه گیری یا یک بردار تصویر نشان داد. ,

جایی که هر عنصر xi، برای مثال، مقدار 1 if through را می گیرد سلول i امشبکیه از تصویر کاراکتر عبور می کند و در غیر این صورت مقدار 0 است.

شکل را در نظر بگیرید. 2 (ب). در این حالت، تصاویر توابع پیوسته هستند (از نوع سیگنال های صوتی) متغیر t. اگر مقادیر تابع در نقاط گسسته t1,t2, ..., tn اندازه گیری شود، می توان بردار تصویر را با گرفتن x1=f(t1),x2=f(t2),... , xn = تشکیل داد. f (tn).

شکل 1. اندازه گیری شبکیه چشم

دومین مشکل تشخیص الگو به انتخاب ویژگی ها یا ویژگی های مشخصه از داده های اولیه به دست آمده و کاهش ابعاد بردارهای الگو مربوط می شود. این مشکل اغلب به عنوان یک مشکل تعریف می شود پیش پردازش و انتخاب ویژگی.

ویژگی‌های یک دسته از تصاویر، ویژگی‌های مشخصه مشترک همه تصاویر هستند این کلاس. ویژگی هایی که تفاوت بین کلاس های فردی را مشخص می کنند را می توان به عنوان ویژگی های بین طبقاتی تفسیر کرد. ویژگی های درون کلاسی مشترک برای همه کلاس های مورد بررسی وجود ندارد اطلاعات مفیداز نظر شناخت و ممکن است مورد توجه قرار نگیرد. انتخاب ویژگی ها یکی از وظایف مهم مرتبط با ساخت سیستم های تشخیص محسوب می شود. اگر نتایج اندازه گیری امکان به دست آوردن مجموعه کاملی از ویژگی های متمایز را برای همه طبقات فراهم کند، تشخیص واقعی و طبقه بندی الگوها هیچ مشکل خاصی ایجاد نخواهد کرد. سپس تشخیص خودکار به یک فرآیند تطبیق ساده یا رویه هایی مانند جستجوی جدول کاهش می یابد. با این حال، در اکثر مسائل تشخیص عملی، تعیین مجموعه کاملی از ویژگی‌های متمایز، اگر غیرممکن نباشد، بسیار دشوار است. از داده های اصلی، معمولاً می توان برخی از ویژگی های متمایز را استخراج کرد و از آنها برای ساده کردن فرآیند تشخیص خودکار الگو استفاده کرد. به طور خاص، ابعاد بردارهای اندازه گیری را می توان با استفاده از تبدیل هایی که از دست دادن اطلاعات را به حداقل می رساند، کاهش داد.

سومین مشکل مرتبط با ساخت سیستم های تشخیص الگو، یافتن رویه های تصمیم گیری بهینه لازم برای شناسایی و طبقه بندی است. پس از اینکه داده‌های جمع‌آوری‌شده درباره الگوهایی که باید شناسایی شوند با نقاط یا بردارهای اندازه‌گیری در فضای الگو نشان داده شد، به ماشین اجازه دهید بفهمد که این داده‌ها با کدام دسته از الگوها مطابقت دارد. اجازه دهید ماشین طوری طراحی شود که بین کلاس های M که با w1، w2، ... ...، wm مشخص می شوند، تمایز قائل شود. در این حالت می توان فضای تصویر را متشکل از مناطق M در نظر گرفت که هر کدام حاوی نقاط مربوط به تصاویری از همان کلاس است. در این مورد، مشکل تشخیص را می توان به عنوان ساخت مرزهای مناطق تصمیم گیری جداکننده کلاس های M بر اساس بردارهای اندازه گیری ثبت شده در نظر گرفت. بگذارید این مرزها برای مثال با توابع تصمیم d1(х),d2(x),..., dm(х) تعریف شوند. این توابع که توابع متمایز نیز نامیده می شوند، توابع اسکالر و تک مقداری تصویر x هستند. اگر di (x) > dj (x) باشد، تصویر x متعلق به کلاس w1 است. به عبارت دیگر، اگر i-امین تعیین کنندهتابع di(x) دارد بالاترین ارزش، سپس یک تصویر معنادار از چنین طرح طبقه بندی خودکار بر اساس اجرای فرآیند تصمیم گیری در شکل نشان داده شده است. 2 (در طرح "GR" - مولد توابع تعیین کننده).

شکل 2. طرح طبقه بندی خودکار.

توابع تصمیم گیری را می توان به روش های مختلفی به دست آورد. در مواردی که اطلاعات پیشینی کاملی در مورد الگوهای قابل تشخیص در دسترس است، توابع تصمیم را می توان دقیقاً بر اساس این اطلاعات تعیین کرد. اگر فقط اطلاعات کیفی در مورد الگوها در دسترس باشد، می توان مفروضات معقولی در مورد شکل توابع تصمیم گیری کرد. در مورد دوم، مرزهای مناطق تصمیم گیری می توانند به طور قابل توجهی از مرزهای واقعی منحرف شوند و بنابراین لازم است سیستمی ایجاد شود که بتواند از طریق یک سری تنظیمات متوالی به یک نتیجه رضایت بخش برسد.

اشیاء (تصاویر) که با استفاده از یک سیستم تشخیص خودکار الگوی شناسایی و طبقه بندی می شوند باید دارای مجموعه ای از ویژگی های قابل اندازه گیری باشند. هنگامی که برای یک گروه کامل از تصاویر نتایج اندازه گیری های مربوطه مشابه است، در نظر گرفته می شود که این اشیاء متعلق به یک کلاس هستند. هدف از سیستم تشخیص تصویر این است که اطلاعات جمع آوری شدهدسته ای از اشیاء را با ویژگی های مشابه اندازه گیری شده برای اشیاء قابل تشخیص تعیین کنید. صحت تشخیص به میزان اطلاعات متمایز موجود در ویژگی های اندازه گیری شده و کارایی استفاده از این اطلاعات بستگی دارد.

روش های اساسی برای پیاده سازی سیستم های تشخیص الگو

تشخیص الگو وظیفه ساخت و اعمال عملیات رسمی بر روی نمایش های عددی یا نمادین اشیاء دنیای واقعی یا ایده آل است، نتایجی که راه حل های آن منعکس کننده روابط هم ارزی بین این اشیاء است. روابط هم ارزی تعلق اشیاء ارزیابی شده به برخی طبقات را بیان می کند که به عنوان واحدهای معنایی مستقل در نظر گرفته می شوند.

هنگام ساخت الگوریتم‌های تشخیص، کلاس‌های هم‌ارزی می‌تواند توسط محققی که از ایده‌های معنادار خود استفاده می‌کند یا از اطلاعات اضافی خارجی درباره شباهت و تفاوت اشیاء در زمینه مسئله حل شده استفاده می‌کند، تنظیم شود. سپس یکی از "تشخیص با معلم" صحبت می کند. در غیر این صورت، یعنی چه زمانی سیستم خودکارمشکل طبقه بندی را بدون درگیر کردن اطلاعات آموزشی خارجی حل می کند، از طبقه بندی خودکار یا "تشخیص بدون نظارت" صحبت می شود. اکثر الگوریتم‌های تشخیص الگو نیاز به دخالت بسیار مهم دارند قدرت پردازش، که تنها با فناوری کامپیوتری با کارایی بالا قابل ارائه است.

نویسندگان مختلف (Yu.L. Barabash، V.I. Vasiliev، A.L. Gorelik، V.A. Skripkin، R. Duda، P. Hart، L.T. Kuzin، F.I. Peregudov، F.P. Tarasenko، Temnikov F.E.، Afonin V.A.، R.، J. V. گونزالس، پی وینستون، ک. فو، یا.ز. تسیپکین و دیگران) گونه‌شناسی متفاوتی از روش‌های تشخیص الگو ارائه می‌دهند. برخی از نویسندگان بین روش‌های پارامتریک، ناپارامتریک و اکتشافی تمایز قائل می‌شوند، در حالی که برخی دیگر گروه‌هایی از روش‌ها را بر اساس مکاتب و روندهای تاریخی در این زمینه مشخص می‌کنند.

در عین حال، گونه شناسی های شناخته شده یک ویژگی بسیار مهم را در نظر نمی گیرند که منعکس کننده ویژگی های نحوه ارائه دانش در مورد موضوعبا استفاده از برخی از الگوریتم های رسمی تشخیص الگو. D.A. Pospelov دو روش اصلی برای بازنمایی دانش را مشخص می کند:

نمایش عمدی - در قالب نمودار روابط بین ویژگی ها (ویژگی ها).

بازنمایی گسترده - با کمک واقعیت های خاص (اشیاء، مثال ها).

لازم به ذکر است که وجود این دو گروه از روش‌های تشخیص: آنهایی که با ویژگی‌ها و آنهایی که با اشیاء عمل می‌کنند، کاملاً طبیعی است. از این منظر، هیچ یک از این روش‌ها، جدا از دیگری، امکان ایجاد انعکاس کافی از حوزه موضوعی را فراهم نمی‌کند. بین این روش‌ها رابطه مکملی به معنای N. Bohr وجود دارد، بنابراین سیستم‌های تشخیص امیدوارکننده باید اجرای هر دوی این روش‌ها و نه هر یک از آنها را فراهم کنند.

بنابراین، طبقه بندی روش های تشخیص پیشنهاد شده توسط D.A. Pospelov مبتنی بر قوانین اساسی است که اساس روش شناخت انسان به طور کلی است، که آن را در یک موقعیت بسیار ویژه (ممتاز) در مقایسه با سایر طبقه بندی ها قرار می دهد، که در این زمینه، به نظر می رسد. سبک تر و مصنوعی تر

روش های هدفمند

یکی از ویژگی های متمایز روش های فشرده این است که از آنها به عنوان عناصر عملیات در ساخت و کاربرد الگوریتم های تشخیص الگو استفاده می کنند. ویژگی های مختلفویژگی ها و روابط آنها چنین عناصری می توانند مقادیر منفرد یا فواصل مقادیر ویژگی، مقادیر متوسط و واریانس ها، ماتریس های رابطه ویژگی و غیره باشند که اقدامات بر روی آنها انجام می شود و به شکل تحلیلی یا سازنده بیان می شود. در عین حال، اشیاء در این روش ها به عنوان واحدهای اطلاعاتی یکپارچه در نظر گرفته نمی شوند، بلکه به عنوان شاخص هایی برای ارزیابی تعامل و رفتار ویژگی های خود عمل می کنند.

گروه روش‌های تشخیص الگوی شدید گسترده است و تقسیم آن به زیر کلاس‌ها تا حدودی دلخواه است:

- روش های مبتنی بر تخمین تراکم توزیع مقادیر ویژگی

- روش هایی مبتنی بر فرضیات مربوط به کلاس توابع تصمیم گیری

- روش های منطقی

- روش های زبانی (ساختاری).

روش‌های مبتنی بر برآورد چگالی توزیع مقادیر ویژگی.این روش‌های تشخیص الگو از نظریه کلاسیک تصمیم‌گیری‌های آماری وام گرفته شده‌اند، که در آن موضوعات مورد مطالعه به‌عنوان تحقق یک متغیر تصادفی چندبعدی در نظر گرفته می‌شوند که طبق برخی قوانین در فضای ویژگی توزیع شده است. آنها بر اساس یک طرح تصمیم گیری بیزی هستند که به احتمالات پیشینی اشیاء متعلق به یک کلاس قابل تشخیص خاص و چگالی توزیع شرطی مقادیر بردار ویژگی متوسل می شوند. این روش ها به تعیین نسبت احتمال در مناطق مختلف فضای ویژگی چند بعدی کاهش می یابد.

گروه روش های مبتنی بر تخمین چگالی توزیع مقادیر ویژگی مستقیماً با روش های تجزیه و تحلیل متمایز مرتبط است. رویکرد بیزی به تصمیم‌گیری یکی از توسعه‌یافته‌ترین روش‌های آماری مدرن، به اصطلاح روش‌های پارامتریک است که بیان تحلیلی قانون توزیع برای آن شناخته شده است. این موردقانون نرمال) و فقط تعداد کمی از پارامترها باید تخمین زده شوند (بردارهای میانگین و ماتریس های کوواریانس).

این گروه همچنین شامل روشی برای محاسبه نسبت احتمال برای ویژگی های مستقل است. این روش، به استثنای فرض استقلال ویژگی ها (که در واقعیت تقریباً هرگز محقق نمی شود)، نیازی به دانش شکل عملکردی قانون توزیع ندارد. می توان آن را به روش های ناپارامتریک نسبت داد.

سایر روشهای ناپارامتریک که در مواقعی که شکل منحنی چگالی توزیع نامشخص است و اصلاً نمی توان در مورد ماهیت آن فرضی داشت استفاده می شود، جایگاه ویژه ای را اشغال می کند. از جمله روش های شناخته شده هیستوگرام های چند بعدی، روش "k-نزدیک ترین همسایگان"، روش فاصله اقلیدسی، روش توابع پتانسیل و غیره است که تعمیم آن روشی است به نام "برآوردهای پارزن". این روش ها به طور رسمی با اشیاء به عنوان ساختارهای یکپارچه عمل می کنند، اما بسته به نوع وظیفه تشخیص، می توانند هم در هیپوستازهای هدفمند و هم در حالت کششی عمل کنند.

روش‌های ناپارامتریک، مقادیر نسبی اشیاء را که در حجم‌های چند بعدی قرار می‌گیرند تجزیه و تحلیل می‌کنند و از آن استفاده می‌کنند. توابع مختلففاصله بین اشیاء نمونه آموزشی و اشیاء شناسایی شده برای ویژگی های کمی، زمانی که تعداد آنها بسیار کمتر از اندازه نمونه است، عملیات با اشیاء نقش واسطه ای در تخمین چگالی توزیع محلی احتمالات شرطی ایفا می کنند و اشیا بار معنایی واحدهای اطلاعاتی مستقل را حمل نمی کنند. در عین حال، زمانی که تعداد ویژگی ها متناسب باشد یا تعداد بیشتراز اشیاء مورد مطالعه، و ویژگی‌ها ماهیتی کیفی یا دوگانه دارند، در این صورت نمی‌توان از هیچ گونه تخمین محلی از چگالی توزیع احتمال صحبت کرد. در این حالت، اشیاء در این روش های ناپارامتریک به عنوان واحدهای اطلاعاتی مستقل (واقعیت های تجربی کل نگر) در نظر گرفته می شوند و این روش ها معنای ارزیابی شباهت و تفاوت اشیاء مورد مطالعه را به دست می آورند.

بنابراین، همان عملیات فناورانه روش‌های ناپارامتریک، بسته به شرایط مسئله، یا تخمین محلی از چگالی توزیع احتمال مقادیر ویژگی‌ها یا تخمین شباهت و تفاوت اشیاء منطقی است.

در زمینه بازنمایی شدید دانش، سمت اول روش های ناپارامتریک در اینجا به عنوان تخمین تراکم توزیع احتمال در نظر گرفته می شود. بسیاری از نویسندگان خاطرنشان می‌کنند که روش‌های ناپارامتری مانند تخمین‌های Parzen در عمل به خوبی کار می‌کنند. مشکلات اصلی در به کارگیری این روش‌ها، نیاز به یادآوری کل نمونه آموزشی برای محاسبه تخمین‌های چگالی توزیع احتمال محلی و حساسیت بالا به غیر نمایندگی بودن نمونه آموزشی است.

روش های مبتنی بر فرضیات مربوط به کلاس توابع تصمیم گیری.در این گروه از روش ها، شکل کلی تابع تصمیم شناخته شده و کیفیت آن تابعی است. بر اساس این تابع، بهترین تقریب تابع تصمیم برای دنباله آموزش جستجو می شود. رایج ترین آنها نمایش توابع تصمیم در قالب چند جمله ای های غیرخطی خطی و تعمیم یافته است. عملکرد کیفیت قاعده تصمیم معمولاً با خطای طبقه بندی همراه است.

مزیت اصلی روش های مبتنی بر فرضیات مربوط به کلاس توابع تصمیم گیری، وضوح است تنظیمات ریاضیمشکلات شناخت، به عنوان مشکلات یافتن یک افراط. راه حل این مشکل اغلب با استفاده از نوعی الگوریتم گرادیان به دست می آید. تنوع روش های این گروه با طیف گسترده ای از توابع کیفیت قاعده تصمیم گیری مورد استفاده و الگوریتم های جستجوی اکسترموم توضیح داده می شود. تعمیم الگوریتم های در نظر گرفته شده، که به طور خاص شامل الگوریتم نیوتن، الگوریتم های نوع پرسپترون و غیره است، روش تقریب تصادفی است. برخلاف روش‌های تشخیص پارامتریک، موفقیت این گروه از روش‌ها چندان به عدم تطابق ایده‌های نظری در مورد قوانین توزیع اشیاء در فضای ویژگی با واقعیت تجربی بستگی ندارد. همه عملیات تابع یک هدف اصلی هستند - یافتن حداکثر عملکرد کیفیت قانون تصمیم. در عین حال، نتایج روش های پارامتریک و در نظر گرفته شده ممکن است مشابه باشند. همانطور که در بالا نشان داده شد، روش های پارامتریک برای مورد توزیع های نرمالاشیاء در کلاس‌های مختلف با ماتریس‌های کوواریانس مساوی به توابع تصمیم‌گیری خطی منجر می‌شوند. همچنین توجه داریم که الگوریتم‌های انتخاب ویژگی‌های اطلاعاتی در مدل‌های تشخیصی خطی را می‌توان به‌عنوان انواع خاصی از الگوریتم‌های گرادیان برای جستجوی یک امتداد تفسیر کرد.

امکان‌های الگوریتم‌های گرادیان برای یافتن یک امتداد، به‌ویژه در گروه قوانین تصمیم‌گیری خطی، به خوبی بررسی شده است. همگرایی این الگوریتم‌ها تنها برای مواردی ثابت شده است که طبقات قابل تشخیص اشیاء در فضای ویژگی توسط ساختارهای هندسی فشرده نمایش داده شوند. با این حال، تمایل به دستیابی به کیفیت کافی از قاعده تصمیم اغلب می‌تواند با کمک الگوریتم‌هایی که اثبات ریاضی دقیقی از همگرایی راه‌حل به حداکثر جهانی ندارند، ارضا شود.

این الگوریتم ها شامل گروه بزرگرویه های برنامه نویسی اکتشافی نشان دهنده جهت مدل سازی تکاملی است. مدلسازی تکاملی یک روش بیونیک است که از طبیعت به عاریت گرفته شده است. این مبتنی بر استفاده از مکانیسم های شناخته شده تکامل به منظور جایگزینی فرآیند مدل سازی معنادار است شی پیچیدهمدلسازی پدیدارشناختی تکامل آن

یک نماینده شناخته شده مدلسازی تکاملی در تشخیص الگو، روش حسابداری گروهی آرگومان ها (MGUA) است. GMDH بر اساس اصل خود سازماندهی است و الگوریتم های GMDH طرح انتخاب انبوه را بازتولید می کنند. در الگوریتم های GMDH، اعضای یک چند جمله ای تعمیم یافته به روش خاصی سنتز و انتخاب می شوند که اغلب به آن چند جمله ای کولموگروف-گابور می گویند. این ترکیب و انتخاب با افزایش پیچیدگی انجام می شود و نمی توان از قبل پیش بینی کرد که چند جمله ای تعمیم یافته چه شکل نهایی خواهد داشت. ابتدا، معمولاً ترکیبات زوجی ساده از ویژگی های اولیه در نظر گرفته می شود، که از آنها معادلات توابع تعیین کننده تشکیل می شود، به عنوان یک قاعده، بالاتر از مرتبه دوم نیست. هر معادله به عنوان یک تابع تصمیم گیری مستقل تجزیه و تحلیل می شود و مقادیر پارامترهای معادلات تشکیل شده به روشی از نمونه آموزشی یافت می شود. سپس، از مجموعه توابع تصمیم گیری حاصل، بخشی از بهترین ها به نوعی انتخاب می شود. کیفیت توابع تصمیم گیری فردی بر روی یک نمونه کنترل (آزمون) بررسی می شود که گاهی اوقات به آن اصل اضافه خارجی می گویند. توابع تصمیم گیری جزئی انتخاب شده در زیر به عنوان متغیرهای میانی در نظر گرفته می شوند که به عنوان آرگومان های اولیه برای ترکیب مشابه توابع تصمیم گیری جدید و غیره عمل می کنند. فرآیند چنین ترکیب سلسله مراتبی تا رسیدن به حداکثر معیار کیفیت تابع تصمیم ادامه می یابد، که در عمل به آن می رسد. هنگام تلاش برای افزایش بیشتر ترتیب اعضای چند جمله ای نسبت به ویژگی های اصلی، خود را در بدتر شدن این کیفیت نشان می دهد.

اصل خودسازماندهی زیربنای GMDH، خودسازماندهی اکتشافی نامیده می شود، زیرا کل فرآیند مبتنی بر معرفی اضافات خارجی است که به صورت اکتشافی انتخاب شده اند. نتیجه تصمیم می تواند به طور قابل توجهی به این اکتشافات بستگی داشته باشد. مدل تشخیصی حاصل به نحوه تقسیم اشیاء به نمونه های آموزشی و آزمایشی، نحوه تعیین معیار کیفیت تشخیص، تعداد متغیرهایی که در ردیف انتخاب بعدی نادیده گرفته شده اند و غیره بستگی دارد.

این ویژگی‌های الگوریتم‌های GMDH نیز مشخصه سایر رویکردهای مدل‌سازی تکاملی است. اما ما در اینجا به یک جنبه دیگر از روش های مورد بررسی اشاره می کنیم. این جوهر محتوایی آنهاست. با استفاده از روش‌های مبتنی بر فرضیات مربوط به کلاس توابع تصمیم‌گیری (تکاملی و گرادیان)، می‌توان مدل‌های تشخیصی با پیچیدگی بالا ساخت و نتایج عملاً قابل قبولی به دست آورد. در عین حال، دستیابی به اهداف عملی در این مورد با استخراج دانش جدید در مورد ماهیت اشیاء قابل تشخیص همراه نیست. امکان استخراج این دانش، به ویژه دانش در مورد مکانیسم های تعامل ویژگی ها (ویژگی ها)، در اینجا اساساً توسط ساختار داده شده چنین تعاملی که در شکل انتخاب شده از عملکردهای تعیین کننده ثابت شده است، محدود شده است. بنابراین، حداکثر چیزی که می توان پس از ساخت یک مدل تشخیصی خاص گفت، فهرست کردن ترکیبات ویژگی ها و خود ویژگی هایی است که در مدل حاصل گنجانده شده است. اما معنای ترکیب هایی که ماهیت و ساختار توزیع اشیاء مورد مطالعه را منعکس می کنند اغلب در چارچوب این رویکرد کشف نشده باقی می ماند.

روش های بولی. روش های منطقی تشخیص الگو بر اساس دستگاه جبر منطقی است و اجازه می دهد تا با اطلاعات موجود نه تنها در ویژگی های فردی، بلکه در ترکیبی از مقادیر ویژگی ها نیز کار کند. در این روش ها مقادیر هر صفت به عنوان رویدادهای ابتدایی در نظر گرفته می شوند.

در بسیار نمای کلیروش های منطقی را می توان به عنوان نوعی جستجو برای الگوهای منطقی در نمونه آموزشی و تشکیل یک سیستم معین از قوانین تصمیم گیری منطقی (مثلاً در قالب پیوندهای رویدادهای ابتدایی) مشخص کرد که هر کدام وزن خاص خود را دارند. گروه روش های منطقی متنوع است و شامل روش هایی با پیچیدگی و عمق تحلیل متفاوت است. برای ویژگی‌های دوگانه (بولی)، طبقه‌بندی‌کننده‌های به اصطلاح درخت‌مانند، روش تست بن‌بست، الگوریتم کورا و غیره محبوب هستند. روش‌های پیچیده‌تر مبتنی بر رسمی‌سازی روش‌های استقرایی D.S. Mill است. رسمی‌سازی با ساخت یک نظریه شبه بدیهی انجام می‌شود و مبتنی بر منطق چند ارزشی چند مرتبه‌شده با کمی‌کننده‌ها روی تاپل‌های با طول متغیر است.

الگوریتم کورا، مانند سایر روش‌های منطقی تشخیص الگو، بسیار پر زحمت است، زیرا هنگام انتخاب حروف ربط، شمارش کامل ضروری است. بنابراین، هنگام به کارگیری روش های منطقی، الزامات بالایی در نظر گرفته می شود سازمان موثرفرآیند محاسباتی، و این روش ها برای ابعاد نسبتاً کوچک فضای ویژگی و فقط در رایانه های قدرتمند به خوبی کار می کنند.

روش های زبانی ( نحوی یا ساختاری )روش های زبانی تشخیص الگو مبتنی بر استفاده از دستور زبان های خاصی است که زبان ها را تولید می کند، که با کمک آنها می توان مجموعه ای از ویژگی های اشیاء قابل تشخیص را توصیف کرد. گرامر به قوانین ساخت اشیاء از این عناصر غیر مشتق شده اشاره دارد.

اگر توصیف تصاویر با کمک عناصر غیر مشتق (تصاویر فرعی) و روابط آنها انجام شود، از رویکرد زبانی یا نحوی برای ساختن سیستم های تشخیص خودکار با استفاده از اصل اشتراک ویژگی ها استفاده می شود. یک تصویر را می توان با استفاده از ساختار سلسله مراتبی از تصاویر فرعی مشابه توصیف کرد ساختار نحویزبان این شرایط استفاده از نظریه زبان های رسمی را در حل مشکلات تشخیص الگو ممکن می سازد. فرض بر این است که دستور زبان تصاویر شامل مجموعه های محدودی از عناصر به نام متغیرها، عناصر غیر مشتق شده و قوانین جایگزینی است. ماهیت قوانین جایگزینی نوع دستور زبان را تعیین می کند. از جمله گرامرهایی که بیشتر مورد مطالعه قرار گرفته اند عبارتند از گرامرهای منظم، بدون متن و گرامرهای تشکیل دهنده مستقیم. از نکات کلیدی این رویکرد می توان به انتخاب عناصر غیر مشتق تصویر، اتحاد این عناصر و روابط مرتبط با آنها در دستور زبان تصاویر و در نهایت اجرای فرآیندهای تحلیل و شناسایی در تصویر مربوطه اشاره کرد. زبان این رویکرد به ویژه هنگام کار با تصاویری که یا با اندازه‌گیری‌های عددی قابل توصیف نیستند، یا آنقدر پیچیده هستند که ویژگی‌های محلی آن‌ها قابل شناسایی نیست و باید به ویژگی‌های جهانی اشیاء اشاره کرد، مفید است.

به عنوان مثال، E.A. بوتاکوف، V.I. استروفسکی، I.L. Fadeev ساختار سیستم زیر را برای پردازش تصویر پیشنهاد می کند (شکل 3)، با استفاده از یک رویکرد زبانی، که در آن هر یک از بلوک های عملکردی یک نرم افزار (ریز برنامه) پیچیده (ماژول) است که توابع مربوطه را پیاده سازی می کند.

شکل 3 طرح ساختاریدستگاه تشخیص

تلاش برای به کارگیری روش های زبان شناسی ریاضی در مسئله تجزیه و تحلیل تصویر منجر به نیاز به حل تعدادی از مسائل مربوط به نگاشت یک ساختار تصویر دو بعدی بر روی زنجیره های یک بعدی یک زبان رسمی می شود.

روش های توسعه ای

در روش های این گروه، بر خلاف جهت گیری، به هر شی مورد مطالعه ارزش تشخیصی مستقل به میزان کم یا زیاد داده می شود. در هسته خود، این روش ها نزدیک به رویکرد بالینی هستند، که افراد را نه به عنوان زنجیره ای از اشیاء رتبه بندی شده بر اساس یک یا شاخص دیگر، بلکه به عنوان سیستم های یکپارچه در نظر می گیرد که هر کدام فردی هستند و ارزش تشخیصی خاصی دارند. چنین نگرش دقیقی نسبت به موضوعات مورد مطالعه اجازه نمی دهد تا اطلاعات مربوط به هر شی منفرد را حذف یا از دست بدهد، که در هنگام استفاده از روش های جهت گیری شدید، استفاده از اشیاء فقط برای شناسایی و اصلاح الگوهای رفتار ویژگی های آنها رخ می دهد.

عملیات اصلی در تشخیص الگو با استفاده از روش های مورد بحث، عملیات تعیین شباهت و تفاوت اشیاء است. اشیاء در گروه مشخص شده از روش ها نقش سوابق تشخیصی را بازی می کنند. در عین حال، بسته به شرایط یک کار خاص، نقش یک سابقه فردی می‌تواند در وسیع‌ترین محدودیت‌ها متفاوت باشد: از مشارکت اصلی و تعیین‌کننده تا مشارکت بسیار غیرمستقیم در فرآیند شناسایی. به نوبه خود، شرایط مشکل ممکن است نیاز به مشارکت داشته باشد مقدار متفاوتسوابق تشخیصی: از یک در هر کلاس قابل تشخیص تا کل حجم نمونه، و راه های مختلفمحاسبه اندازه های شباهت و تفاوت اشیاء. این الزامات تقسیم بیشتر روش های توسعه ای را به زیر کلاس ها توضیح می دهد:

روش مقایسه نمونه اولیه؛

روش k-نزدیکترین همسایه.

تیم های قوانین تصمیم گیری

روش مقایسه نمونه اولیهاین ساده ترین روش تشخیص کششی است. به عنوان مثال، زمانی که کلاس های شناسایی شده در فضای ویژگی در گروه بندی های هندسی فشرده نمایش داده می شوند، استفاده می شود. در این حالت، مرکز گروه بندی هندسی کلاس (یا نزدیکترین شی به مرکز) معمولاً به عنوان نقطه اولیه انتخاب می شود.

برای طبقه بندی یک شی ناشناخته، نمونه اولیه نزدیک به آن پیدا می شود و شی متعلق به همان کلاس این نمونه اولیه است. بدیهی است که هیچ تصویر کلاس تعمیم یافته ای در این روش تشکیل نمی شود.

انواع مختلفی از فواصل را می توان به عنوان معیار نزدیکی استفاده کرد. اغلب برای ویژگی های دوگانه، از فاصله هامینگ استفاده می شود که در این مورد برابر با مجذور فاصله اقلیدسی است. در این مورد، قانون تصمیم گیری برای طبقه بندی اشیا معادل یک تابع تصمیم خطی است.

این واقعیت باید به ویژه مورد توجه قرار گیرد. این به وضوح ارتباط بین نمونه اولیه و نمایش شاخص اطلاعات در مورد ساختار داده را نشان می دهد. با استفاده از نمایش فوق، می توانید، به عنوان مثال، هر مقیاس اندازه گیری سنتی، که است تابع خطیاز مقادیر ویژگی های دوگانه، به عنوان یک نمونه اولیه تشخیصی فرضی در نظر گرفته شود. به نوبه خود، اگر تجزیه و تحلیل ساختار فضایی طبقات شناسایی شده به ما اجازه می دهد تا به این نتیجه برسیم که آنها از نظر هندسی فشرده هستند، کافی است هر یک از این کلاس ها را با یک نمونه اولیه جایگزین کنیم که در واقع معادل یک مدل تشخیصی خطی است.

البته، در عمل، وضعیت اغلب با مثال ایده آل توصیف شده متفاوت است. محققی که قصد دارد یک روش تشخیص مبتنی بر مقایسه با نمونه های اولیه کلاس های تشخیصی را اعمال کند، با مشکلات دشواری مواجه است. این، اول از همه، انتخاب یک اندازه گیری مجاورت (متریک) است که می تواند به طور قابل توجهی پیکربندی فضایی توزیع اشیاء را تغییر دهد. و ثانیاً مشکل مستقلتجزیه و تحلیل ساختارهای چند بعدی داده های تجربی است. هر دوی این مشکلات به ویژه برای محقق در شرایط ابعاد بالای فضای ویژگی که برای مسائل واقعی معمول است، حاد است.

روش k-نزدیکترین همسایه.روش k-نزدیکترین همسایه برای حل مسائل تجزیه و تحلیل متمایز اولین بار در سال 1952 ارائه شد. به شرح زیر می باشد.

هنگام طبقه‌بندی یک شی ناشناخته، تعداد معین (k) از سایر اشیاء که از نظر هندسی نزدیک‌ترین به آن در فضای ویژگی (نزدیک‌ترین همسایگان) با متعلقات شناخته شده قبلی به کلاس‌های قابل تشخیص هستند، یافت می‌شود. تصمیم برای تخصیص یک شی ناشناخته به یک کلاس تشخیصی خاص با تجزیه و تحلیل اطلاعات مربوط به عضویت شناخته شده نزدیکترین همسایگان آن، به عنوان مثال، با استفاده از یک شمارش آرا ساده گرفته می شود.

در ابتدا روش k-نزدیکترین همسایه به عنوان یک روش ناپارامتریک برای تخمین نسبت درستنمایی در نظر گرفته شد. برای این روش، برآوردهای نظری اثربخشی آن در مقایسه با طبقه‌بندی‌کننده بیزین بهینه به‌دست می‌آید. ثابت شده است که احتمالات خطای مجانبی برای روش k-نزدیکترین همسایه بیش از دو برابر بیشتر از خطاهای قانون بیز نیست.

همانطور که در بالا ذکر شد، در مسائل واقعی اغلب لازم است با اشیایی که با تعداد زیادی ویژگی کیفی (دوگانه) توصیف می شوند، کار کرد. در عین حال، ابعاد فضای ویژگی متناسب با حجم نمونه مورد مطالعه یا بیشتر از آن است. در چنین شرایطی، تفسیر هر شی از نمونه آموزشی به عنوان یک طبقه‌بندی خطی جداگانه راحت است. سپس این یا آن کلاس تشخیصی نه با یک نمونه اولیه، بلکه با مجموعه ای از طبقه بندی کننده های خطی نشان داده می شود. تعامل ترکیبی طبقه‌بندی‌کننده‌های خطی منجر به یک سطح خطی تکه‌ای می‌شود که طبقات قابل تشخیص را در فضای ویژگی از هم جدا می‌کند. نوع سطح تقسیم، متشکل از قطعات ابرصفحه، می تواند متفاوت باشد و به موقعیت نسبی مصالح طبقه بندی شده بستگی دارد.

تفسیر دیگری از مکانیسم های طبقه بندی k نزدیکترین همسایه نیز می تواند مورد استفاده قرار گیرد. این مبتنی بر ایده وجود برخی متغیرهای پنهان، انتزاعی یا مرتبط با تغییر با فضای ویژگی اصلی است. اگر فواصل زوجی بین اجسام در فضای متغیرهای نهان مانند فضای ویژگی های اولیه باشد و تعداد این متغیرها بسیار کمتر از تعداد اشیا باشد، می توان تفسیر روش k-نزدیک ترین همسایه ها را در نظر گرفت. از نقطه نظر مقایسه برآوردهای ناپارامتریک چگالی توزیع احتمال شرطی. مفهوم متغیرهای پنهان ارائه شده در اینجا از نظر ماهیت به مفهوم ابعاد واقعی و سایر نمایش های مورد استفاده در روش های مختلف کاهش ابعاد نزدیک است.

هنگامی که از روش k-نزدیکترین همسایه برای تشخیص الگو استفاده می شود، محقق باید حل کند مشکل دشوارانتخاب یک متریک برای تعیین نزدیکی اشیاء تشخیص داده شده. این مشکل در شرایط ابعاد بالای فضای ویژگی به دلیل شدت کار کافی به شدت تشدید می شود. این روش، که حتی برای رایانه های با کارایی بالا نیز قابل توجه است. بنابراین، در اینجا، درست مانند روش مقایسه نمونه اولیه، لازم است مشکل خلاقانه تجزیه و تحلیل ساختار چند بعدی داده های تجربی را حل کنیم تا تعداد اشیاء نشان دهنده کلاس های تشخیصی به حداقل برسد.

الگوریتم های محاسبه نمرات (رای گیری).اصل عملکرد الگوریتم های ارزیابی (ABO) محاسبه اولویت (نمرات شباهت) است که "نزدیک بودن" اشیاء شناخته شده و مرجع را با توجه به سیستم مجموعه ویژگی ها، که سیستمی از زیر مجموعه های یک مجموعه معین است، مشخص می کند. از ویژگی ها

برخلاف تمام روش‌هایی که قبلاً در نظر گرفته شده بود، الگوریتم‌های محاسبه برآوردها با توصیف اشیا به روشی اساسی جدید عمل می‌کنند. برای این الگوریتم ها، اشیا به طور همزمان در زیرفضاهای بسیار متفاوتی از فضای ویژگی وجود دارند. کلاس ABO ایده استفاده از ویژگی ها را به نتیجه منطقی خود می رساند: از آنجایی که همیشه مشخص نیست که کدام ترکیب ویژگی ها آموزنده ترین هستند، در ABO درجه تشابه اشیاء با مقایسه همه ترکیبات ممکن یا معین ویژگی ها محاسبه می شود. در توضیحات اشیاء گنجانده شده است.

قوانین تیم تصمیم گیریقانون تصمیم گیری از یک طرح تشخیص دو سطحی استفاده می کند. در سطح اول، الگوریتم های تشخیص خصوصی کار می کنند که نتایج آن در سطح دوم در بلوک سنتز ترکیب می شود. رایج ترین روش های چنین ترکیبی بر اساس تخصیص حوزه های صلاحیت یک الگوریتم خاص است. ساده‌ترین راه برای یافتن حوزه‌های صلاحیت، تقسیم پیشینی فضای ویژگی‌ها بر اساس ملاحظات حرفه‌ای یک علم خاص است (مثلاً طبقه‌بندی نمونه بر اساس برخی ویژگی‌ها). سپس برای هر یک از مناطق انتخاب شده، الگوریتم تشخیص خود ساخته می شود. روش دیگر مبتنی بر استفاده از تجزیه و تحلیل رسمی برای تعیین مناطق محلی فضای ویژگی به عنوان همسایگی اشیاء قابل تشخیص است که موفقیت هر الگوریتم تشخیص خاصی برای آنها ثابت شده است.

کلی ترین رویکرد برای ساخت یک بلوک سنتز، شاخص های حاصل از الگوریتم های جزئی را به عنوان ویژگی های اولیه برای ساختن یک قانون تصمیم گیری تعمیم یافته جدید در نظر می گیرد. در این صورت می توان از تمام روش های فوق جهت های عمودی و کششی در تشخیص الگو استفاده کرد. برای حل مشکل ایجاد مجموعه ای از قوانین تصمیم گیری، الگوریتم های منطقی از نوع "Kora" و الگوریتم هایی برای محاسبه تخمین ها (ABO) موثر هستند که اساس رویکرد به اصطلاح جبری هستند که تحقیق و توصیف سازنده ای را ارائه می دهند. الگوریتم‌های تشخیص، که همه انواع الگوریتم‌های موجود در آن جا می‌شوند.

روش های شبکه عصبی

روش های شبکه عصبی روش هایی مبتنی بر استفاده از انواع مختلف شبکه های عصبی (NN) هستند. زمینه های اصلی کاربرد NN های مختلف برای تشخیص الگو و تصویر:

برنامه ای برای استخراج ویژگی ها یا ویژگی های کلیدی تصاویر داده شده،

طبقه‌بندی خود تصاویر یا ویژگی‌هایی که قبلاً از آنها استخراج شده‌اند (در مورد اول، استخراج ویژگی‌های کلیدی به طور ضمنی در شبکه رخ می‌دهد)،

حل مسائل بهینه سازی

چند لایه شبکه های عصبی. معماری یک شبکه عصبی چندلایه (MNN) شامل لایه‌هایی است که به‌طور متوالی به هم متصل شده‌اند، که در آن نورون هر لایه با ورودی‌هایش با تمام نورون‌های لایه قبلی و خروجی‌های لایه بعدی مرتبط است.

ساده ترین کاربرد یک NN تک لایه (به نام حافظه مرتبط خودکار) آموزش شبکه برای بازسازی تصاویر فید است. با تغذیه یک تصویر آزمایشی به ورودی و محاسبه کیفیت تصویر بازسازی شده، می توان تخمین زد که شبکه چقدر تصویر ورودی را تشخیص داده است. ویژگی های مثبت این روش این است که شبکه می تواند تصاویر اعوجاج و نویز را بازیابی کند، اما برای اهداف جدی تر مناسب نیست.

MNN همچنین برای طبقه بندی مستقیم تصاویر استفاده می شود - ورودی یا خود تصویر به شکلی است، یا مجموعه ای از ویژگی های کلیدی قبلی استخراج شده از تصویر، در خروجی، نورون با حداکثر فعالیت نشان می دهد که متعلق به کلاس شناخته شده است (شکل 4). اگر این فعالیت کمتر از حد معینی باشد، در نظر گرفته می شود که تصویر ارسالی متعلق به هیچ یک از کلاس های شناخته شده نیست. فرآیند یادگیری مطابقت تصاویر ورودی را با متعلق به یک کلاس مشخص می کند. به این امر یادگیری تحت نظارت گفته می شود. این رویکرد برای کارهای کنترل دسترسی برای گروه کوچکی از افراد خوب است. این رویکرد یک مقایسه مستقیم از خود تصاویر توسط شبکه را فراهم می کند، اما با افزایش تعداد کلاس ها، زمان آموزش و عملیات شبکه به طور تصاعدی افزایش می یابد. بنابراین، برای کارهایی مانند جستجوی یک فرد مشابه در یک پایگاه داده بزرگ، نیاز به استخراج مجموعه فشرده ای از ویژگی های کلیدی است که از آن جستجو می شود.

رویکرد طبقه بندی با استفاده از ویژگی های فرکانساز کل تصویر، شرح داده شده در. یک NS تک لایه بر اساس نورون های چند ارزشی استفاده شد.

B استفاده از NN را برای طبقه بندی تصویر نشان می دهد، زمانی که ورودی شبکه نتایج تجزیه تصویر را با روش اجزای اصلی دریافت می کند.

در MNS کلاسیک، اتصالات عصبی بین لایه ای به طور کامل به هم متصل هستند و تصویر به صورت یک بردار یک بعدی نشان داده می شود، اگرچه دو بعدی است. هدف معماری شبکه عصبی کانولوشن غلبه بر این کاستی هاست. از میدان های گیرنده محلی (ارائه اتصال دو بعدی محلی نورون ها)، وزن های عمومی (تشخیص برخی از ویژگی ها در هر نقطه از تصویر) و سازماندهی سلسله مراتبی با نمونه برداری فرعی فضایی (نمونه برداری فرعی فضایی) استفاده کرد. NN کانولوشنال (CNN) مقاومت جزئی در برابر تغییرات مقیاس، جابجایی، چرخش، اعوجاج ایجاد می کند.

MNS همچنین برای شناسایی اشیاء از یک نوع خاص استفاده می شود. علاوه بر این واقعیت که هر MNS آموزش دیده می تواند تا حدی تعلق تصاویر را به کلاس های "خود" تعیین کند، می تواند به طور ویژه برای شناسایی مطمئن کلاس های خاص آموزش داده شود. در این حالت، کلاس های خروجی، کلاس هایی خواهند بود که به نوع تصویر داده شده تعلق دارند و تعلق ندارند. یک آشکارساز شبکه عصبی برای تشخیص تصویر چهره در تصویر ورودی استفاده شد. تصویر با یک پنجره 20x20 پیکسل اسکن شد، که به ورودی شبکه داده شد، که تصمیم می‌گیرد که آیا منطقه داده شده به کلاس چهره‌ها تعلق دارد یا خیر. آموزش با استفاده از مثال های مثبت (تصاویر مختلف از چهره) و مثال های منفی (تصاویری که چهره نیستند) انجام شد. برای بهبود قابلیت اطمینان تشخیص، از تیمی از NN های آموزش دیده با وزن های اولیه مختلف استفاده شد که در نتیجه NN ها به روش های مختلف اشتباه کردند و تصمیم نهایی با رای گیری کل تیم گرفته شد.

شکل 5. اجزای اصلی (صورت ویژه) و تجزیه تصویر به اجزای اصلی

NN همچنین برای استخراج ویژگی های کلیدی تصویر استفاده می شود که سپس برای طبقه بندی بعدی استفاده می شود. در، روشی برای اجرای شبکه عصبی روش تحلیل مولفه اصلی نشان داده شده است. ماهیت روش تجزیه و تحلیل مؤلفه های اصلی به دست آوردن حداکثر ضرایب هسته زدایی است که الگوهای ورودی را مشخص می کند. این ضرایب را مولفه های اصلی می نامند و برای فشرده سازی آماری تصویر استفاده می شود که در آن تعداد کمی از ضرایب برای نمایش کل تصویر استفاده می شود. NN با یک لایه پنهان حاوی N نورون (که بسیار کوچکتر از بعد تصویر است)، آموزش داده شده با روش پس انتشارخطاهای بازیابی تصویر ورودی در خروجی، ضرایب اولین N جزء اصلی را در خروجی نورون های پنهان ایجاد می کند که برای مقایسه استفاده می شود. معمولاً از 10 تا 200 جزء اصلی استفاده می شود. با افزایش تعداد مؤلفه ها، میزان نمایندگی آن به شدت کاهش می یابد و استفاده از مؤلفه هایی با اعداد زیاد منطقی نیست. هنگام استفاده از توابع فعال سازی غیرخطی عناصر عصبی، تجزیه غیرخطی به اجزای اصلی امکان پذیر است. غیر خطی بودن به شما امکان می دهد تا تغییرات داده های ورودی را با دقت بیشتری منعکس کنید. با اعمال تجزیه و تحلیل مولفه های اصلی در تجزیه تصاویر چهره، اجزای اصلی به نام چهره های مناسب را به دست می آوریم که دارای دارایی مفید- مؤلفه هایی وجود دارد که عمدتاً منعکس کننده ویژگی های اساسی یک فرد مانند جنسیت ، نژاد ، احساسات است. هنگامی که ترمیم می شوند، اجزا ظاهری شبیه به چهره دارند، که اولی کلی ترین شکل صورت را منعکس می کند، دومی نشان دهنده تفاوت های جزئی مختلف بین چهره ها است (شکل 5). این روش برای جستجو خوب عمل می کند تصاویر مشابهافراد در پایگاه های داده بزرگ امکان کاهش بیشتر ابعاد اجزای اصلی با کمک NS نیز نشان داده شده است. ارزیابی کیفیت بازسازی تصویر ورودیمی توان بسیار دقیق تعلق آن را به طبقه ای از افراد تعیین کرد.

شبکه های عصبی مرتبه بالاشبکه‌های عصبی مرتبه بالا (HNN) از این جهت با MNN تفاوت دارند که فقط یک لایه دارند، اما ورودی‌های نورون‌ها نیز عبارت‌های مرتبه بالایی را دریافت می‌کنند که حاصلضرب دو یا چند جزء از بردار ورودی است. چنین شبکه هایی همچنین می توانند سطوح جداکننده پیچیده ای را تشکیل دهند.

شبکه های عصبی هاپفیلد Hopfield NN (HSH) تک لایه و کاملاً متصل است (هیچ اتصالی از نورون ها به خودشان وجود ندارد)، خروجی های آن با ورودی ها متصل می شوند. بر خلاف MNS، NSH آرامش بخش است، به عنوان مثال. در حالت اولیه تنظیم می شود، تا زمانی که به یک حالت پایدار برسد که مقدار خروجی آن خواهد بود، عمل می کند. برای جستجوی حداقل جهانی در رابطه با مسائل بهینه‌سازی، از تغییرات تصادفی NSH استفاده می‌شود.

استفاده از NSH به عنوان یک حافظه ارتباطی به شما این امکان را می دهد که تصاویری را که شبکه به آنها آموزش داده شده است، هنگامی که یک تصویر تحریف شده به ورودی داده می شود، به دقت بازیابی کنید. در این حالت، شبکه نزدیکترین تصویر (به معنای حداقل انرژی محلی) را "به خاطر می آورد" و بنابراین آن را تشخیص می دهد. چنین عملکردی همچنین می تواند به عنوان یک کاربرد متوالی از حافظه خودکار انجمنی که در بالا توضیح داده شد در نظر گرفته شود. بر خلاف حافظه خودکار، NSH تصویر را با دقت کامل بازیابی می کند. برای جلوگیری از حداقل تداخل و افزایش ظرفیت شبکه، استفاده کنید روش های مختلف.

شبکه های عصبی خودسازمانده کوهونن.شبکه های عصبی خودسازماندهی Kohonen (SNNCs) ترتیب توپولوژیکی فضای تصویر ورودی را ارائه می دهند. آنها اجازه نگاشت توپولوژیکی پیوسته فضای n بعدی ورودی را به خروجی m بعدی، m می دهند.<

Cognitron. cognitron در معماری آن شبیه به ساختار قشر بینایی است، دارای یک سازمان چند لایه سلسله مراتبی است که در آن نورون های بین لایه ها فقط به صورت محلی به هم متصل می شوند. با یادگیری رقابتی (بدون معلم) آموزش دیده است. هر لایه از مغز سطوح مختلفی از تعمیم را اجرا می کند. لایه ورودی به الگوهای ساده مانند خطوط و جهت گیری آنها در مناطق خاصی از ناحیه بصری حساس است، در حالی که پاسخ لایه های دیگر پیچیده تر، انتزاعی تر و مستقل از موقعیت الگو است. عملکردهای مشابهی با مدل‌سازی سازمان‌دهی قشر بینایی در cognitron اجرا می‌شوند.

Neocognitron توسعه بیشتر ایده cognitron است و ساختار سیستم بصری را با دقت بیشتری منعکس می کند، به شما امکان می دهد تصاویر را بدون توجه به دگرگونی ها، چرخش ها، اعوجاج و تغییرات مقیاس آنها تشخیص دهید.

Cognitron یک ابزار قدرتمند تشخیص تصویر است، با این حال، به هزینه های محاسباتی بالایی نیاز دارد که در حال حاضر دست نیافتنی است.

روش های شبکه عصبی در نظر گرفته شده، تشخیص سریع و قابل اعتماد تصویر را ارائه می دهند، اما هنگام استفاده از این روش ها، مشکلاتی در تشخیص اشیاء سه بعدی ایجاد می شود. با این حال، این رویکرد مزایای بسیاری دارد.

نتیجه

در حال حاضر، تعداد نسبتا زیادی سیستم های تشخیص خودکار الگو برای مشکلات مختلف کاربردی وجود دارد.

شناخت الگو با روش های رسمی به عنوان یک جهت علمی اساسی پایان ناپذیر است.

روش های ریاضی پردازش تصویر کاربردهای گسترده ای دارند: علم، فناوری، پزشکی، حوزه اجتماعی. در آینده نقش شناخت الگو در زندگی انسان بیش از پیش افزایش خواهد یافت.

روش های شبکه عصبی تشخیص سریع و قابل اعتماد تصویر را فراهم می کنند. این روش مزایای بسیاری دارد و یکی از امیدوارکننده ترین آنهاست.

ادبیات

D.V. بریلیوک، وی. استاروویتوف. روش های شبکه عصبی تشخیص تصویر // /

Kuzin L.T. مبانی سایبرنتیک: مبانی مدل های سایبرنتیک. T.2. - م.: انرژی، 1979. - 584 ص.

Peregudov F.I.، Tarasenko F.P. مقدمه ای بر تجزیه و تحلیل سیستم: کتاب درسی. - M .: مدرسه عالی، 1997. - 389s.

تمنیکوف F.E.، Afonin V.A.، Dmitriev V.I. مبانی نظری فناوری اطلاعات. - M.: انرژی، 1979. - 511s.

Tu J., Gonzalez R. اصول تشخیص الگو. / مطابق. از انگلیسی. - م.: میر، 1978. - 410s.

وینستون پی. هوش مصنوعی. / مطابق. از انگلیسی. - م.: میر، 1980. - 520s.

روشهای ساختاری در تشخیص الگو: ترجمه از انگلیسی. - م.: میر، 1977. - 320s.

Tsypkin Ya.Z. مبانی تئوری اطلاعات شناسایی. - M.: Nauka، 1984. - 520s.

پوسپلوف G.S. هوش مصنوعی اساس فناوری اطلاعات جدید است. - M.: Nauka، 1988. - 280s.

یو لیفشیتس، روشهای آماری تشخیص الگو ///modern/07modernnote.pdf

Bohr N. فیزیک اتمی و دانش انسانی. / ترجمه از انگلیسی. - م.: میر، 1961. - 151s.

بوتاکوف E.A.، Ostrovsky V.I.، Fadeev I.L. پردازش تصویر در کامپیوتر.1987.-236s.

دودا آر.، هارت پی. تشخیص الگو و تحلیل صحنه. / ترجمه از انگلیسی. - م.: میر، 1978. - 510s.

دوک V.A. روانشناسی کامپیوتری. - سن پترزبورگ: برادری، 1994. - 365 ص.

آیزنبرگ I.N.، Aizenberg N. N. و Krivosheev G. A. نورون‌های باینری چند ارزشی و جهانی: الگوریتم‌های یادگیری، برنامه‌های کاربردی برای پردازش و تشخیص تصویر. یادداشت های سخنرانی در هوش مصنوعی - یادگیری ماشین و داده کاوی در تشخیص الگو، 1999، pp. 21-35.

Ranganath S. و Arun K. تشخیص چهره با استفاده از ویژگی های تبدیل و شبکه های عصبی. تشخیص الگو 1997، جلد. 30، صص. 1615-1622.

Golovko V.A. هوش عصبی: نظریه و کاربردها. کتاب 1. سازماندهی و آموزش شبکه های عصبی با مستقیم و بازخورد - Brest: BPI, 1999, - 260s.

Vetter T. و Poggio T. کلاس های شی خطی و ترکیب تصویر از یک تصویر نمونه. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, Vol. 19، صص. 733-742.

Golovko V.A. هوش عصبی: نظریه و کاربردها. کتاب 2. خود سازماندهی، تحمل خطا و استفاده از شبکه های عصبی - برست: BPI، 1999، - 228s.

لارنس اس.، گیلز سی. ال.، تسوی ای سی و پشت ای دی. تشخیص چهره: رویکرد شبکه عصبی کانولوشنال. IEEE Transactions on Neural Networks, Special Issue on Neural Networks and Pattern Recognition, pp. 1-24.

Wasserman F. Neurocomputer Technology: Theory and Practice, 1992 - 184p.

Rowley H. A., Baluja S. and Kanade T. تشخیص چهره مبتنی بر شبکه عصبی. IEEE Transactions on Pattern Analysis and Machine Intelligence 1998, Vol. 20، صص. 23-37.

Valentin D., Abdi H., O "Toole A. J. and Cottrell G. W. Connectionist models of face processing: a survey. IN: Pattern Recognition 1994, Vol. 27, pp. 1209-1230.

سند

آنها الگوریتم هایی را می سازند به رسمیت شناختنتصاویر. مواد و روش هابه رسمیت شناختنتصاویرهمانطور که در بالا ذکر شد ... واقعیت این نیست وجود دارد"اکوسیستم ها به طور کلی" و وجود داشته باشدتنها چند ... نتیجه گیری از این جزئیات مرورمواد و روش هابه رسمیت شناختنارائه کردیم در ...

مروری بر روش های شناسایی افراد بر اساس تصاویر چهره با در نظر گرفتن ویژگی های تشخیص بصری
مرور
... به رسمیت شناختنتوسط شخصی از اشیاء کم کنتراست، از جمله. افراد آورده شده مرورمشترک مواد و روش ها ... وجود داردکل خط مواد و روش ها ... مسیر، در نتیجه مطالعه، بستری برای توسعه روشبه رسمیت شناختن ...
Imeni Glazkova Valentina Vladimirovna تحقیق و توسعه روشها برای ساخت ابزارهای نرم افزاری برای طبقه بندی اسناد فرامتن چند موضوعی تخصص 05
چکیده پایان نامه
اسناد فرامتنی فصل شامل مرورموجودمواد و روش هاحل مسئله مورد بررسی، شرح ... با قطع کمترین کلاس های مرتبط // ریاضی مواد و روش هابه رسمیت شناختنتصاویر: سیزدهمین کنفرانس سراسری روسیه. منطقه لنینگراد ...
اسلاید 0 مروری بر وظایف بیوانفورماتیک مربوط به تجزیه و تحلیل و پردازش متون ژنتیکی
سخنرانی
توالی DNA و پروتئین مروروظایف بیوانفورماتیک به عنوان وظایف ... سیگنال نیاز به استفاده از مدرن است مواد و روش هابه رسمیت شناختنتصاویر، رویکردهای آماری و ... با تراکم ژنی کم. موجودبرنامه های پیش بینی ژن ...

در مورد اینکه چه مشکلاتی هنوز باید حل شود تا سیستم های تشخیص خودکار گفتار را به سطح انسانی برساند.

از زمان ظهور یادگیری عمیق در تشخیص گفتار، میزان خطا به طور چشمگیری کاهش یافته است. اما با وجود همه چیزهایی که می توانید بخوانید و ببینید، ما هنوز یک سیستم تشخیص گفتار در سطح انسانی نداریم. خطاهای زیادی در تشخیص گفتار وجود دارد. برای حرکت رو به جلو، مهم است که بدانیم چه زمانی رخ می دهند و برای حل مشکلات گام برداریم. این تنها راه برای انتقال از تشخیص خودکار گفتار (ASR) که برای برخی افراد کار می‌کند، به ASR است که برای همه افراد همیشه کار می‌کند.

بهبود در امتیاز میزان خطا در آزمون تشخیص زبان گفتاری Switchboard. مجموعه آزمایشی در سال 2000 گردآوری شد. این شامل 40 مکالمه تلفنی بین دو انگلیسی زبان تصادفی است.

گفتن اینکه ما بر اساس نتایج Switchboards به تشخیص زبان گفتاری در سطح انسانی دست یافته‌ایم مانند این است که بگوییم یک ماشین خودران پس از آزمایش در یک شهر در یک روز آفتابی و بدون ترافیک مانند یک انسان رانندگی می‌کند. آخرین پیشرفت ها در تشخیص زبان گفتاری شگفت انگیز است. اما هنوز زود است که اعلام کنیم به سطح مردم رسیده ایم. در زیر چند بخش وجود دارد که نیاز به بهبود دارند.

لهجه ها و سر و صدا

یکی از قابل توجه ترین تفاوت ها در تشخیص گفتار، توانایی مقابله با لهجه ها و نویز پس زمینه است. دلیل مستقیم این امر این است که داده های آموزشی از گفتار انگلیسی با لهجه آمریکایی و نسبت سیگنال به نویز بالا (SNR) تشکیل شده است. به عنوان مثال، مجموعه داده‌های آموزشی و آزمایشی Switchboard فقط شامل انگلیسی زبان‌های بومی با صدای پس‌زمینه کمی است.

با این حال، افزایش حجم داده برای آموزش احتمالاً مشکل را حل نخواهد کرد. زبان های زیادی با گویش ها و لهجه های زیادی وجود دارد. جمع آوری داده های کافی برای همه موارد ممکن نیست. ایجاد یک سیستم تشخیص گفتار با کیفیت فقط برای انگلیسی با لهجه آمریکایی به پنج هزار ساعت صدای رونویسی شده نیاز دارد.

مقایسه رونوشت‌های انسانی با رونوشت‌های مدل Deep Speech 2 بایدو. توجه داشته باشید که مردم کمتر قادر به تشخیص لهجه های غیر آمریکایی هستند. این احتمالاً به دلیل ریشه آمریکایی است. فکر می‌کنم سخنرانان بومی هر منطقه بهتر می‌توانند لهجه‌های کشورهای بومی خود را تشخیص دهند.

تا آنجا که به نویز پس زمینه مربوط می شود، SNR به ندرت -5 دسی بل در یک ماشین در حال حرکت است. افراد در این محیط به راحتی یکدیگر را درک می کنند. سیستم های تشخیص خودکار گفتار با افزایش نویز، خطاهای بسیار بیشتری ایجاد می کنند. در نمودار بالا، می بینیم که چگونه تفاوت بین خطاهای انسانی و مدل به طور چشمگیری از صدای SNR پایین به صدای SNR بالا افزایش می یابد.

خطاهای معنایی

شاخص سطح خطا در کلمات عینی ترین شاخص نیست. ما به شاخص خطاهای معنایی علاقه مند هستیم. این نسبت عباراتی است که در آن معنا را تحریف می کنیم.

مثالی از یک خطای معنایی: اگر کسی گفت "بیایید سه شنبه ملاقات کنیم" (بیایید سه شنبه ملاقات کنیم)، اما سیستم این عبارت را به عنوان "بیایید امروز ملاقات کنیم" (بیایید امروز ملاقات کنیم) را تشخیص داد. همچنین می‌توانیم در کلمات بدون خطاهای معنایی خطا داشته باشیم: اگر سیستم کلمه را رها کرد و "بیایید سه‌شنبه را ملاقات کنیم" را تشخیص داد، معنای گزاره تغییر نکرد.

ما باید مراقب باشیم که از کلمه نرخ خطا (WER) به عنوان خط پایه استفاده کنیم. بگذار بدترین وضعیت را به تو نشان دهم. WER 5% مربوط به یک کلمه از دست رفته در هر بیست است. اگر در هر جمله بیست کلمه وجود داشته باشد (میانگین برای انگلیسی)، آنگاه میزان خطا در جملات 100٪ خواهد بود. اما بعید است که کلمات از دست رفته معنی جملات را تغییر دهند. در غیر این صورت، حتی با 5٪ WER، هر جمله اشتباه تفسیر می شود.

هنگام مقایسه مدل ها و افراد، مهم است که ماهیت خطاها را بررسی کنید و فقط به WER نگاه نکنید. از تجربه خود می توانم بگویم که وقتی افراد سخنرانی را رونویسی می کنند، اشتباهات کمتری مرتکب می شوند و این اشتباهات چندان مهم نیستند.

محققان مایکروسافت اخیراً خطاهای انسان و سیستم های تشخیص گفتار را با میزان خطای انسانی مقایسه کردند. آنها دریافتند که مدل بیشتر احتمال دارد که الف و آها را اشتباه بگیرد. این دو کلمه معنای کاملاً متفاوتی دارند: "الف" فقط شکاف ها را پر می کند و "بله" به عنوان یک تصدیق عمل می کند. اما مدل و افراد نیز اشتباهات مشابه زیادی مرتکب شدند.

یک کانال، بلندگوهای زیاد

تست Switchboard آسانتر است زیرا هر بلندگو روی یک میکروفون جداگانه ضبط می شود. صداهای مختلف در یک کانال صوتی با هم همپوشانی ندارند. مردم می توانند همزمان چند نفر را درک کنند.

یک سیستم تشخیص گفتار خوب باید بتواند صدا را بر اساس کسی که صحبت می‌کند تقسیم کند (diarization). او همچنین باید صدای چندین بلندگو را درک کند (اشتراک گذاری منبع). این باید بدون نیاز به میکروفون در نزدیکی هر بلندگو امکان پذیر باشد.

مناطق دیگر

لهجه ها و نویز پس زمینه تنها دو عاملی هستند که یک تشخیص دهنده گفتار باید قابلیت اطمینان خود را در برابر آنها افزایش دهد. در اینجا چند مورد دیگر وجود دارد:

طنین از تغییر محیط آکوستیک.
مصنوعات سخت افزاری
کدک مورد استفاده برای مصنوعات صوتی و فشرده سازی.
نرخ نمونه.
سن گوینده

بسیاری از مردم حتی تفاوت بین فایل های mp3 و wav را متوجه نمی شوند. قبل از اینکه بتوانیم ادعای عملکرد در سطح انسانی داشته باشیم، تشخیص‌دهنده‌های گفتار باید با توجه به این عوامل نیز قابل اعتماد باشند.

متن نوشته

ممکن است متوجه شوید که میزان خطای انسانی در تست هایی مانند Switchboard بسیار بالا است. اگر با یکی از دوستانتان چت می کردید و او 1 کلمه از 20 کلمه شما را متوجه نمی شد، برقراری ارتباط برای شما سخت می شد.

یکی از دلایل این امر این است که ارزیابی بدون توجه به زمینه انجام می شود. در زندگی واقعی، ما از بسیاری از سرنخ های دیگر برای درک آنچه که طرف صحبت می گوید استفاده می کنیم. چند نمونه از زمینه ای که افراد استفاده می کنند:

گفتگوهای گذشته و موضوع بحث.
نشانه های بصری مانند حالات صورت و حرکات لب.
دانش در مورد شخصی که با او ارتباط برقرار می کنیم.

تشخیص دهنده گفتار اندروید اکنون به لیست مخاطبین شما دسترسی دارد تا بتواند نام دوستان شما را تشخیص دهد. جستجوی صوتی Maps از موقعیت جغرافیایی برای محدود کردن مقصدهای احتمالی استفاده می کند. دقت سیستم های ASR با استفاده از این نوع سیگنال ها افزایش می یابد. اما ما تازه شروع کرده ایم به بررسی اینکه چه زمینه ای را می توانیم بگنجانیم و چگونه می توانیم آن را انجام دهیم.

پیاده سازی

پیشرفت‌های اخیر در تشخیص زبان گفتاری را نمی‌توان به سرعت اجرا کرد. وقتی در مورد آنچه که یک الگوریتم تشخیص گفتار جدید را عملی می کند صحبت می کنیم، به تأخیر و قدرت روی می آوریم. آنها جفت شده اند و الگوریتم هایی که تأخیر را کاهش می دهند ضریب توان را افزایش می دهند. بیایید هر کدام را جداگانه تحلیل کنیم.

تاخیر انداختن:این زمان از پایان سخنرانی تا پایان رونویسی است. تأخیر کم یک نیاز رایج در سیستم های تشخیص گفتار است. این می تواند به شدت بر تجربه کاربر تأثیر بگذارد و تأخیر اغلب در ده ها میلی ثانیه اندازه گیری می شود. این ممکن است زیاده روی به نظر برسد، اما به یاد داشته باشید که ایجاد رونوشت اولین مرحله از یک سری محاسبات است. به عنوان مثال، در جستجوی صوتی، خود جستجو پس از تشخیص گفتار انجام می شود.

شبکه های برگشتی دو طرفه نمونه خوبی از پیشرفت قابل توجه هستند. همه آخرین پیشرفت های مدرن در تشخیص زبان گفتاری از آنها استفاده می کنند. مشکل این است که ما نمی‌توانیم چیزی را از اولین لایه دوطرفه محاسبه کنیم تا زمانی که کاربر صحبتش را تمام کند. بنابراین، تاخیر با طول بیان افزایش می یابد.

هنگام استفاده از یک جهت، می توانیم فوراً رونویسی را شروع کنیم

با تکرار دوسویه مجبوریم منتظر پایان سخنرانی باشیم.

یک راه خوب برای استفاده موثر از اطلاعات آینده در تشخیص گفتار هنوز یک مشکل باز است.

قدرت:مقدار قدرت پردازش مورد نیاز برای رونویسی یک گفته یک محدودیت اقتصادی است. ما باید ارزش و هزینه هر بهبود در دقت تشخیص گفتار را در نظر بگیریم. اگر بهبود در چارچوب اقتصادی نباشد، قابل اجرا نیست.

یک مثال کلاسیک از بهبودی که اجرا نشده است، یادگیری گروهی است. کاهش 1-2 درصدی در میزان خطا ارزش افزایش 2 برابری تا 8 برابری در قدرت پردازش را ندارد. مدل‌های مبتنی بر شبکه عصبی مکرر مدرن نیز معمولاً در این دسته قرار می‌گیرند، زیرا استفاده از آنها در جستجوی پرتو بسیار گران است، اگرچه من انتظار دارم که در آینده تغییر کند.

من فکر نمی کنم که تحقیقات مربوط به بهبود دقت و قدرت محاسباتی بیشتر بی معنی باشد. قبلاً الگوی «آهسته اما دقیق، سپس سریع» را قبلاً دیده‌ایم. نکته این است که تا زمانی که ارتقا به اندازه کافی سریع نباشد، نمی توان از آن استفاده کرد.

پنج سال آینده

مشکلات باز و پیچیده زیادی در تشخیص گفتار وجود دارد. از جمله:

گسترش قابلیت‌ها در حوزه‌های جدید، لهجه‌های جدید و نسبت سیگنال به نویز پایین.
تزریق زمینه بیشتر به فرآیند شناسایی.
دیاریزاسیون و تفکیک منابع.
میزان خطای معنایی و روش‌های ابتکاری برای ارزیابی تشخیص‌دهنده‌ها
تأخیر کم و الگوریتم های کارآمد.

تصویر، کلاس - گروه بندی طبقه بندی در سیستم طبقه بندی که گروه خاصی از اشیاء را با توجه به برخی ویژگی ها متحد می کند (تفکیک می کند).

درک مجازی از جهان یکی از ویژگی های اسرارآمیز مغز زنده است که درک جریان بی پایان اطلاعات درک شده و حفظ جهت گیری در اقیانوس داده های متفاوت در مورد دنیای خارج را ممکن می کند. با درک جهان خارج، ما همیشه احساسات درک شده را طبقه بندی می کنیم، یعنی آنها را به گروه هایی از پدیده های مشابه اما نه یکسان تقسیم می کنیم. به عنوان مثال، علیرغم تفاوت قابل توجه، یک گروه شامل تمام حروف A است که با دستخط متفاوت نوشته شده است، یا تمام صداهایی که مربوط به یک نت گرفته شده در هر اکتاو و هر ساز است، و اپراتور کنترل کننده شی فنی. مجموعه ایالت هاجسم با همان واکنش واکنش نشان می دهد. مشخص است که برای شکل دادن به مفهوم گروهی از تصورات یک طبقه خاص، کافی است با تعداد کمی از نمایندگان آن آشنا شویم. به کودک می توان فقط یک حرف را نشان داد تا بتواند این حرف را در متنی که با فونت های مختلف نوشته شده است پیدا کند یا آن را تشخیص دهد، حتی اگر به شکل عمدی تحریف شده نوشته شده باشد. این ویژگی مغز به ما امکان می دهد چنین مفهومی را به عنوان یک تصویر فرموله کنیم.

تصاویر دارای ویژگی مشخصه ای هستند که خود را در این واقعیت نشان می دهد که آشنایی با تعداد محدودی از پدیده ها از یک مجموعه امکان تشخیص تعداد زیادی از نمایندگان آن را به دلخواه می دهد. نمونه هایی از تصاویر می توانند عبارتند از: رودخانه، دریا، مایع، موسیقی چایکوفسکی، اشعار مایاکوفسکی و غیره. مجموعه خاصی از حالات جسم کنترل را نیز می توان به عنوان یک تصویر در نظر گرفت و کل این مجموعه حالت ها با این واقعیت مشخص می شود که در به منظور دستیابی به یک هدف معین، همان تاثیر بر یک شی . تصاویر دارای ویژگی‌های عینی مشخصی هستند به این معنا که افراد مختلف که از مواد مشاهده‌ای متفاوت یاد می‌گیرند، در اکثر موارد، اشیاء یکسان را به روشی یکسان و مستقل از یکدیگر طبقه‌بندی می‌کنند. این عینیت تصاویر است که به مردم در سراسر جهان امکان می دهد یکدیگر را درک کنند.

توانایی درک دنیای بیرونی به شکل تصاویر به فرد اجازه می دهد تا با اطمینان خاصی تعداد نامتناهی از اشیاء را بر اساس آشنایی با تعداد محدودی از آنها تشخیص دهد و ماهیت عینی ویژگی اصلی تصاویر به فرد اجازه می دهد تا مدل سازی را انجام دهد. روند شناخت آنها مفهوم تصویر که بازتابی از واقعیت عینی است، به همان اندازه عینی است که خود واقعیت، و بنابراین به خودی خود می تواند موضوع مطالعه خاصی باشد.

در ادبیات اختصاص داده شده به مسئله تشخیص الگوی آموزشی (ORO)، مفهوم کلاس اغلب به جای مفهوم تصویر معرفی می شود.

مشکل تشخیص الگوی یادگیری (ORO)

یکی از جالب ترین ویژگی های مغز انسان توانایی پاسخ دادن به آن است مجموعه بی نهایتحالت های محیط خارجی توسط تعداد محدودی از واکنش ها. شاید این ویژگی بود که به شخص اجازه می داد به بالاترین شکل وجود ماده زنده دست یابد که در توانایی تفکر بیان می شود، یعنی به طور فعال جهان عینی را در قالب تصاویر، مفاهیم، قضاوت ها و غیره منعکس می کند. مشکل ORO هنگام مطالعه خصوصیات فیزیولوژیکی مغز بوجود آمد.

نمونه ای از وظایف از ناحیه ODP را در نظر بگیرید.

برنج. 3.1.

در اینجا 12 تصویر وجود دارد و لازم است ویژگی هایی را انتخاب کنید که بتوان از آنها برای تشخیص سه گانه سمت چپ تصاویر از سمت راست استفاده کرد. حل این مشکلات مستلزم الگوسازی کامل تفکر منطقی است.

به طور کلی، مسئله تشخیص الگو از دو بخش تشکیل شده است: یادگیری و شناخت. آموزش با نشان دادن اشیاء فردی با نشان دادن تعلق آنها به یک یا آن تصویر انجام می شود. در نتیجه آموزش، سیستم تشخیص باید این توانایی را کسب کند که با واکنش های یکسان به همه اشیاء یک تصویر و واکنش های متفاوت به همه اشیاء تصاویر مختلف پاسخ دهد. بسیار مهم است که فرآیند یادگیری فقط با نمایش تعداد محدودی از اشیاء بدون هیچ اعلان دیگری پایان یابد. به عنوان اشیاء یادگیری، می‌توان تصاویر یا سایر تصاویر بصری (حروف) یا پدیده‌های مختلف دنیای بیرون، به عنوان مثال، صداها، وضعیت بدن در حین تشخیص پزشکی، وضعیت یک شی فنی در سیستم‌های کنترل، وجود داشته باشد. و غیره مهم است که فقط خود اشیا و تعلق آنها به تصویر. آموزش با فرآیند شناسایی اشیاء جدید دنبال می شود، که مشخص کننده اقدامات یک سیستم از قبل آموزش دیده است. اتوماسیون این رویه ها مشکل آموزش تشخیص الگو است. در صورتی که شخص خود حدس بزند یا اختراع کند و سپس یک قانون طبقه بندی را بر روی ماشین تحمیل کند، مشکل شناسایی تا حدی حل می شود، زیرا قسمت اصلی و اصلی مشکل (آموزش) به عهده خود شخص است.

مسئله آموزش در تشخیص الگو هم از نظر کاربردی و هم از نظر بنیادی جالب است. از نقطه نظر کاربردی، حل این مشکل قبل از هر چیز مهم است، زیرا امکان خودکارسازی بسیاری از فرآیندهایی را که تاکنون فقط با فعالیت یک مغز زنده مرتبط بوده اند، باز می کند. اهمیت اساسی مشکل با این سوال که به طور فزاینده ای در ارتباط با توسعه ایده ها در سایبرنتیک مطرح می شود، ارتباط نزدیکی دارد: یک ماشین چه کاری می تواند انجام دهد و چه چیزی اساساً نمی تواند انجام دهد؟ تا چه حد می توان توانایی های یک ماشین را به یک مغز زنده نزدیک کرد؟ به طور خاص، آیا یک ماشین می‌تواند این توانایی را ایجاد کند که بر اساس موقعیت‌هایی که در محیط ایجاد می‌شود، توانایی انجام اعمال خاصی را از یک فرد دریافت کند؟ تا اینجا فقط مشخص شده است که اگر شخص بتواند ابتدا خودش به توانایی خود پی ببرد و سپس آن را توصیف کند، یعنی نشان دهد که چرا در پاسخ به هر حالت محیط بیرونی اعمالی انجام می دهد یا چگونه (با چه قاعده ای) فردی را با هم ترکیب می کند. اشیاء به تصاویر، سپس چنین مهارتی را می توان بدون مشکلات اساسی به یک ماشین منتقل کرد. اگر فردی مهارتی دارد، اما نمی تواند آن را توضیح دهد، پس تنها یک راه برای انتقال مهارت به ماشین وجود دارد - یادگیری با مثال.

دامنه وظایفی که می توان با کمک سیستم های تشخیص حل کرد بسیار گسترده است. این نه تنها شامل وظایف تشخیص تصاویر بصری و شنیداری می شود، بلکه وظایف شناسایی فرآیندها و پدیده های پیچیده را نیز شامل می شود، به عنوان مثال، هنگام انتخاب اقدامات مناسب توسط رئیس یک شرکت یا انتخاب مدیریت بهینه فناوری، اقتصادی، حمل و نقل. یا عملیات نظامی در هر یک از این وظایف، برخی از پدیده‌ها، فرآیندها، حالات دنیای خارج مورد تجزیه و تحلیل قرار می‌گیرند که از این پس به عنوان اشیاء مشاهده نامیده می‌شوند. قبل از شروع تجزیه و تحلیل هر شیء، لازم است به طریقی اطلاعات خاصی در مورد آن به دست آورید. چنین اطلاعاتی ویژگی اشیاء است، نمایش آنها در مجموعه اندام های درک سیستم تشخیص.

اما هر شیء مشاهده ای بسته به شرایط ادراک می تواند به طرق مختلف بر ما تأثیر بگذارد. به عنوان مثال، هر حرفی، حتی به همان شیوه نوشته شده است، در اصل، می تواند به هر طریقی نسبت به اندام های درک کننده جابجا شود. علاوه بر این، اشیاء یک تصویر می توانند کاملاً با یکدیگر متفاوت باشند و البته به روش های مختلفی بر اندام های ادراک کننده تأثیر می گذارند.

هر نگاشت هر شیء به اندام های ادراک کننده سیستم تشخیص، صرف نظر از موقعیت آن نسبت به این اندام ها، معمولاً تصویری از جسم نامیده می شود و مجموعه ای از این تصاویر، که توسط برخی ویژگی های مشترک متحد شده اند، تصویر هستند.

هنگام حل مسائل کنترلی با روش های تشخیص تصویر، به جای عبارت «تصویر» از عبارت «وضعیت» استفاده می شود. حالت- این شکل خاصی از نمایش مشخصات جریان اندازه گیری شده (یا لحظه ای) جسم مشاهده شده است. مجموعه ایالت ها وضعیت را تعیین می کند. مفهوم «موقعیت» مشابه مفهوم «تصویر» است. اما این قیاس کامل نیست، زیرا هر تصویری را نمی توان موقعیت نامید، اگرچه هر موقعیتی را می توان تصویر نامید.

یک موقعیت معمولاً به مجموعه خاصی از حالات یک جسم پیچیده گفته می شود که هر کدام با ویژگی های یکسان یا مشابه شی مشخص می شوند. به عنوان مثال، اگر یک شیء کنترلی خاص به عنوان یک شیء مشاهده در نظر گرفته شود، آنگاه وضعیت چنین حالت هایی از این شی را ترکیب می کند که در آن اقدامات کنترلی یکسان باید اعمال شود. اگر هدف مشاهده یک بازی جنگی باشد، آنگاه وضعیت تمام حالت های بازی را که به عنوان مثال به حمله تانک قدرتمند با پشتیبانی هوایی نیاز دارند، ترکیب می کند.

انتخاب توصیف اولیه اشیا یکی از وظایف اصلی مسئله ODP است. با انتخاب موفقیت آمیز توصیف اولیه (فضای ویژگی)، کار شناسایی ممکن است بی اهمیت باشد و بالعکس، یک توصیف اولیه ناموفق انتخاب شده ممکن است منجر به پردازش بسیار دشوار بیشتر اطلاعات یا عدم وجود راه حل شود. اصلا به عنوان مثال، اگر مشکل تشخیص اشیایی که از نظر رنگ متفاوت هستند حل شود و سیگنال های دریافتی از سنسورهای وزن به عنوان توصیف اولیه انتخاب شوند، در این صورت مشکل تشخیص در اصل قابل حل نیست.

آموزش

مدت ها بود که می خواستم یک مقاله کلی بنویسم که حاوی اصول اولیه تشخیص تصویر باشد، نوعی راهنمایی در مورد روش های اساسی، گفتن اینکه چه زمانی از آنها استفاده کنیم، چه کارهایی را حل می کنند، چه کارهایی را می توان در عصر روی زانو انجام داد، و بدون داشتن تیمی از 20 نفر بهتر است به چه چیزی فکر نکنیم.

من مدت زیادی است که مقاله هایی در مورد تشخیص نوری می نویسم، بنابراین چند بار در ماه افراد مختلف با سؤالاتی در مورد این موضوع برای من نامه می نویسند. گاهی اوقات این احساس را به شما دست می دهد که با آنها در دنیاهای مختلف زندگی می کنید. از یک طرف، شما می دانید که یک فرد به احتمال زیاد در یک موضوع مرتبط حرفه ای است، اما در مورد روش های تشخیص نوری اطلاعات بسیار کمی دارد. و آزاردهنده ترین چیز این است که او سعی می کند روشی را از یک حوزه دانش نزدیک به کار ببرد که منطقی است، اما در تشخیص تصویر به طور کامل کار نمی کند، اما این را نمی فهمد و اگر شروع به گفتن چیزی از آن کند بسیار آزرده می شود. خیلی اصولی و با توجه به اینکه گفتن از اصول اولیه زمان زیادی است، که اغلب وجود ندارد، غم انگیزتر می شود.

این مقاله به گونه ای طراحی شده است که شخصی که هرگز با روش های تشخیص تصویر سروکار نداشته است می تواند در عرض 10-15 دقیقه تصویر اساسی خاصی از جهان مربوط به موضوع را در ذهن خود ایجاد کند و بفهمد که در کدام جهت باید حفاری کند. بسیاری از روش هایی که در اینجا توضیح داده شده است برای پردازش رادار و صدا قابل استفاده هستند.
من با چند اصل شروع می کنم که همیشه به یک مشتری بالقوه یا شخصی که می خواهد تشخیص نوری را شروع کند، می گوییم:

هنگام حل یک مشکل، همیشه از ساده ترین ها استفاده کنید. آویزان کردن یک برچسب نارنجی بر روی یک شخص بسیار ساده تر از دنبال کردن یک شخص است و او را در آبشار برجسته می کند. گرفتن دوربینی با وضوح بالاتر بسیار ساده تر از توسعه یک الگوریتم با وضوح فوق العاده است.
بیان مسئله دقیق در روش‌های تشخیص نوری، مرتبه‌های بزرگی مهم‌تر از مسائل برنامه‌نویسی سیستم است: یک کلمه اضافی در TK می‌تواند 50 درصد کار را اضافه کند.
در مسائل شناخت، هیچ راه حل جهانی وجود ندارد. شما نمی توانید الگوریتمی بسازید که به سادگی "هر کتیبه ای" را تشخیص دهد. یک تابلو در خیابان و یک صفحه متن اساساً اشیاء متفاوتی هستند. احتمالاً می توان یک الگوریتم کلی ساخت (نمونه خوبی از گوگل)، اما این کار مستلزم کار زیادی از یک تیم بزرگ و شامل ده ها زیرروال مختلف است.
OpenCV کتاب مقدسی است که روش های زیادی دارد و با آن می توانید 50 درصد حجم تقریباً هر مشکلی را حل کنید، اما OpenCV تنها بخش کوچکی از آنچه در واقعیت می توان انجام داد است. در یک مطالعه، در نتیجه گیری نوشته شده بود: "مشکل با روش های OpenCV حل نمی شود، بنابراین غیر قابل حل است." سعی کنید از این کار اجتناب کنید، تنبل نباشید و هر بار بدون استفاده از قالب های OpenCV، کار فعلی را از ابتدا ارزیابی کنید.

ارائه نوعی توصیه جهانی یا گفتن چگونگی ایجاد نوعی ساختار که در اطراف آن می توانید راه حلی برای مشکلات بینایی رایانه ای دلخواه ایجاد کنید بسیار دشوار است. هدف این مقاله این است که آنچه را که می توان استفاده کرد، ساختار داد. سعی می کنم روش های موجود را به سه گروه تقسیم کنم. گروه اول پیش فیلتر کردن و آماده سازی تصویر است. گروه دوم پردازش منطقی نتایج فیلتر است. گروه سوم، الگوریتم های تصمیم گیری مبتنی بر پردازش منطقی هستند. مرزهای بین گروه ها بسیار دلخواه است. برای حل یک مشکل، استفاده از روش‌هایی از همه گروه‌ها همیشه ضروری نیست؛ گاهی دو کافی است و گاهی حتی یک.

لیست روش های ارائه شده در اینجا کامل نیست. پیشنهاد می‌کنم روش‌های انتقادی که ننوشتم را در نظرات اضافه کنم و به هر کدام 2-3 کلمه همراه نسبت بدهم.

قسمت 1. فیلتر کردن

در این گروه، من روش هایی را قرار دادم که به شما امکان می دهد مناطق مورد علاقه در تصاویر را بدون تجزیه و تحلیل آنها انتخاب کنید. اکثر این روش ها نوعی تبدیل یکنواخت را در تمام نقاط تصویر اعمال می کنند. در سطح فیلتر، تصویر مورد تجزیه و تحلیل قرار نمی گیرد، اما نقاطی که فیلتر می شوند را می توان مناطقی با ویژگی های خاص در نظر گرفت.

باینریزه سازی آستانه، انتخاب ناحیه هیستوگرام

ساده ترین تبدیل، دوتایی شدن تصویر توسط آستانه است. برای تصاویر RGB و مقیاس خاکستری، آستانه مقدار رنگ است. مشکلات ایده آلی وجود دارد که چنین تحولی در آنها کافی است. فرض کنید می خواهید به طور خودکار موارد را روی یک صفحه کاغذ سفید انتخاب کنید:

انتخاب آستانه‌ای که باینری‌سازی انجام می‌شود تا حد زیادی فرآیند دوتایی شدن را تعیین می‌کند. در این مورد، تصویر با رنگ متوسط دودویی شد. به طور معمول، دوتایی سازی با الگوریتمی انجام می شود که به طور تطبیقی آستانه ای را انتخاب می کند. چنین الگوریتمی می تواند انتخاب انتظار یا حالت باشد. و می توانید بزرگترین پیک هیستوگرام را انتخاب کنید.

Binarization می تواند نتایج بسیار جالبی را هنگام کار با هیستوگرام ها به همراه داشته باشد، از جمله وضعیتی که اگر تصویر را نه در RGB، بلکه در HSV در نظر بگیریم. به عنوان مثال، رنگ های مورد علاقه را تقسیم کنید. بر اساس این اصل، می توان هم یک آشکارساز برچسب و هم یک آشکارساز پوست انسان ساخت.

فیلتر کلاسیک: فوریه، LPF، HPF

روش‌های فیلتر کلاسیک از پردازش رادار و سیگنال را می‌توان با موفقیت در انواع وظایف تشخیص الگو به کار برد. روش سنتی در رادار، که تقریباً هرگز در تصاویر به شکل خالص آن استفاده نمی شود، تبدیل فوریه (به طور خاص تر، FFT) است. یکی از معدود استثناهایی که از تبدیل فوریه 1 بعدی استفاده می شود فشرده سازی تصویر است. برای تجزیه و تحلیل تصویر، تبدیل یک بعدی معمولاً کافی نیست، شما باید از تبدیل دو بعدی با منابع بسیار بیشتر استفاده کنید.

تعداد کمی از مردم واقعاً آن را محاسبه می کنند، معمولاً استفاده از پیچش ناحیه مورد نظر با یک فیلتر آماده تیز شده به فرکانس های بالا (HPF) یا پایین (LPF) بسیار سریع تر و آسان تر است. چنین روشی البته اجازه تجزیه و تحلیل طیف را نمی دهد، اما در یک کار پردازش ویدیویی خاص، معمولاً آنالیز مورد نیاز نیست، بلکه یک نتیجه است.

ساده ترین نمونه فیلترهایی که بر فرکانس های پایین (فیلتر گاوسی) و فرکانس های بالا (فیلتر گابور) تاکید دارند.
برای هر نقطه تصویر، یک پنجره انتخاب شده و با فیلتری به همان اندازه ضرب می شود. نتیجه چنین پیچیدگی مقدار جدید نقطه است. هنگام اجرای LPF و HPF، تصاویری از این نوع به دست می آید:

موجک ها

اما اگر از یک تابع مشخصه دلخواه برای کانولوشن با سیگنال استفاده کنیم چه؟ سپس "تبدیل موجک" نامیده می شود. این تعریف از موجک ها درست نیست، اما به طور سنتی، در بسیاری از تیم ها، تجزیه و تحلیل موجک، جستجوی یک الگوی دلخواه در یک تصویر با استفاده از کانولوشن با مدلی از این الگو است. مجموعه ای از توابع کلاسیک در تجزیه و تحلیل موجک استفاده می شود. اینها شامل موجک هار، موجک مورلت، موجک کلاه مکزیکی و غیره هستند. Haar primitives که چندین مقاله قبلی من در مورد آنها وجود داشت ( , ) به چنین توابعی برای فضای دو بعدی اشاره می کند.

در بالا 4 نمونه از موجک های کلاسیک آورده شده است. موجک 3 بعدی هار، موجک 2 بعدی مایر، موجک کلاه مکزیکی، موجک Daubechies. یک مثال خوب برای استفاده از تعبیر توسعه یافته موجک ها، مشکل یافتن درخشش در چشم است که خود درخشش موجک برای آن است:

موجک های کلاسیک معمولاً برای یا برای طبقه بندی آنها (که در زیر توضیح داده می شود) استفاده می شود.

همبستگی

پس از چنین تفسیر آزادانه ای از موجک ها از سوی من، لازم است به همبستگی واقعی زیربنای آنها اشاره کنم. هنگام فیلتر کردن تصاویر، این یک ابزار ضروری است. یک برنامه کلاسیک، همبستگی جریان ویدیویی برای یافتن جریان‌های افست یا نوری است. ساده ترین آشکارساز شیفت نیز به یک معنا یک همبسته تفاوت است. جایی که تصاویر با هم ارتباط ندارند، حرکت وجود دارد.

فیلتر کردن عملکرد

یک دسته جالب از فیلترها، توابع فیلتر هستند. اینها فیلترهای کاملاً ریاضی هستند که به شما امکان می دهند یک تابع ریاضی ساده را در یک تصویر (خط، سهمی، دایره) تشخیص دهید. یک تصویر انباشته ساخته شده است که در آن برای هر نقطه از تصویر اصلی مجموعه ای از توابع که آن را ایجاد می کند ترسیم می شود. کلاسیک ترین تبدیل، تبدیل Hough برای خطوط است. در این تبدیل برای هر نقطه (x;y) مجموعه ای از نقاط (a;b) از خط y=ax+b رسم می شود که برابری برای آنها صادق است. دریافت تصاویر زیبا:

(پلاس اول برای کسی که اولین کسی است که در عکس و چنین تعریفی را پیدا کرده و توضیح می دهد، مثبت دوم برای کسی که اولین کسی است که آنچه در اینجا نشان داده شده است می گوید)
تبدیل Hough به شما امکان می دهد هر تابع قابل پارامتری را پیدا کنید. به عنوان مثال حلقه ها. یک تبدیل اصلاح شده وجود دارد که به شما امکان می دهد هر کدام را جستجو کنید. این دگرگونی به شدت عاشق ریاضیدانان است. اما هنگام پردازش تصاویر، متأسفانه همیشه کار نمی کند. سرعت بسیار پایین، حساسیت بسیار بالا به کیفیت باینریزه شدن. حتی در شرایط ایده آل، ترجیح می دادم با روش های دیگر کنار بیایم.
همتای تبدیل هاف برای خطوط، تبدیل رادون است. از طریق FFT محاسبه می شود، که در شرایطی که امتیازات زیادی وجود دارد، افزایش عملکرد را به همراه دارد. علاوه بر این، می توان آن را برای یک تصویر غیر باینریزه اعمال کرد.

فیلتر کانتور

یک کلاس جداگانه از فیلترها فیلتر حاشیه و کانتور است. مسیرها زمانی بسیار مفید هستند که بخواهیم از کار با یک تصویر به کار با اشیاء در آن تصویر برویم. وقتی یک شی کاملاً پیچیده است، اما به خوبی متمایز است، اغلب تنها راه کار با آن، انتخاب خطوط آن است. تعدادی الگوریتم وجود دارد که مشکل فیلتر کردن کانتور را حل می کند:

رایج ترین مورد استفاده، کنی است، که به خوبی کار می کند و پیاده سازی آن در OpenCV است (سوبل نیز آنجاست، اما او به دنبال خطوط بدتر است).

فیلترهای دیگر

در بالا فیلترهایی وجود دارد که اصلاحات آنها به حل 80-90٪ وظایف کمک می کند. اما در کنار آنها، فیلترهای کمیاب تری نیز در کارهای محلی مورد استفاده قرار می گیرند. ده ها فیلتر از این دست وجود دارد، من همه آنها را لیست نمی کنم. فیلترهای تکرار شونده (به عنوان مثال)، و همچنین تبدیل های ریجلت و منحنی که آلیاژی از فیلتر کردن موجک کلاسیک و تجزیه و تحلیل در میدان تبدیل رادون هستند، مورد توجه است. تبدیل بیملت به زیبایی در مرز تبدیل موجک و تحلیل منطقی کار می کند و به شما امکان می دهد خطوط را برجسته کنید:

اما این دگرگونی ها بسیار خاص و برای کارهای نادر طراحی شده اند.

بخش 2. پردازش منطقی نتایج فیلتر

فیلتر کردن مجموعه ای از داده های مناسب برای پردازش را می دهد. اما اغلب نمی‌توانید این داده‌ها را بدون پردازش آن‌ها دریافت و استفاده کنید. در این بخش چندین روش کلاسیک وجود خواهد داشت که به شما امکان می دهد از تصویر به ویژگی های اشیا یا خود اشیا بروید.

مرفولوژی

گذار از فیلترینگ به منطق، به نظر من، روش های ریخت شناسی ریاضی است ( , ). در واقع، اینها ساده ترین عملیات افزایش و فرسایش تصاویر باینری هستند. این روش ها به شما این امکان را می دهند که با افزایش یا کاهش عناصر موجود، نویز را از یک تصویر باینری حذف کنید. بر اساس مورفولوژی ریاضی، الگوریتم‌های کانتورینگ وجود دارد، اما معمولاً از نوعی الگوریتم یا الگوریتم ترکیبی به همراه یکدیگر استفاده می‌کنند.

تجزیه و تحلیل کانتور

در قسمت فیلترینگ قبلاً به الگوریتم هایی برای به دست آوردن مرزها اشاره شده است. مرزهای حاصل به سادگی به خطوط تبدیل می شوند. برای الگوریتم Canny این به طور خودکار اتفاق می افتد، برای الگوریتم های دیگر نیاز به باینری سازی اضافی است. برای مثال با الگوریتم سوسک می توانید یک کانتور برای یک الگوریتم باینری دریافت کنید.
کانتور یک ویژگی منحصر به فرد یک شی است. اغلب این به شما امکان می دهد شیء را در امتداد کانتور شناسایی کنید. یک دستگاه ریاضی قدرتمند وجود دارد که به شما این امکان را می دهد. به این دستگاه آنالیز کانتور ( , ) می گویند.

صادقانه بگویم، من هرگز نتوانسته ام آنالیز کانتور را در مسائل واقعی اعمال کنم. شرایط خیلی ایده آل مورد نیاز است. یا مرزی وجود ندارد یا نویز زیاد است. اما، اگر نیاز به تشخیص چیزی در شرایط ایده آل دارید، آنالیز کانتور یک گزینه عالی است. این کار بسیار سریع، ریاضیات زیبا و منطق قابل درک است.

نقاط مفرد

نقاط کلیدی ویژگی های منحصر به فرد یک شی هستند که به شی اجازه می دهد با خودش یا با کلاس های شی مشابه مرتبط شود. ده ها راه برای انتخاب چنین نقاطی وجود دارد. برخی از روش‌ها نقاط خاصی را در فریم‌های مجاور برجسته می‌کنند، برخی پس از مدت زمان طولانی و زمانی که نور تغییر می‌کند، برخی به شما امکان می‌دهند نقاط خاصی را پیدا کنید که حتی در زمان چرخش جسم باقی می‌مانند. بیایید با روش‌هایی شروع کنیم که به ما امکان می‌دهند نقاط خاصی را پیدا کنیم که چندان پایدار نیستند، اما به سرعت محاسبه می‌شوند و سپس به پیچیدگی فزاینده می‌رویم:
کلاس اول. نقاط منفرد که برای چند ثانیه پایدار هستند.چنین نقاطی برای هدایت یک شی بین فریم های ویدئویی مجاور یا همگرا کردن تصاویر دوربین های مجاور استفاده می شود. این نقاط شامل ماکزیمم های محلی تصویر، گوشه های تصویر (بهترین آشکارسازها، شاید آشکارساز هاریس)، نقاطی که در آن به حداکثر پراکندگی رسیده اند، گرادیان های معین و غیره می باشد.
درجه دوم. نقاط منفرد که هنگام تغییر نور و حرکات کوچک جسم ثابت هستند.چنین نقاطی در درجه اول برای آموزش و طبقه بندی بعدی انواع شی مورد استفاده قرار می گیرند. برای مثال، طبقه‌بندی‌کننده عابر پیاده یا طبقه‌بندی‌کننده چهره، محصول سیستمی است که بر روی چنین نقاطی ساخته شده است. برخی از موجک های ذکر شده قبلی ممکن است مبنای چنین نقاطی باشند. به عنوان مثال، Haar primitives، جستجوی خیره کننده، جستجوی سایر ویژگی های خاص. این نقاط شامل نقاطی هستند که با روش هیستوگرام گرادیان های جهت دار (HOG) پیدا می شوند.
کلاس سوم. نقاط پایدارمن فقط دو روش را می دانم که ثبات کامل را ایجاد می کند و در مورد تغییرات آنها. این و . آنها به شما امکان می دهند حتی زمانی که تصویر را می چرخانید، نکات کلیدی را پیدا کنید. محاسبه چنین نقاطی نسبت به سایر روش ها بیشتر طول می کشد، اما برای مدت زمانی نسبتاً محدود. متاسفانه این روش ها ثبت اختراع هستند. اگرچه در روسیه ثبت اختراع الگوریتم ها غیرممکن است، بنابراین از آن برای بازار داخلی استفاده کنید.

قسمت 3. آموزش

بخش سوم داستان به روش هایی اختصاص خواهد داشت که مستقیماً با تصویر کار نمی کنند، اما به شما امکان تصمیم گیری می دهند. اساساً اینها روشهای مختلفی برای یادگیری ماشین و تصمیم گیری هستند. اخیراً Yandyks در Habr در مورد این موضوع پست کرده است، انتخاب بسیار خوبی وجود دارد. اینجا در نسخه متنی است. برای مطالعه جدی موضوع، اکیداً توصیه می کنم که به آنها نگاه کنید. در اینجا سعی خواهم کرد چندین روش اساسی را که به طور خاص در تشخیص الگو مورد استفاده قرار می گیرند، شناسایی کنم.
در 80% مواقع، ماهیت یادگیری در مسئله تشخیص به شرح زیر است:
یک نمونه آزمایشی وجود دارد که در آن چندین کلاس از اشیاء وجود دارد. بگذارید حضور / عدم حضور یک شخص در عکس باشد. برای هر تصویر، مجموعه‌ای از ویژگی‌ها وجود دارد که توسط برخی ویژگی‌ها برجسته شده‌اند، خواه Haar، HOG، SURF یا برخی موجک‌ها. الگوریتم یادگیری باید چنین مدلی بسازد که بر اساس آن بتواند تصویر جدید را تجزیه و تحلیل کند و تصمیم بگیرد کدام یک از اشیاء در تصویر است.
چگونه انجام می شود؟ هر یک از تصاویر آزمایشی یک نقطه در فضای ویژگی است. مختصات آن وزن هر ویژگی در تصویر است. بگذارید علائم ما این باشد: «وجود چشم»، «وجود بینی»، «وجود دو دست»، «حضور گوش» و غیره. که بر روی اعضای بدن مشابه انسان آموزش دیده اند. برای فردی که در چنین فضایی قرار دارد، نقطه صحیح خواهد بود. برای میمون، برای اسب نقطه. طبقه بندی کننده بر روی نمونه ای از نمونه ها آموزش داده شده است. اما همه عکس‌ها دست‌ها را نشان نمی‌دادند، برخی دیگر چشم نداشتند و در عکس سوم، میمون به دلیل خطای طبقه‌بندی، بینی انسان داشت. طبقه‌بندی‌کننده انسانی آموزش‌پذیر به‌طور خودکار فضای ویژگی را به گونه‌ای تقسیم می‌کند که می‌گوید: اگر اولین ویژگی در محدوده 0.5 باشد. در اصل، هدف طبقه بندی کننده ترسیم مناطق مشخصه اشیاء طبقه بندی در فضای ویژگی است. به این صورت است که تقریب متوالی پاسخ برای یکی از طبقه بندی کننده ها (AdaBoost) در فضای دو بعدی به این صورت خواهد بود:

طبقه بندی کننده های زیادی وجود دارد. هر کدام از آنها در برخی از وظایف خود بهتر عمل می کنند. کار انتخاب یک طبقه بندی کننده برای یک کار خاص تا حد زیادی یک هنر است. در اینجا چند تصویر زیبا در مورد موضوع وجود دارد.

مورد ساده، جداسازی یک بعدی

بیایید یک مثال از ساده ترین حالت طبقه بندی را در نظر بگیریم، زمانی که فضای ویژگی یک بعدی است و باید 2 کلاس را از هم جدا کنیم. این وضعیت بیشتر از آنچه به نظر می رسد رخ می دهد: به عنوان مثال، زمانی که باید دو سیگنال را تشخیص دهید یا یک الگو را با یک نمونه مقایسه کنید. فرض کنید یک نمونه آموزشی داریم. در این حالت تصویری به دست می آید که در آن محور X معیار تشابه و محور Y تعداد رویدادهایی با چنین اندازه گیری خواهد بود. هنگامی که شی مورد نظر شبیه به خود باشد، یک گاوسی چپ به دست می آید. وقتی شبیه نیست - درست است. مقدار X=0.4 نمونه ها را جدا می کند به طوری که یک تصمیم اشتباه احتمال تصمیم گیری اشتباه را به حداقل می رساند. این جست و جو برای چنین جداکننده ای است که وظیفه طبقه بندی است.

یادداشت کوچک. معیاری که خطا را به حداقل می رساند همیشه بهینه نخواهد بود. نمودار زیر نموداری از یک سیستم تشخیص عنبیه واقعی است. برای چنین سیستمی، معیار به گونه ای انتخاب می شود که احتمال پذیرش کاذب یک فرد خارجی به شی را به حداقل برساند. چنین احتمالی "خطای نوع اول"، "احتمال هشدار نادرست"، "مثبت کاذب" نامیده می شود. در ادبیات انگلیسی "نرخ دسترسی نادرست".
) AdaBusta یکی از رایج ترین طبقه بندی کننده ها است. به عنوان مثال، آبشار هار بر روی آن ساخته شده است. معمولاً در مواقعی که نیاز به طبقه بندی باینری است استفاده می شود، اما هیچ چیز مانع از تدریس برای کلاس های بیشتر نمی شود.
SVM ( , , , ) یکی از قوی ترین طبقه بندی کننده ها با پیاده سازی های فراوان. در اصل، در مورد وظایف آموزشی که من با آن مواجه شدم، به طور مشابه با adabusta عمل کرد. بسیار سریع در نظر گرفته می شود، اما آموزش آن دشوارتر از Adabusta است و نیاز به انتخاب هسته صحیح دارد.

همچنین شبکه های عصبی و رگرسیون وجود دارد. اما برای طبقه بندی مختصر آنها و نشان دادن تفاوت آنها، مقاله ای بسیار بزرگتر از این مورد نیاز است.
________________________________________________
امیدوارم توانسته باشم یک مرور سریع از روش های مورد استفاده بدون فرو رفتن در ریاضیات و توضیحات ارائه دهم. شاید این به کسی کمک کند. اگرچه، البته، مقاله ناقص است و در مورد کار با تصاویر استریو، یا در مورد LSM با فیلتر کالمن، یا در مورد رویکرد تطبیقی بیزی صحبتی نشده است.
اگر مقاله را دوست دارید، سپس سعی می کنم قسمت دوم را با مجموعه ای از نمونه هایی از نحوه حل مشکلات موجود ImageRecognition تهیه کنم.

و در نهایت

چه بخوانیم؟
1) یک بار کتاب «پردازش تصویر دیجیتال» اثر بی یانا را خیلی دوست داشتم که ساده و واضح نوشته شده است اما در عین حال تقریباً تمام ریاضیات داده شده است. برای آشنایی با روش های موجود خوب است.
2) کلاسیک این ژانر R Gonzalez، R. Woods "Digital Image Processing" است. بنا به دلایلی برای من سخت تر از اولی بود. ریاضیات بسیار کمتر، اما روش ها و تصاویر بیشتر.
3) "پردازش و تجزیه و تحلیل تصویر در مشکلات بینایی ماشین" - نوشته شده بر اساس یک دوره تدریس شده در یکی از بخش های PhysTech. بسیاری از روش ها و شرح مفصل آنها. اما به نظر من، کتاب دو نقطه ضعف بزرگ دارد: کتاب به شدت بر بسته نرم افزاری ارائه شده متمرکز شده است، در کتاب اغلب توصیف یک روش ساده به جنگل ریاضی تبدیل می شود که بیرون کشیدن از آن دشوار است. نمودار ساختاری روش. اما نویسندگان یک سایت مناسب ساخته اند که تقریباً تمام محتوا در آن ارائه شده است - wiki.technicalvision.ru برچسب ها را اضافه کنید

تشخیص چهره: یک مشکل و یک راه حل

الکساندر مورگونوف

دانشجوی گروه "فناوری اطلاعات" دانشگاه فنی دولتی دان

روسیه، روستوف-آن-دون

دیانا منسوروا

پژوهشگر FGANU NII Specvuzavtomatika،

روسیه، روستوف-آن-دون

کی تیورین

پژوهشگر FGANU NII Specvuzavtomatika،

روسیه، روستوف-آن-دون

حاشیه نویسی

این مقاله نتایج یک تحلیل مقایسه ای روش ها و الگوریتم های موجود برای تشخیص چهره انسان را تشریح می کند.

خلاصه

در این مقاله مشکل تشخیص چهره انسان مورد بررسی قرار گرفت. روش ها و الگوریتم های مختلف تشخیص چهره توصیف و مقایسه شدند.

کلید واژه ها:تشخیص چهره، یادگیری ماشین، بینایی کامپیوتر، شبکه های عصبی.

تشخیص اشیاء برای انسان ها کار آسانی است، آزمایش های انجام شده در این کار نشان داده است که حتی کودکان یک تا سه روزه نیز قادر به تشخیص چهره های حفظ شده هستند. از آنجایی که یک فرد دنیا را به عنوان مجموعه ای از بخش های جداگانه نمی بیند، مغز ما باید به نحوی منابع مختلف اطلاعات را در الگوهای مفید ترکیب کند. وظیفه تشخیص خودکار چهره استخراج این ویژگی های معنادار از تصویر، تبدیل آنها به یک نمایش مفید و تولید نوعی طبقه بندی است.

فرآیند تشخیص چهره بر اساس ویژگی های هندسی چهره احتمالاً بصری ترین رویکرد برای مشکل تشخیص چهره است. آزمایش‌ها روی یک مجموعه داده بزرگ نشان داده‌اند که ویژگی‌های هندسی به تنهایی نمی‌توانند اطلاعات کافی برای تشخیص چهره ارائه دهند.

روشی که Eigenfaces نامیده می‌شود، که در توضیح داده شده است، رویکردی کل‌نگر را به مسئله تشخیص چهره هدایت می‌کند. تصویر چهره نقطه ای از یک فضای تصویر با ابعاد بالا است که نمایشی از فضای به اصطلاح کم بعدی به آن مرتبط است، جایی که طبقه بندی به یک کار ساده تبدیل می شود. زیرفضای کم بعدی با استفاده از تجزیه و تحلیل مؤلفه اصلی (PCA) یافت می شود، که محورها را با حداکثر واریانس شناسایی می کند. در حالی که این نوع تبدیل از نظر بازسازی بهینه است، برچسب های کلاس را در نظر نمی گیرد. اگر واریانس از یک منبع خارجی (مانند روشنایی) ایجاد شود، محورهای با بالاترین واریانس ممکن است حاوی اطلاعات متمایز نباشند، بنابراین طبقه بندی غیرممکن می شود. بنابراین، در کار برای مشکل تشخیص چهره، یک طرح ریزی کلاسی با تحلیل تشخیصی خطی اعمال شد. ایده اصلی به حداقل رساندن واریانس در یک کلاس و در عین حال به حداکثر رساندن واریانس بین کلاس ها بود.

چندی پیش، چندین روش برای استخراج ویژگی های محلی ترکیب شدند. به منظور جلوگیری از چند بعدی بودن داده های ورودی، فقط نواحی محلی تصویر توصیف می شوند. ویژگی های انتخاب شده در برابر همپوشانی جزئی، روشنایی و اندازه کوچک تصویر ورودی مقاومت بیشتری دارند. الگوریتم هایی که از استخراج ویژگی های محلی استفاده می کنند عبارتند از: موجک های گابور، تبدیل کسینوس گسسته و الگوهای باینری محلی. این سؤال که بهترین راه برای ذخیره اطلاعات مکانی هنگام استفاده از روش استخراج ویژگی محلی چیست، هنوز برای تحقیق باز است، زیرا اطلاعات مکانی به طور بالقوه برای حل مشکل تشخیص چهره مفید است.

روش Eigenfaces تشخیص چهره را در مراحل زیر انجام می دهد:

طرح ریزی تمام نمونه های آموزشی در زیرفضای تجزیه و تحلیل مؤلفه های اصلی.

طرح ریزی تصویر درخواستی در زیرفضای تحلیل مولفه اصلی.

یافتن نزدیکترین همسایگان بین تصاویر آموزشی پیش بینی شده و تصویر درخواستی پیش بینی شده.

شکل 1 نمونه ای از نحوه نمایش چهره ها توسط الگوریتم Eigenfaces را نشان می دهد. از طرح رنگ جت برای نشان دادن نحوه توزیع مقادیر خاکستری در چهره های خاص استفاده شد. این الگوریتم نه تنها ویژگی های چهره، بلکه نورپردازی تصویر را نیز رمزگذاری می کند.

شکل 1. نمایش چهره ها توسط الگوریتم Eigenfaces در طرح رنگ جت

این چهره ها از یک تقریب کم بعدی بازسازی شدند. شکل 2 بازسازی هایی را با تعداد اجزای مختلف از 10 تا 310 نشان می دهد.

شکل 2. بازسازی با تعداد اجزای مختلف توسط الگوریتم Eigenfaces

منبع: تشخیص چهره با OpenCV // اسناد OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial...

بدیهی است که 10 بردار ویژه عدد کمی برای بازسازی تصویر خوب است. 50 بردار ویژه می توانند در کدگذاری ویژگی های مهم صورت نقش داشته باشند. با تقریبی 300 بردار ویژه می توانید بازسازی خوبی داشته باشید. قوانینی برای انتخاب تعداد مورد نیاز بردارهای ویژه برای فرآیند تشخیص چهره موفق وجود دارد، با این حال، آنها به شدت به داده های ورودی وابسته هستند.

تجزیه و تحلیل مؤلفه اصلی (PCA)، که اساس الگوریتم Eigenfaces است، ترکیبات خطی از ویژگی‌ها را پیدا می‌کند که واریانس کل در داده‌ها را به حداکثر می‌رساند. در حالی که PCA روش خوبی برای نمایش داده ها است، کلاس ها را در نظر نمی گیرد و بسیاری از اطلاعات مفید را می توان در طول تبدیل از دست داد. اگر پراکندگی داده توسط یک منبع خارجی مانند نور ایجاد شود، اجزای شناسایی شده توسط PCA ممکن است حاوی اطلاعات واضح نباشند. در نتیجه، داده های پیش بینی شده مخلوط می شوند و طبقه بندی به یک کار غیرممکن تبدیل می شود.

تجزیه و تحلیل تفکیک خطی، که کاهش مقیاس داده های ورودی را بر اساس طبقه انجام می دهد، توسط آماردان رونالد فیشر پیشنهاد شد که با موفقیت از آن برای طبقه بندی رنگ ها استفاده کرد. این روش ترکیب‌های خطی ویژگی‌هایی را پیدا می‌کند که بهترین کلاس‌های ویژگی را به اشتراک می‌گذارند، و همچنین به جای حداکثر کردن نسبت کلی، نسبت بین پراکندگی کلاس‌های متفاوت و نزدیک به هم را به حداکثر می‌رساند. ایده ساده این است که کلاس‌های یکسان باید نزدیک به هم مرتبط باشند، در حالی که در همان زمان کلاس‌های مختلف باید تا حد امکان از هم دور باشند و داده‌های با ابعاد پایین را نشان دهند. رویکرد مشابهی نیز توسط بلهامر، هسپنا و کریگمن پیشنهاد شد، که تجزیه و تحلیل تمایز را برای مشکل تشخیص چهره در .

شکل 3 نمونه ای از عملکرد الگوریتم Fisherfaces را نشان می دهد که به اصطلاح چهره های فیشر را نشان می دهد. اندازه صورت هر ماهیگیر به اندازه تصویر اصلی است، بنابراین می توان آن را به عنوان یک تصویر نمایش داد.

شکل 3. نمونه ای از عملکرد الگوریتم Fisherfaces

منبع: تشخیص چهره با OpenCV // اسناد OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial...

الگوریتم Fisherfaces از یک ماتریس تبدیل مبتنی بر کلاس استفاده می کند، بنابراین مانند الگوریتم Eigenfaces، نور را در نظر نمی گیرد. در عوض، تجزیه و تحلیل تمایز، ویژگی های صورت را برای تمایز بین افراد پیدا می کند. توجه به این نکته ضروری است که عملکرد الگوریتم Fisherfaces نیز به شدت به داده های ورودی وابسته است. اگر الگوریتم Fisherfaces را روی تصاویری با نور قوی آموزش دهید و سپس سعی کنید چهره ها را در تصاویر کم نور تشخیص دهید، این روش به احتمال زیاد اجزای نادرستی را پیدا می کند زیرا ممکن است این ویژگی ها در تصاویر با نور ضعیف غالب نباشند. که بدیهی است، زیرا الگوریتم را نمی توان برای تشخیص نور آموزش داد.

الگوریتم Fisherfaces امکان بازسازی تصاویر پیش بینی شده را به همان روش Eigenfaces می دهد. اما با توجه به این واقعیت که الگوریتم تنها ویژگی های اصلی را شناسایی می کند که تشخیص اشیاء را ممکن می کند، نمی توان انتظار بازسازی خوبی از تصویر اصلی داشت. برای تجسم الگوریتم Fisherfaces، تصویر اصلی بر روی هر یک از چهره‌های فیشر نمایش داده می‌شود. شکل 4 تصویری از الگوریتم فیشر فیس را نشان می دهد که نشان می دهد هر یک از چهره های فیشر چه ویژگی هایی را توصیف می کند.

شکل 4. چهره های بازسازی شده فیشر

منبع: تشخیص چهره با OpenCV // اسناد OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial...

الگوریتم های Eigenfaces و Fisherfaces یک رویکرد جامع برای حل مشکل تشخیص چهره ارائه می دهند. داده ها را به صورت بردار در جایی در فضای تصویر چند بعدی نشان دهید. مشخص است که چند بعدی بودن یک ویژگی بد داده ها است، بنابراین یک زیرفضای کم بعدی تعریف می شود که احتمالاً اطلاعات مفید در آن ذخیره می شود. الگوریتم Eigenfaces پراکندگی کلی را به حداکثر می‌رساند، که وقتی واریانس از یک منبع خارجی ایجاد می‌شود، می‌تواند منجر به مشکل شود، زیرا مؤلفه‌هایی که بیشترین واریانس را در بین همه کلاس‌ها دارند، لزوماً برای طبقه‌بندی اشیا مفید نیستند. بنابراین، برای حفظ برخی اطلاعات متمایز، تحلیل تفکیک خطی با بهینه‌سازی توصیف‌شده در الگوریتم فیشرفیس اعمال می‌شود. الگوریتم Fisherfaces حداقل برای یک سناریوی محدود با همان سطح نور تصویر، عملکرد نسبتاً خوبی دارد.

اما در واقعیت، پارامترهای نور ایده آل در تصاویر را نمی توان تضمین کرد. همچنین، اگر تنها یک تصویر برای هر نفر وجود داشته باشد، محاسبه کوواریانس زیرفضا، و در نتیجه تشخیص، اساساً می تواند اشتباه باشد. برای پایگاه داده چهره باز AT&T، الگوریتم های Eigenfaces و Fisherfaces دارای نرخ تشخیص 96٪ هستند، اما این میزان به شدت (در میان چیزهای دیگر) به تعداد تصاویر آموزشی وابسته است. شکل 5 سطوح تشخیص الگوریتم های Eigenfaces و Fisherfaces را در پایگاه داده چهره باز AT&T نشان می دهد که تشخیص نسبتاً آسان است.

شکل 5. سطح تشخیص الگوریتم های Eigenfaces و Fisherfaces

منبع: تشخیص چهره با OpenCV // اسناد OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial...

از شکل می توان دریافت که حداقل 8 تصویر (+ - 1) برای هر نفر برای به دست آوردن نرخ تشخیص خوب مورد نیاز است و الگوریتم Fisherfaces در این مورد کمک چندانی نمی کند.

بنابراین، برخی از تحقیقات بر استخراج ویژگی های محلی از تصاویر متمرکز شده است. ایده این نیست که کل تصویر را به عنوان یک بردار چند بعدی نشان دهیم، بلکه فقط ویژگی های محلی شی را توصیف کنیم. ویژگی های استخراج شده به این روش نمایشی با ابعاد پایین دارند. با این حال، نمایش تصاویر ورودی نه تنها از روشنایی، بلکه از اندازه تصویر، جابجایی یا چرخش آن نیز رنج می برد. بنابراین، توصیف محلی باید برای این نوع تغییرات قوی باشد. روش شناسی الگوهای باینری محلی ریشه در تحلیل بافت دوبعدی دارد. ایده اصلی روش این است که ساختارهای محلی تصویر را با مقایسه هر پیکسل با همسایگانش جمع کنیم. یک پیکسل به عنوان مرکز گرفته می شود و مقادیر همسایگان آن تبدیل می شوند. اگر شدت پیکسل مجاور بزرگتر یا مساوی با شدت پیکسل مرکزی باشد، همسایه با 1 و در غیر این صورت 0 علامت گذاری می شود. پس از تبدیل، عدد باینری حاصل گرفته می شود (مثلاً 0010011). در نتیجه از 8 پیکسل مجاور، 28 ترکیب ممکن به دست می آید که به آنها الگوهای باینری محلی (کدهای LBP) می گویند. اولین عملگر LBP که در ادبیات توضیح داده شده است از یک پنجره 3×3 استفاده می کند، یک مثال در شکل 6 نشان داده شده است.

شکل 6. عملگر LBP

منبع: تشخیص چهره با OpenCV // اسناد OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial...

این روش به شما امکان می دهد تا جزئیات دقیق تصاویر را ثبت کنید. در واقع، نویسندگان می توانند با نتایج پیشرفته در طبقه بندی بافت رقابت کنند. به زودی متوجه شد که اندازه پنجره ثابت نمی تواند جزئیات اندازه های مختلف را رمزگذاری کند. بنابراین، اپراتور برای استفاده از اندازه پنجره متغیر در عملیات گسترش یافته است. ایده این است که تعداد دلخواه همسایه را در یک دایره با شعاع متغیر تراز کنیم، که امکان ثبت چنین الگوهای باینری محلی را همانطور که در شکل 7 نشان داده شده است، فراهم می کند.

شکل 7. الگوهای باینری محلی مختلف

منبع: تشخیص چهره با OpenCV // اسناد OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial...

چنین اپراتور توسعه کدهای LBP اصلی است، بنابراین گاهی اوقات LBP توسعه یافته نامیده می شود. اگر مختصات نقاط روی دایره با مختصات تصویر مطابقت نداشته باشد، نقطه درون یابی می شود. طبق تعریف، عملگر LBP در برابر تبدیلات یکنواخت در مقیاس خاکستری مقاوم است. این را می توان در شکل 8 مشاهده کرد که تصاویر LBP از تصاویر اصلی اصلاح شده مصنوعی را نشان می دهد.

شکل 8. انعطاف‌پذیری عملگر LBP در برابر تبدیل‌های یکنواخت در مقیاس خاکستری

منبع: تشخیص چهره با OpenCV // اسناد OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial...

تنها ترکیب اطلاعات مکانی در مدل تشخیص چهره باقی مانده است. رویکرد پیشنهاد شده در این کار، تقسیم تصویر LBP به m مناطق محلی و استخراج هیستوگرام از هر یک است. پس از آن، با الحاق هیستوگرام ها (و نه ترکیب) بردار فضایی منبسط شده به دست می آید. چنین هیستوگرام هایی را هیستوگرام های الگوی باینری محلی می نامند.

تا به امروز، روش‌ها و الگوریتم‌های مبتنی بر شبکه‌های عصبی مانند DeepFace و FaceNet بیش از همه پیش رفته‌اند. کار گروه هندسه تصویری و شبکه‌های عصبی کانولوشن روشن شده نیز کمک زیادی به حل مشکل تشخیص چهره داشتند. شبکه‌های عصبی از ترکیب‌های زیادی از ویژگی‌ها یا لایه‌ها تشکیل شده‌اند که به دنبال آن یک تابع از دست دادن مشخص می‌کند که شبکه عصبی تا چه اندازه داده‌ها را مدل‌سازی می‌کند، به عنوان مثال، با چه دقتی تصویر را طبقه‌بندی می‌کند. برای حل مشکل تشخیص چهره، یک سیستم با استفاده از یک شبکه عصبی باید با استفاده از یکی از روش های موجود، چهره ای را در یک تصویر پیدا کند. در مرحله بعد، سیستم داده های ورودی نرمال شده را برای شبکه عصبی از هر چهره یافت شده تولید می کند. چنین داده هایی بسیار چند بعدی هستند که نمی توان فوراً آنها را به طبقه بندی کننده داد. یک شبکه عصبی برای استخراج ویژگی های اصلی به منظور نمایش نمایشی با ابعاد کم از داده هایی که یک چهره را توصیف می کند، استفاده می شود. چنین نمایش کم بعدی داده ها می تواند به طور موثر در طبقه بندی کننده ها استفاده شود.

به عنوان مثال، الگوریتم DeepFace ابتدا از مدل‌سازی سه بعدی چهره برای عادی‌سازی تصویر ورودی استفاده می‌کند تا نمایشی از چهره به دست آورد، حتی اگر چهره در عکس در ابتدا از زاویه دیگری باشد. در مرحله بعد، الگوریتم طبقه بندی را به عنوان یک لایه شبکه عصبی با یک تابع Softmax تعریف می کند که امکان به دست آوردن یک توزیع احتمال نرمال شده در خروجی را فراهم می کند. نوآوری های الگوریتم DeepFace عبارتند از هم ترازی مدل سه بعدی، یک شبکه عصبی با 120 میلیون پارامتر و آموزش بر روی 4.4 میلیون تصویر از چهره. پس از اتمام آموزش شبکه عصبی بر روی چنین تعداد زیادی از چهره ها، لایه طبقه بندی نهایی حذف می شود و خروجی لایه قبلی به عنوان نمایشی با ابعاد کم از چهره استفاده می شود.

اغلب، برنامه‌های تشخیص چهره به دنبال نمایشی با ابعاد پایین هستند که به خوبی به چهره‌های جدیدی تعمیم می‌یابد که شبکه عصبی روی آن‌ها آموزش ندیده است. رویکرد الگوریتم DeepFace بر چنین مشکلی غلبه می‌کند، اما نمایش نتیجه آموزش شبکه برای طبقه‌بندی با دقت بالا است. نقطه ضعف این رویکرد این است که استفاده از نمایش حاصل دشوار است، زیرا چهره‌های یک نفر لزوماً خوشه‌بندی نمی‌شوند. بنابراین، الگوریتم های طبقه بندی سودی نخواهند داشت. تابع اتلاف سه گانه (triplet-loss) در الگوریتم FaceNet به طور مستقیم در نمای تعریف شده است. شکل 9 روش تمرین سه قلو باخت را نشان می دهد.