هر از چند گاهی شاهد دستاوردهای بزرگی از آزمایشگاه‌های گوگل هستیم. گوگل برخلاف بسیاری از شرکت‌ها که همه تلاش خود را معطوف به فروش و تولید محصولات جدید کرده‌اند، نوآوری‌های خلاقانه و کاربردی نظیر ماشین بدون راننده، عینک گوگل و حالا پروژه عظیم قدرت بینایی بخشیدن به ماشین را به پیش می‌برد. گوگل در تلاش است تا به کامپیوتر بیاموزد که چگونه چهره انسان را از دیگر موجودات زنده تشخیص دهد. این پروژه پیچیده به غول جستجوی جهان کمک می‌کند تا گام‌های بزرگی را در زمینه یادگیری ماشین بردارد و بدین ترتیب بینایی را به کامپیوترهای آینده هدیه کند.

مقاله تحقیقاتی گوگل قرار است برای کنفرانس International Machine Learning آماده شود. در این مقاله گوگل چگونگی تشخیص چهره انسان با 15.8 درصد صحت با استفاده از 1,000 کامپیوتر و 16,000 هسته پردازشی، شرح داده است.

هر چند صحت سیستم قابل ملاحظه و تأثیرگذار نیست ( قابلیت تشخیص 4 چهره از 25 چهره) اما این روش نسبت به گذشته 70 درصد پیشرفت و بهبود داشته است.

اگر هزاران عکس به این سیستم گوگل داده شود، ابتدا عکس‌های حاوی چهره‌ را از دیگر عکس‌ها جدا می‌کند سپس تشخیص می‌دهد که چهره‌های موجود متعلق به کدام دسته انسان یا حیوان هستند و سپس آن‌ها را دسته‌بندی می‌کند. البته اگر از سیستم‌‌های یادگیری رایج و عکس‌های برچسب‌دار استفاده شود، صحت سیستم بالا می‌رود ولی این مدل سیستم به یادگیری طولانی مدت و پرهزینه نیاز دارد. روش گوگل بر این اساس است که از داده‌‌های بدون برچسب استفاده کند و همچنین در کنار آن از روش‌ها متفاوت پردازشی به منظور یادگیری و آموزش سیستم بهره ببرد تا از این طریق زمان آموزش یک هفته‌ای سیستم را به سه روز تقلیل دهد.

گوگل در مقاله خود بدین صورت نوشته است که اگر ماشین‌ها این گوگل ادسنس نحوه آموزش و تشخیص را به خوبی یاد بگیرند بدین معنا است که آن‌ها در حقیقت مثل انسان‌ها فرایند یادگیری را طی کرده‌اند.

این مطالعه به بررسی امکان به‌کارگیری ویژگی‌های سطح بالا از داده‌های بدون پرچسب می‌پردازد. اگر این مطالعه با موفقیت‌های بیشتری همراه باشد، دو نتیجه مهم علمی را در برخواهد داشت. در زمینه‌های عملیاتی، نتایج مثبت این آزمایش می‌تواند منجر به توسعه ویژگی‌هایی بر روی داده‌های بدون برچسب شود که از نظر هزینه بسیار مقرون به صرفه خواهد بود. در حقیقت این پروژه نشان‌ می‌دهد که لااقل در اصل امکان پذیر است که یک کودک به دلیل مواجهه بصری و دیداری با تعداد زیادی چهره می‌تواند چهره‌ها را به گروه مشخصی نسبت دهد و آن‌ها را طبقه‌بندی کند بدون آنکه توسط راهنمایی در این زمینه آموزش ببیند یا هدایت شود.

تحقیق و پژوهش در اصل و ریشه زبان‌ها و اینکه چگونه انسان‌ها یاد می‌گیرند تا اشیاء مختلف را از هم تشخیص داده و آن‌ها را در ذهن دسته‌بندی کنند، هنوز ادامه دارد و نتایج راهی که گوگل در آن پای نهاده است می‌تواند به بسیاری از دانشمندان و محققان انسان‌شناسی در پیدا کردن جواب‌های خود کمک شایانی کند. و از بعد عملی نیز استفاده از تجهیزات زیاد کامپیوتری برای اعطای بینایی به ماشین‌ها می‌تواند دروازه بزرگی به سوی تکنیک‌های آموزش آینده باشد.

کامپیوترهایی که می‌بینند، کامپیوترهایی که یاد می‌گیرند

محصولات پیشرفته جهان امروز مثل کینکت مایکروسافت یا عینک گوگل، گجت‌هایی هستند که دنیای کامپیوتر را با دنیای پیچیده بشر در هم آمیخته‌اند. هم اکنون بسیار محتمل است که به ماشین‌ها بیاموزیم تا حرکات متفاوت را بر اساس برنامه‌ای که برای آنها نوشته شده است شناسایی کنند و حتی عکس‌العمل‌های برنامه‌ریزی شده‌ای را از خود نشان دهند. هر چند که تعدادی از محصولات لمسی قادرند به کمک دوربین خود اعمال و حرکات متفاوت را از هم تمیز دهند ولی اینکه کامپیوتری بخواهد به معنای واقعی ببیند امر بسیار پیچیده‌ای است.

انسان زمانی که می‌بیند هم از چشم خود استفاده می‌کند و هم از مغزش. چشمان ما همانند سنسورهایی می‌باشند که اطلاعات روشنایی، تاریکی و رنگ‌ها را برای تفسیر در اختیار مغز قرار می‌دهند.

کامپیوتر از دوربین و انواع و اقسام سنسورها که همانند چشم عمل می‌کنند بهره می‌برد. برای آموزش یک کامپیوتر برای دیدن، برنامه‌نویسان باید ماشین را آموزش دهند و به او بیاموزند که در مواقع مختلف و در هنگام مواجهه با سناریوهای گوناگون چگونه عمل کند. گوگل در حقیقت به دنبال راهی است تا از طریق به کارگیری تعداد زیادی ماشین محاسباتی و کم کردن ویژگی‌های مربوط به عکس‌هایی که باید به ماشین نشان داد، زمان مورد نیاز برای آموزش را کاهش دهد. بنابراین کامپیوتر اگر تعداد مناسبی از عکس‌ها را ببیند و قدرت پردازشی کافی را در این زمینه داشته باشد می‌تواند اهداف گوگل را محقق کند.

محققان گوگل می‌گویند که شبکه کامپیوتری و عصبی آن‌ها یکی از بزرگترین شبکه‌کامپیوتری تحقیقاتی دنیا است. شبکه گوگل بالغ بر یک میلیارد پارامتر برای آموزش دارد که از دیگر شبکه‌ها چندی برابر بزرگ‌تر است. با این حال شبکه گوگل نسبت به قشر بینایی مغز انسان از نظر تعداد نورون‌ها و سیناپس‌ها میلیون‌ها برابر کوچک‌تر است.

آموزش کامپیوتر برای دیدن، یک دستاورد فوق العاده عظیم است. تصور کنید که گوشی هوشمند شما بتواند اشیا را ببیند و سپس آن‌ها را دسته‌بندی کند! اگر گوشی شما به گنجینه غنی از اطلاعات هم دسترسی داشته باشد می‌تواند برای هر دسته مثل، ساختمان، اثر هنری و حتی یک غذا، اطلاعات زیادی را در اختیار شما قرار دهد. هم اکنون مجبوریم داده‌های اولیه را بعضا با صفحه کلید کوچک گوشی هوشمند خود وارد کنیم تا به اطلاعات جانبی دست پیدا کنیم یا اینکه عکس گرفته و آن را در اختیار دیتابیس خام و غیر قابل اطمینان تشخیص تصاویر قرار دهیم مانند آنچه Google Goggles انجام می‌دهد.

البته نگرانی‌های جدی هم در مورد حریم خصوصی افراد و اینکه دولت‌ها بخواهند در پشت این ابزارهای محاسباتی به نظارت خود بپردازند هم وجود دارد.

بی‌شک در سال‌های آینده صحت سیستم گوگل به مراتب بالاتر خواهد رفت و بدین ترتیب باید شاهد آن باشیم که ماشین‌ها هر چه بیشتر و بیشتر به ما انسان‌ها نزدیک شده و بدین ترتیب هوش مصنوعی در اداره جهان نقش انکارناپذیری خواهد داشت.

منبع