وب عمیق (Deep Web) چیست!

وب عمیق (همچنین شناخته شده با نامهای دیگر Deepnet، وب نامریی (Invisible Web) یا وب پنهان (Hidden Web)) بخشی از محتوای وب است که بوسیلهء موتورهای جستجوی استاندارد ایندکس نشده است. Mike Bergman، بنیانگذار BrightPlanet و کسی که اعتبار ابداع این اصطلاح به او داده میشود، گفته است که جستجو کردن در اینترنت امروز میتواند با کشیدن یک تور در سراسر سطح اقیانوس مقایسه شود: چیزهای زیادی ممکن است به تور بیفتد، اما مقدار زیادی از اطلاعات وجود دارد که عمیق است و بنابراین به چنگ نمی آید. بیشتر اطلاعات وب در عمق سایتها مدفون است و موتورهای جستجوی استاندارد نمیتوانند آن را بیابند. بخشی از وب که با موتورهای جستجوی استاندارد ایندکس شده است بعنوان وب سطحی (Surface Web) شناخته میشود.

در سال 2001، وب عمیق چند ده برابر بزرگتر از وب سطحی بوده است.
باید توجه شود که وب عمیق چیزی جدای از اینترنت تاریک (dark Internet)، که از رایانه هایی ساخته شده است که دیگر نمیتوانند از طریق اینترنت مورد دستیابی قرار گیرند، میباشد. همچنین، وب تاریک (Dark Web) که از شبکه های گمنام سازی مانند Tor و منابعی که آنها دسترسی بدانها را فراهم میکنند، با وب عمیق مترادف نیست، اما بعنوان یک بخش از آن تلقی میشود.
تخمین ها بر اساس حدس هایی بر اساس یک تحقیق انجام شده در دانشگاه کالیفرنیا برکلی در سال 2001 میگویند که وب عمیق از حدود 7.5 (هفت و نیم) پتابایت تشکیل شده است. تخمین های دقیق تر برای بعضی منابع در وب عمیق در دسترس هستند: تحقیق He و غیره مشخص کرد که حدود 300 هزار وب سایت در وب عمیق در سال 2004 وجود دارند.

متدهایی که صفحات وب را از ایندکس شدن توسط موتورهای جستجوی باز میدارند از این جمله هستند:
- محتوای دینامیک (Dynamic content): صفحات دینامیک که در پاسخ به یک کوئری ارسال شده یا مورد دسترسی فقط از طریق یک فرم هستند، بخصوص اگر فیلدهای ورودی با دامنهء باز (همچون فیلدهای متنی) استفاده شوند.
- محتوای لینک نشده (Unlinked content): صفحاتی که در صفحات دیگر لینکی ندارند. به این محتوا بعنوان صفحات بدون لینک ورودی/برگشتی (inlink یا backlink) اشاره میشود. همچنین موتورهای جستجو همیشه نمیتوانند تمام لینک های برگشتی را در صفحات جستجو شده کشف کنند.
- وب محرمانه (Private Web): سایتهایی که به ثبت نام و لاگین نیاز دارند (منابع محافظت شده با پسورد).
- وب زمینه ای (Contextual Web): صفحاتی که محتوای آنها بر اساس زمینه های دسترسی مختلف تفاوت میکند (بطور مثال بر اساس محدوده IP کلاینت ها یا توالی پیمایش قبلی).
- محتوا با دسترسی محدود شده (Limited access content): سایتهایی که دسترسی به صفحات خود را با یک روش فنی (مثلا با استفاده از استاندارد مستثنی سازی روبات ها (Robots Exclusion Standard) یا کپچا (CAPTCHA) یا دستور no-store که موتورهای جستجو را از مرور و ایجاد کپی های کش شده منع میکند) محدود کرده اند.
- محتوای اسکریپتی (Scripted content): صفحاتی که تنها توسط لینک هایی که توسط جاوااسکریپت تولید میشوند قابل دسترسی هستند و همچنین محتوایی که بصورت دینامیک توسط Flash یا AJAX از سرورهای وب دانلود میشود.
- محتوای غیرمتن و غیر HTML: محتوای متنی که در فایلهای مالتی مدیا (تصویر یا ویدئو) یا فرمتهای بخصوصی که بوسیلهء موتورهای جستجو پردازش نمیشوند Encode شده است.
- نرم افزار: محتوای معینی که عمدا از اینترنت عادی پنهان شده است و فقط توسط نرم افزار مخصوص، همچون Tor، قابل دسترسی است. Tor به کاربران اجازه میدهد به وب سایتها با پسوند هاست onion بصورت گمنام دسترسی پیدا کنند و IP آنها را پنهان میکند. نرم افزارهای دیگری همچون آن شامل I2P و برنامهء Darknet میباشد.

معدود موتورهای جستجویی وجود دارند که سعی کرده اند به وب عمیق دسترسی پیدا کنند.
محققان در حال تحقیق بر روی روشهای پیمایش وب عمیق بصورت خودکار بوده اند، شامل محتوایی که فقط میتواند با نرم افزار مخصوص مانند Tor مورد دسترسی قرار گیرد. (م: پروژه ها و نتایج قابل توجهی در این زمینه وجود دارند که از شرح و تفصیل آنها در این مقاله بعلت طولانی نشدن با مطالب فرعی و کم اهمیت تر اجتناب میورزم).
موتورهای جستجوی تجاری شروع به بررسی روشهای آلترناتیوی برای پیمایش وب عمیق نموده اند. پروتکل Sitemap Protocol (معرفی شده بوسیلهء گوگل در 2005) و mod oai مکانیزم هایی هستند که به موتورهای جستجو اجازه میدهند تا منابع وب عمیق را در روی وب سایتهای خاص کشف کنند. هر دوی این مکانیزم ها به وب سرورها اجازه میدهند تا URL هایی را که در روی آنها قابل دسترسی هستند اعلام کنند و بدان وسیله کشف خودکار منابعی که بصورت مستقیم به سطح وب لینک نشده اند ممکن میگردد. سیستم سطحی کردن وب عمیق گوگل، ارسال ها را برای هر فرم HTML پیش پردازش کرده و صفحات HTML نتیجه را به ایندکس موتور جستجوی گوگل اضافه میکند. نتایج به سطح آمده عامل یک هزار کوئری بر ثانیه به محتوای وب عمیق هستند. در این سیستم محاسبه پیشاپیش ارسال فرم توسط سه الگوریتم انجام میشود:
1- انتخاب مقادیر ورودی برای ورودیهای جستجوی متنی که کلمات کلیدی قبول میکنند.
2- شناسایی ورودیهایی که فقط مقادیر از نوعی خاص (مثلا تاریخ) را میپذیرند.
3- انتخاب یک تعداد کم از ترکیبات ورودی که URL هایی مناسب برای اضافه شدن به ایندکس جستجوی وب تولید میکنند.

منبع: بخشهایی از https://en.wikipedia.org/wiki/Deep_Web

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

شما می‌توانید از این دستورات HTML استفاده کنید: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>