:: مسابقه سودوکو : جهت کسب اطلاعات بیشتر
اینجا کلیک کنید.
:: آموزشگاه CEH :: آموزش و پیشرفت گروهی مدرک CEH (هک قانونمند) . برای شرکت در این طرح اینجا کلیک کنید.
در صورتی که در این موضوع پست جدیدی ارسال شود پس از 5 ثانیه به صورت خودکار آپدیت می شود و نیاز به رفرش نیستAutomatic thread refreshing has been stopped because you appear to be idle. Un-Idle
- بازنگری
چندی پیش با دیدن یه سوال از کاربران انجمن که پرسیده بودن: "اسپایدر که در کاربران انجمن نوشته یعنی چی؟" به این فکر افتادم که یه دوره آموزشی برای آشنایی کاربران لیان پرتال با موتورهای جستجو و فنون استفاده بهینه از وب رو بزارم.
مطالب این دوره آموزشی رو سعی میکنم در فصل بندی زیر ارائه کنم:
فصل اول: راه های دست یابی شما به سایت های مورد نظرتان
فصل دوم: معرفی دایرکتوری ها
فصل سوم: آشنای با موتور های جستجو
فصل چهارم: معرفی ساختار موتورهای جستجو
فصل پنجم: معرفی ابرموتورهای جستجو
فصل ششم: راهکارهای جستجوی پیشرفته در وب
فصل هفتم: جستجوی علمی در وب
فصل هشتم: راهکارهای بهینه سازی رتبه سایت در موتورهای جستجو ( تکنیک های سئو)
سعی کردم فصل بندی رو طوری طراحی کنم که مطالب از سطح مقدماتی تا سطح پیشرفته باشند. دوستان توجه داشته باشند که فصل ها تقریباً شامل مطالب دنباله دار هستند، در نتیجه، خواندن فقط قسمتی از اونها توصیه نمیشه، مگر اینکه فقط در قسمت خاصی از فصل ها مشکل داشته باشید!!! سعی کنید مطالب رو پشت سر هم دنبال کنید.
از اونجایی که سرم یه خورده شلوغه امکان داره دیر به دیر آپدیت کنم، پیشاپیش از این بابت عذر می خوام.
نکته: در مورد بعضی اصطلاحات سعی شده تا معادل فارسی رو بر معادل پینگلیش ترجیح بدم. اگه در جایی از مطالب نارسایی مفهومی احساس کردید بهم بگید تا براتون تشریح کنم.
با تشکر
ویرایش توسط Mansourzadeh : 10-17-2011 در ساعت 11:07 PM
فصل اول: راه های دستیابی شما به سایت های مورد نظرتان
برای دستیابی به یک سایت خاص، انتخاب های زیادی در پیش رو دارید. ساده ترین حالت زمانیست که شما آدرس سایت مورد نظر خود را می دانید، ولی همیشه اوضاع به همین خوبی پیش نمی رود و شما هیچ چیز در مورد آن مطلبی که نیاز دارید نمی دانید!
حالت اول: شما آدرس سایت مورد نظر خودتون رو می دونید!
در این حالت فقط کافیه آدرس سایت رو در نوار آدرس (1) مرورگرتون وارد کنید و اینتر رو بزنید. به همین راحتی شما به سایت مورد نظرتون وارد می شید!!!
حالت دوم: شما آدرس سایت و یا منبع مورد نظر خودتون رو نمی دونید!
در این حالت شما باید بسته به هدفی که دارید از یکی از ابزار های زیر جهت دستیابی به منبع مورد نظرتون اقدام کنید:
دایرکتوری ها(2): دایرکتوری ها (یا راهنماها) سایت هایی هستند که با کمک نیروی انسانی دست به منظم کردن وب میزنند. در این سایت ها شما می توانید مرتبط ترین صفحات وب را در ساختاری سلسله مراتبی در این وبسایت یکجا ببینید و به راحتی با کلیک بر روی لینک های مورد نیاز خود به منبعی کاملا معتبر که توسط انسان شناسایی و اعتبارسنجی شده دست یابید. معمولا در زبان فارسی این گروه از سایت ها به "لینکدونی" و یا "لینکستان" هم مشهور هستند.
موتورهای جستجو(3): موتورهای جستجو سایت هایی هستند که در آنها نمایه سازی و اعتبار سنجی صفحات وب از طریق روبات ها انجام می پذیرد. در هنگام استفاده از این سایت ها فقط کافیست تا موضوع مورد نظر خود را در باکس جستجوی (4) سایت وارد کنید تا این مرتبط ترین صفحات موجود در نمایه ی (5) این موتورهای جستجو برای شما به نمایش گذاشته شوند.
موتورهای جستجوی تخصصی: عملکردی مشابه موتورهای جستجوی عمومی دارند با این تفاوت که در جستجوهای علمی نتایج بازیابی شده ی بهتری را ارائه می کنند.
ابر موتورهای جستجو(6): این قسم از سایت ها خود دارای نمایه ی جامعی از وب نیستند بلکه از نمایه ی موتورهای جستجوی عمومی استفاده می کنند. مهمترین مزیت این سایت ها، امکان جستجوی همزمان در چندین موتور جستجو، و ارائه ی نتایج بصورت درهمکرد است.
جستجو در پایگاه های اطلاعاتی(7): پایگاه های اطلاعاتی که در سطح وب وجود دارند معمولا شامل مجموعه ای از اطلاعات (مقاله، فیلم، عکس و ...) که بصورت تخصصی و با ساختاری نظام مند در یک سایت گردآمده اند. این گونه سایت ها مانند ابزارهای فوق شما را به دیگر سایت ها هدایت نمی کنند، بلکه شما می توانید جواب سوال خود را درون پایگاه اطلاعاتی خود سایت بیابید.
پ. ن.
1- Address bar
2- Directory
3- Search Engine
4- Search box
5- Index
6- Meta Search Engines
7- Databases
با اندکی جستجو در وب میتوانید به سایت هایی دسترسی پیدا کنید که تنها فعالیتشان منظم کردن وب در دسته بندی های موضوعیست. در دایرکتوری ها (راهنماهای موضوعی)، صفحات وب توسط انسان بررسی، و ارزشیابی می شوند و در یک نظم غالبا سلسله مراتبی در موضوع مربوطه خود جای میگیرند. شما برای دستیابی به سایتی با موضوع خاص در دایرکتوری ها می توانید از دو طریق اقدام کنید:
استفاده از سلسله مراتب موضوعی و مرور لیست ها در هر موضوع
استفاده از باکس جستجو که پیوندهای موجود در دایرکتوری را برای شما بازیابی می کند
مهمترین مزیت های دایرکتوری ها
ارائه وب بصورت نظام مند
منابع بازیابی شده در دایرکتوری ها غالبا معتبر و با کیفیت هستند، زیرا توسط انسان کیفیت سنجی و نمایه سازی می شوند.
ساختار سلسله مراتبی که امکان پیمایش آسان در میان لیست پیوندها را به شما می دهد.
امکان جستجوی موضوعی در دایرکتوری
معایب دایرکتوری ها
حجم کم بانک اطلاعاتی آنها که ناشی از کند بودن فرآیند ارزشیابی وب سایت ها توسط متخصصین دایرکتوری ها می باشد
سرعت کم دایرکتوری ها در بروز رسانی وب سایت های تحت پوشش. این امر موجب می شود که بعضا شاهد پیوند های اشتباه و یا منقضی در دایرکتوری ها یافت شود
مشاهده می کنید که حضور انسان در این سایت ها هم مزیت ها و هم معایبی را به همراه داشته است. این امر در موتور های جستجو (رجوع شود به فصل سوم) که به جای انسان از روبات استفاده می کنند به شکلی بلعکس نمود یافته است.
آشنایی با برخی دایرکتوری های موجود در وب
دایرکتوری های انگلیسی
دایرکتوری سایت یاهو
[تنها کاربران قادر به مشاهده لینک ها هستند]
اغلب افراد سایت یاهو را به عنوان یک موتور جستجو میشناسند، ولی باید بدانید که یاهو فعالیت خود را با لیست کردن وبسایت ها آغاز کرد. در این دایرکتوری تمام علوم بشر تحت 15 موضوع کلی مانند: هنر، اقتصاد، کامپیوتر، آموزش، سرگرمی، بهداشت و سلامت و... تقسیم بندی شده است که هر موضوع نیز دارای زیرشاخه های متعدد می باشد.هم اکنون دایرکتوری سایت یاهو از طریق پیوند فوق در دسترس می باشد.
پروژه دایرکتوری باز
[تنها کاربران قادر به مشاهده لینک ها هستند]
این دایرکتوری که از زیرمجموعه های سایت [تنها کاربران قادر به مشاهده لینک ها هستند]می باشد نیز یکی از بزگترین راهنماهای موضوعی وب است. شما می توانید با ثبت نام در این سایت به ویرایشگر تبدیل شوید و در امر ارزشیابی وبسایت ها با این پروژه همکاری کنید. در این دایرکتوری وبسایت ها تحت 16 رده ی کلی تقسیم بندی می شوند.
دایرکتوری های فارسی زبان
متاسفانه در زبان فارسی دایرکتوری های قوی زیادی وجود ندارد ولی با این وجود از چند وبسایت مهم در این زمینه نام می بریم.
· [تنها کاربران قادر به مشاهده لینک ها هستند]
· [تنها کاربران قادر به مشاهده لینک ها هستند]
· [تنها کاربران قادر به مشاهده لینک ها هستند]
· [تنها کاربران قادر به مشاهده لینک ها هستند] [تنها کاربران قادر به مشاهده لینک ها هستند]
· [تنها کاربران قادر به مشاهده لینک ها هستند]
نکته برای صاحبان وبسایت ها: برای افزایش رتبه سایت و افزایش بازدید سایت خود می توانید سایت یا وبلاگ خود را در دایرکتوری ها ثبت کنید. نکته اصلی در ثبت اطلاعات این است که دقت داشته باشید شاخه فعالیت سایت خود را درست انتخاب کنید. پس از ثبت سایت خود در شاخه مربوطه، مسئولین دایرکتوری آن را بازبینی و در صورت تائید وارد دایرکتوری می کنند.
برای جستجوی اطلاعات در اینترنت ابزاری به نام "موتورهای جستجو" وجود دارد. موتورهای جستجو نرم افزار های کاربردی محیط وب هستند که برای جستجوی انواع منابع اطلاعاتی موجود در اینترنت طراحی شده اند.
موتورهای جستجوی خزنده محور مانند گوگل نمایه سازی خود را به صورت خودکار انجام میدهند. این موتورها مانند عنکبوت در میان صفحات وب میخزند و کاربران جستجویشان را از میان یافته های آنها می یابند. هنگامی که صفحه ای جدید ایجاد میشود و یا تغییری در صفحات قدیمی رخ می دهد موتورهای جستجو به تدریج این تغییرات را می یابند و باعث تغییر در رتبه نمایش صفحات میشوند. (نحوه نمایه سازی و معماری موتورهای جستجو در "فصل چهارم: معرفی ساختار موتورهای جستجو" و عوامل موثر بر رتبه سایت در "فصل هفتم: راهکارهای بهینه سازی رتبه سایت در موتورهای جستجو ( تکنیک های سئو)" به تفصیل مورد بحث قرار خواهد گرفت)
تعداد زیادی موتور جستجو در محیط وب وجود دارند که غالبا موتورهای جستجوی تخصصی هستند و دامنه ی جستجوی خود را به حدود موضوعی خاصی(مثلا پزشکی، حقوق، فیزیک و ...) محدود کرده اند. اما اغلب افراد مبتدی علاقه چندانی به استفاده از موتورهای موضوعی خاص ندارند، آنها ترجیح میدهند که تمام سوالات خود را فقط از یک موتور جستجو بپرسند. اینجاست که اهمیت موتورهای جستجوی عمومی مشخص می شود. موتورهای جستجوی عمومی محدودیتی در نمایه سازی خود ندارند و تمام وب را در اختیار شما قرار میدهند.
در زیر به معرفی چند موتور جستجوی برتر در سطح وب می پردازیم:
Google
به جرئت می توان گفت که موتور جستجوی گوگل شناخته شده ترین موتور جستجو در ایران است. این محبوبیت غالبا به خاطر سرعت بالا در لود شدن، پاسخ های مرتبط، و قابلیت جستجو های تخصصی در تصاویر، نقشه ها، اخبار، ویدئوها و ... است. جالب است بدانید که فهرست موتور جستجوی گوگل بزرگترین نمایه صفحات وب می باشد و از این بابت دارای نمایه ی غنی تری از صفحات وب نسبت به دیگر رقبای خود می باشد.
[تنها کاربران قادر به مشاهده لینک ها هستند]
Yahoo!
محبوبیت یاهو در ایران به خاطر پست الکترونیک و چت روم آن است ولی در کنار این خدمات، موتور جستجوی قدرتمند یاهو و همچنین یاهو دایرکتوری از جمله ابزارهای مفید این سایت هستند که به کاربران در یافتن اطلاعات کمک زیادی می کنند. وجود خدمات دیگری از جمله راهنمای سفر، اخبار، و ... باعث محبوبیت این سایت در بین کاربران مبتدی است.
[تنها کاربران قادر به مشاهده لینک ها هستند]
Bing
این موتور جستجو که محصول جدیدی از مایکروسافت برای رقابت با گوگل است از سال 2009 با اقتدار وارد دنیای موتورهای جستجو شد. البته این موتور جستجو پیش از این تاریخ با نام MSN مشغول به فعالیت بود ولی قابلیت رقابت با غول هایی مثل گوگل و یاهو را نداشت. از جمله مزایای استفاده از بینگ میتوان به نمایش پیشنهاد ویکی ها، جستجوهای مرتبط، جستجوی دیداری در لیست نتایج نام برد.
[تنها کاربران قادر به مشاهده لینک ها هستند]
Duck Duck Go
این موتور جستجوی بسیار قدرتمند که متاسفانه در ایران شناخته شده نیست یکی از بهترین موتورهای جستجو در سطح وب است. از مهم ترین مزیت های این موتور جستجو می توان به نمایش لیست نتایج در نظمی بی نظیر اشاره کرد. برای مثال به نتایج جستجوی کلمه [تنها کاربران قادر به مشاهده لینک ها هستند] در این موتور جستجو نگاه کنید.
[تنها کاربران قادر به مشاهده لینک ها هستند]
نکته: تعداد موتورهای جستجوی عمومی در سطح وب بسیار زیاد است، ولی به دلیل محدودیت زمان، فقط به برخی از مهمترین آنها در فوق اشاره شد.
موتورهای جستجوی خزنده محور مانند گوگل نمایه سازی خود را به صورت خودکار انجام میدهند. این موتورها مانند عنکبوت در میان صفحات وب میخزند و کاربران جستجویشان را از میان یافتههای آنها مییابند. هنگامی که صفحهای جدید ایجاد میشود و یا تغییری در صفحات قدیمی رخ میدهد موتورهای جستجو به تدریج این تغییرات را مییابند و باعث تغییر در رتبه نمایش صفحات میشوند. سه بخش مهم در موتورهای جستجو عبارتند از:
1- عنکبوت: عنکبوت که به آن خزنده نیز میگویند بخشی از موتور جستجو است که از صفحات وب بازدید میکند، آنها را بررسی میکند و سپس پیوند های آن صفحه را تعقیب میکند. در نتیجه به واسطه همین تعقیب پیوندها، صفحات وب توسط موتور های جستجو شناسایی میشوند. از طرفی صفحاتی که هیچ پیوند ورودی نداشته باشند توسط موتور های جستجو شناسایی نمیشوند و بخشی از وب نامرئی[تنها کاربران قادر به مشاهده لینک ها هستند] به نام وب مات[تنها کاربران قادر به مشاهده لینک ها هستند] را تشکیل میدهند. 2- نمایه ساز: نمایه مانند کتاب بزرگی است که کپی کاملی از تمام صفحاتی که توسط عنکبوت یافت میشود در آن ذخیره میشود. در فرایند نمایه سازی، برخی موتورهای جستجو نظام نمایه سازی تمام متن دارند و هر واژه موجود در متن به جز واژه های فاقد بار اطلاعاتی مانند حروف تعریف، ربط، و اضافه را نمایه می کنند. برخی دیگر بخشی از منبع یا مدرک را نمایه می کنند. بعضی از موتور های جستجو، سر عنوان ها، عناوین فرعی، فراپیوندها به سایت های دیگر را به همراه 20 خط ابتدایی متن و 100 کلمه ای که از بسامد بالایی برخوردار است، نمایه می کنند. در نتیجه قابلیت های هر موتور جستجو بسته به نوع نمایه سازی آن موتور جستجو متفاوت است. 3- نرم افزار جستجو: نرم افزار جستجو برنامهای است که در خواست یک جستجو را پردازش میکند تا یک جستجو از میان دادههای ذخیره شده (در نمایه) بازیابی شود و اطلاعات یافته شده را گزارش نماید.
برای شناخت بهتر معماری موتورهای جستجو، ساختار و عملکرد موتور جستجوی گوگل به عنوان نمونه در قالب تصویر زیر شرح داده می شود:
موتور گوگل دارای چندین روبات خزنده است. ابتدا روبات های آدرس یاب فهرست آدرس ها (URL) را برای مرور در اختیار روبات خزنده[تنها کاربران قادر به مشاهده لینک ها هستند] (اسپایدر) قرار می دهند. صفحاتی که توسط روبات خزنده بازیابی می شوند در یک مخزن قرار می گیرند. سپس اطلاعات فشرده سازی شده و در مخزن دیگری قرار می گیرند، در هنگام بازیابی به هر صفحه یک شماره شناسایی یا شناسه مدرک[تنها کاربران قادر به مشاهده لینک ها هستند] اختصاص می یابد. سپس نمایه ساز و رج ساز اقدام به نمایه سازی و مرتب سازی می کنند. نمایه ساز اقدام به خواندن مخزن نموده و ضمن باز کردن و بسط دادن مدارک فشرده شده قبلی، اطلاعات موجود در این مدارک را استخراج می کنند. پس از آن بسامد واژگانی هر مدرک و سایر اطلاعات موجود در مورد مدرک (HITs) استخراج می گردد. نمایه ساز، این یافته ها (HITs) را در مخازن جداگانه دیگری تحت عنوان Barrels جای می دهد که پیش نمایه رج بندی شده نام دارد. کار مهم دیگر این نمایه ساز این است که تمام پیوند های موپود در هر صفحه را استخراج و اطلاعات مهم مربوط به این پیوند ها را در فایلی به اسم ثبّات[تنها کاربران قادر به مشاهده لینک ها هستند] قرار می دهد.
این فایل محتوی اطلاعات کافی برای تعیین موارد زیر است:
1- متن نوشتاری پیوند
2- صفحه ای که پیوند ها به آن ارجاع داده شده است
3- صفحه ای که به این پیوند ها استناد کرده است.
آدرس خوان[تنها کاربران قادر به مشاهده لینک ها هستند]، فایل ثبّات را می خواند و آدرس های جداگانه را تعیین و شناسه مدرک هر آدرس را نیز مشخس می کند و متن پیوند ها و شناسه مدرک را به پیش نمایه منتقل می کند. این فایل ها برا محاسبه رتبه صفحه[تنها کاربران قادر به مشاهده لینک ها هستند] مورد استفاده قرار می گیرد. سپس رج ساز مخزن های جداگانه را که بر حسب شناسه مدرک مرتب سازی شده اند را مرور و مجددا آن را بر اساس حروف شناسه ها مرتب می کنند تا نمایه مقلوب[تنها کاربران قادر به مشاهده لینک ها هستند] ایجاد گردد. در مرحله بعدی، برنامه ای به نام Dumplexicon با ادغام سیاهه نمایه مقلوب و واژه نامه ایجاد شده توسط نمایه ساز واژه نامه ای جدید ایجاد می کند تا مورد استفاده جستجوگر قرار گیرد. برنامه جستجو گر با استفاده از واژه نامه ایجاد شده و رتبه صفحات به درخواست کاربران پاسخ می دهد.
از اونجایی که توضیحات مربوط به معماری موتور جستجوی گوگل خیلی تخصصی بود و زبان فارسی در بیانش ضعف داره، به همین جهت متن انگلیسی این قسمت رو هم براتون میزارم:
In Google, the web crawling (downloading of web pages) is done by several distributed crawlers. There is a URLserver that sends lists of URLs to be fetched to the crawlers. The web pages that are fetched are then sent to the storeserver. The storeserver then compresses and stores the web pages into a repository. Every web page has an associated ID number called a docID which is assigned whenever a new URL is parsed out of a web page. The indexing function is performed by the indexer and the sorter. The indexer performs a number of functions. It reads the repository, uncompresses the documents, and parses them. Each document is converted into a set of word occurrences called hits. The hits record the word, position in document, an approximation of font size, and capitalization. The indexer distributes these hits into a set of "barrels", creating a partially sorted forward index. The indexer performs another important function. It parses out all the links in every web page and stores important information about them in an anchors file. This file contains enough information to determine where each link points from and to, and the text of the link.
The URLresolver reads the anchors file and converts relative URLs into absolute URLs and in turn into docIDs. It puts the anchor text into the forward index, associated with the docID that the anchor points to. It also generates a database of links which are pairs of docIDs. The links database is used to compute PageRanks for all the documents.
The sorter takes the barrels, which are sorted by docID, and resorts them by wordID to generate the inverted index. This is done in place so that little temporary space is needed for this operation. The sorter also produces a list of wordIDs and offsets into the inverted index. A program called DumpLexicon takes this list together with the lexicon produced by the indexer and generates a new lexicon to be used by the searcher. The searcher is run by a web server and uses the lexicon built by DumpLexicon together with the inverted index and the PageRanks to answer queries
.
این بخش از مقاله ای که موسسین گوگل برای شناسایی گوگل نوشته بودند گرفته شده:
[تنها کاربران قادر به مشاهده لینک ها هستند]
نکته: اگه هر مشکلی در بیان مفاهیم این بخش داشتید در همینجا سوالاتون رو مطرح کنید
[تنها کاربران قادر به مشاهده لینک ها هستند]- Invisible Web
[تنها کاربران قادر به مشاهده لینک ها هستند]- Opaque Web
[تنها کاربران قادر به مشاهده لینک ها هستند] web crawling
[تنها کاربران قادر به مشاهده لینک ها هستند] docID
[تنها کاربران قادر به مشاهده لینک ها هستند] anchors
[تنها کاربران قادر به مشاهده لینک ها هستند] URLresolver
[تنها کاربران قادر به مشاهده لینک ها هستند] PageRanks
[تنها کاربران قادر به مشاهده لینک ها هستند] inverted index
این قسمت رو از فصل چهارم یادم رفته بود بزنم:
شاید شما هم وقتی که کاربران حاضر در انجمن رو نگام می کنید با تصویر مقابل بر خورده باشید:
همونطور که می بینید در اینجا چهار کاربر متفاوت در انجمن حاضر هستند: 2 تا MSNBot و 2 تا Google
ولی این کاربرا چی هستند و در سایت چیکار می کنند؟
اینها همون روبات ها (عنکبوت ها، یا خزنده ها) یی هستند که در صفحات مختلف سایت می گردند و اطلاعات رو از سایت به سرور موتور جستجو می فرستند تا در نمایه سازی مورد استفاده قرار بگیره.
در صورتی که در این موضوع پست جدیدی ارسال شود پس از 5 ثانیه به صورت خودکار آپدیت می شود و نیاز به رفرش نیستAutomatic thread refreshing has been stopped because you appear to be idle. Un-Idle
- بازنگری
علاقه مندی ها (Bookmarks)