Үндсэн скрипт дээрх кодыг харцгаая:
#!/usr/bin/perl
# which-forum.pl скрипт
# (c) 2010 Александр А Алексеев, http://site/
хатуу хэрэглэх;
# Тэмдэглэгдсэн мөрүүд - хурдан байхын тулд
# Хэрхэн хадгалах вэ - хөдөлгүүрийн статистикийг цуглуулах, хэрхэн устгах
# форумын жагсаалтыг хэрхэн эмхэтгэх вэ - тайлбар
миний $ өгөгдөл;
$өгөгдөл.= $_цагдаа (<>
)
;
# подвалд нийтлэхгүйгээр хэд нь Powered by phpBB болохыг шалгана уу Та эдгээр бусад скриптүүдийг өөрийн архиваас нийтлэлээс олох болно. Скрипт which-forum.plФорумын хөдөлгүүрийн гарын үсэг ил тод байхын тулд html түүхийн кодыг ашигладаг. Бид WordPress болон Joomla болон хэд хэдэн админуудтай ижил төстэй техникийг ашигласан. Юуны өмнө скрипт өөрөө хажуугийн кодыг уншдаггүй, харин stdin эсвэл аргумент болгон дамжуулсан файлаас уншдаг. Энэ нь танд нэг хуудас руу нэг удаа, жишээлбэл, wget ашиглан нэвтрэх боломжийг олгодог бөгөөд дараа нь нэгээс олон анализаторууд байдаг тул үүнийг хэд хэдэн анализатороор дамжуулан ажиллуулдаг. Өөрөөр хэлбэл, скриптийн гарын үсэг нь 100% хөдөлгүүрийн гарын үсэг юм. Өнгөрсөн удаад гарын үсгийн харагдах байдал нь үндсэн хөдөлгүүрийн хүчийг нэмэгдүүлж, хөдөлгүүрийг хамгийн их гаралтаар "хүчтэй болгосон". Энэ тохиолдолд ийм арга барил нь кодыг эмхэтгэхэд тохиромжгүй гэдэгт би итгэдэг. Скриптийн роботыг эсэргүүцэхийн тулд би бага зэрэг судалгаа хийсэн. Би хэдэн арван мянган форумын жагсаалтыг эмхэтгэж, тус бүрийг өөрийн скриптээр дамжуулж, ингэснээр програмын хэрэглээний тоо, янз бүрийн хөдөлгүүрүүдийн алдар нэрийг харуулсан. Форумын жагсаалтыг авахын тулд би хурдан Google-ийн задлагчаа ашигласан. Дууны систем нь төрлийг ашиглахаас өөр аргагүй болсон сайт:forum.*.ru гэх мэт. Та асуулга үүсгэгчийн бүрэн кодыг файлаас олох боломжтой gen-forumsearch-urls.pl. Krim zone.ru мөн vikorized.su.ua.kz and.by. Өнгөрсөн удаад ихэнх WordPress болон Joomla сайтууд URL дээр ийм гарын үсэг агуулаагүй тул ийм шалгалт хийх нь чухал байсан. cmsmagazine.ru/catalogue/ гэх мэт каталог нь сонгон шалгаруулах хангалттай мэдээллийг өгдөггүй. Drupal дээрх 600 сайт гэж юу вэ? Туршилтын үр дүн намайг төөрөлдүүлсэн гэдгийг хэлэх нь илүүц биз. Хяналтанд хамрагдсан 12,590 сайтаас зөвхөн 7,083 хайлтын систем амжилттай ажилласан нь үр дүнгийн 56% -иас бага байна. Магадгүй би ямар ч хөдөлгүүрт худлаа хэлээгүй юм болов уу? Bitrix форумын тал хувь дээр зогсож байгаа хэвээр байна уу? Яагаад гарын үсэг хайхад нэг цаг гаруй зарцуулдаг вэ? Уучлаарай, энд нэмэлт шалгалт хийх шаардлагатай байна. Амжилттай нэвтрүүлсэн хөдөлгүүрүүдийн 56% нь хамгийн алдартай нь IPB (31%), phpBB (26.6%) болон vBulletin (26.5%) байв. Тэдний араас SMF (5.8%) болон DLEForum (5.3%) нар орж байна. Миний дуртай punBB 6-р байранд орсон (1.64%). Би эдгээр тоонд тийм ч их итгэхгүй байна (үүнийг хэлэхэд RuNet дээрх гурав дахь форум IPB дээр ажилладаг), гэхдээ мөнгө олох боломжтой. Жишээлбэл, хэрэв та форум дээр сайт ажиллуулахаар төлөвлөж байгаа бөгөөд форумыг өөрчлөхөөр төлөвлөж байгаа бол долоо хоногт нэг удаа үнийг автоматаар харуулахын тулд худалдаачдад арьс тутамд $ 0.01 төлж байгаа бол хамгийн алдартай гурван хөдөлгүүрийн аль нэгийг сонгох хэрэгтэй. Форум хэдий чинээ алдартай болно төдий чинээ сайн ойлгодог програмист олох боломж нэмэгдэнэ. Хэрэв бодит өөрчлөлтүүд хөдөлгүүрт шилжихгүй бол SMF эсвэл punBB гэх мэт бага алдартай хөдөлгүүрийг сонгох боломжтой. Ингэснээр та өөрийн форум дээрх хакерын халдлагын тоо болон таны шинэ форум руу автоматаар илгээгдэх спамын тоог өөрчлөх болно. Форум хайх/ашиглах скриптүүд нь нэгээс олон практик хэрэглээтэй байж болно. Миний санаанд орж ирсэн хамгийн эхний зүйл бол TIC-ээр хүлээн зөвшөөрөгдсөн форумаар ангилж, аль нэг сайт руугаа илгээсэн эхний зуун бичлэг дээр байрлуулах явдал юм. Гэсэн хэдий ч олон зуун форумын dofollow-плакатууд TIC-д ороогүй (2 шинэчлэлт өнгөрсөн), тиймээс цааш явахад санаа зовохгүй байх тул энд нэг цаг үрэхгүй байх нь дээр. Скриптүүдийн тоо жигд байхаас хол байгаа нь тодорхой байна. Та тэднийг хэрхэн vikorize хийхийг амархан олж чадна гэж би бодож байна. Төлөвлөлтгүйгээр Botmeister Labs зохион байгуулах. Цаг хугацаа байхгүй, шинэ загварын чиг хандлага шиг уралдаанд видео хэрэгтэй байна, гэхдээ бүх зүйлийг сайн дэлгэцийн агшингаар (миний IMHO) илүү хялбар тайлбарлаж болох ч би юу ч шатаахыг хүсэхгүй байна. Тим аль хэдийн ашиг багатай болсон, тэнэг спамыг хянахаа больсон, бодох хэрэгтэй бөгөөд тэдэнтэй хамт хэнийг ч шатаахгүй, учир нь зөвхөн сэрүүн хүмүүс үйрмэгийг хайруулын тавган дээр нааж, нунтаглахыг оролдсон. :) Ale бол бидний тухай биш. Гэсэн хэдий ч эдгээр гурван "үгүй" нь ихэнх боломжит оролцогчдын тэмцээнд оролцоход саад болж байсан гэж би бодож байна. Энд машин засварын нэгэн адил хямд, ойлгомжтой, хурдан гэсэн гурван зүйл байдаг - үйлчилгээ нь нэгэн зэрэг хоёроос илүү оюун ухааныг алдаж болно. суугаад өөрт хамгийн ойр байгаа зүйлийг сонго. :) Өрсөлдөөн нь адилхан: видео дээр ажиллах цаг байхгүй, гэхдээ сэдэв байхгүй, гэхдээ огт цаг байхгүй, эсвэл харуулах цаг байхгүй, харанхуй бага зэрэг байна, гэхдээ видео нь биш ажиллаж байна. Але цэ сайн, яксчо нэг цаг 2 бодоод үз. За, дууны үг рүү орцгооё. Би өөрийнхөө тухай ярина. Төлөвлөгөөгүй бол би тухайн нийтлэлд санал өгөхөөр сонгоод уралдаанд оролцож байна гэсэн үг. Таны юу ч хэлсэн бай, Doz сайн программ хангамж мэддэг бөгөөд үүнийг vikorize хийх нь бүр үндэслэлтэй юм. Тэмцээнд сонирхолтой зүйл байгааг бид өнөөдөр л мэдлээ. Би санал өгөх боломжгүй болох нь харагдаж байна, гэхдээ тэд зөвхөн 2011 оны хэвлэлд програм хангамж нэмснээр даатгалын уралдаанд оролцох шинэ хүмүүст л ажиллах боломжтой. Здивувався бага зэрэг, але хосподар - эрхэм ээ. Тэмцээн бол сурталчилгааны кампанит ажил бөгөөд Александр үүнийг хэрхэн явуулахаа мэддэг. Гэсэн хэдий ч нийтлэлийг бичсэний дараа бичих нь илүү хялбар, хэрэв хэн нэгэнд ойлгомжтой бол хүн бүр үнэхээр ажиллах боломжгүй юм. Php-Fusion-ээр дэмжигдсэн Khrumer 7.07 хувилбарын хувьд програм нь хэд хэдэн шинэ хөдөлгүүртэй. forumi.biz, forumb.biz, 1forum.biz, 7forum.biz гэх мэт. phpBB-fr.com, Solaris phpBB сэдэв Мөн шинэ зүйлийг эхлүүлэх үйл явц нь эцэс төгсгөлгүй хэцүү байдаг. "SMF 1.1.2-ээр ажилладаг" "SMF 1.1.3-аар ажилладаг" "SMF 1.1 RC2-ээр ажилладаг" "SMF 1.1.4-ээр ажилладаг" "SMF 1.1.8-ээр ажилладаг" "SMF 1.1.7-ээр ажилладаг" "2006-2008, Simple Machines ХХК" Түүнээс гадна, энэ нь бүгд биш юм. Төрөл бүрийн SMF форум дээр хөдөлгүүрийн хувилбаруудыг сонгохдоо доод хэсэгт "2001-2006, Lewis Media" гэсэн бичиг гарч ирнэ. Бид энэ асуултыг шалгадаг, энэ нь бас биднийг бүрэн хангаж байна. Танил төстэй гарчиг: "2001-2005, Льюис Медиа." Хөлийн хэсгийг гүйлгэн харахад "SMFone дизайн A.M.A, SMF 1.1 рүү шилжүүлсэн" гэсэн танил бичвэр байна. Баталгаажсан - баталгаажуулсан. гэх мэт. Энэ нь маш сайн ажилладаг бөгөөд танд хөдөлгүүр дээр асуулгын гайхалтай мэдээллийн сан байгаа бөгөөд Google таныг операторууд ялахаас хамаагүй хурдан асуулгын өгөгдлийг хориглох болно. Үүний зэрэгцээ, таны мэдээллийн сан бүрэн цэвэр байх болно, учир нь та "index.php?topic=" гэх мэт зүйлийг бичих болно, ингэснээр Google энд зөвхөн бидэнд хэрэгтэй форум төдийгүй байгалийн баялаг нөөцийг өгөх болно. , форумын сэдэвт нийтлэлээ алдах. Та хөндлөн уншиж болно, гэхдээ энэ нь юу нь тийм муухай юм бэ? Бусад хүмүүс биднийг мессежээс хассан тул бид чадна. Але! Зөвхөн Хрумер төдийгүй бусад хөтөлбөрүүд ч амлалтаа цуцалж болно. Түүгээр ч барахгүй дуулах эх сурвалжаас сэтгэгдлийг хасахын тулд тэдгээрийг тусгайлан хурцалж болох тул өндөр технологийн програм хангамжийн гарчиг болон ийм мессежийг гараас хасаж болно. Дахин давтан хэлье, бидний хувьд цохилтын тоо чухал биш, харин гэрэл гэгээ, суурь, зөв асуултуудтай тул бид үүнийг авах болно. Энэ аргын давуу тал нь та үүнийг Kreferi-д тохируулах шаардлагагүй болно шигшүүр шүүлтүүр
伟哥 - виагра 吉他 - гитар 其他 - засвар хийхэд зориулагдсан 保险公司 - даатгал Words файл дахь байршуулалт ба тэдгээрийг орлох кодууд: %E4%BC%9F%E5%93%A5 %E5%90%89%E4%BB%96 %E5%85%B6%E4%BB%96 %E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8 Хэрэв та сайтыг даатгалд ашиглаж байгаа бол хайлтаас олдсон сэдэвчилсэн (!) Хятад форум дээр өөрийн профайл руу мессеж бичээрэй. SMF форум" 保险公司Энэ нь үнэхээр муу байх болно.
"phpbb" хэвлэх \n"
хэрэв ($ өгөгдөл =~ /]+href="[^"]*http:\/\/(?:www\.)?phpbb\.com\/?"[^>]*>phpBB/iэсвэл
# $өгөгдөл =~ /viewforum\.php\?[^""]*f=\d+/i эсвэл
$ өгөгдөл =~ /phpBB\-SEO/i эсвэл
$өгөгдөл =~ /)
;
"ipb" хэвлэх \n"
хэрэв ($ өгөгдөл =~ /]+href="[^"]*http:\/\/(?:www\.)?invision(?:board|power)\.com\/?[^"]*"[^>]*> [^<]*IP\.Board/i
эсвэл
$өгөгдөл =~ /]+href="[^"]*http:\/\/(?:www\.)?invisionboard\.com\/?"[^>]*>Invision Power Board/iэсвэл
$өгөгдөл =~ /
$өгөгдөл =~ /индекс\.php\?[^""]*showforum=\d+/i)
;
"vbulletin" хэвлэх \n"
хэрэв ($ өгөгдөл =~ /Эрхлэгч:?[^<]+vBulletin[^<]+(?:Version)?/i
эсвэл
$өгөгдөл =~ /)
;
"smf" хэвлэх \n"
хэрэв ($ өгөгдөл =~ /]+href="[^"]*http:\/\/(?:www\.)?simplemachines\.org\/?"[^>]*>SMF/i-ээр дэмжигдсэнэсвэл
$өгөгдөл =~ /индекс\.php\?[^""]*самбар =\d+\.0/i)
;
"punbb" хэвлэх \n"
хэрэв ($ өгөгдөл =~ /]+href="[^"]*http:\/\/(?:(?:www\.)?punbb\.org|punbb\.informer\.com)\/?"[^>]*> PunBB/i); #эсвэл
# $өгөгдөл =~ /viewforum\.php\?[^""]*id=\d+/i);
"fluxbb" хэвлэх \n"
# if($data =~ /viewtopic\.php\?id=\d+/i эсвэл
хэрэв ($ өгөгдөл =~ /]+href="http:\/\/(?:www\.)fluxbb\.org\/?"[^>]*>FluxBB/i)
;
"exbb" хэвлэх \n"
хэрэв ($ өгөгдөл =~ /]+href="[^"]*http:\/\/(?:www\.)?exbb\.org\/?"[^>]*>ExBB/i); # эсвэл
# $өгөгдөл =~ /форум\.php\?[^""]*форум=\d+/i);
хэвлэх "yabb \n"
хэрэв ($ өгөгдөл =~ /]+href="[^"]*http:\/\/(?:www\.)?yabbforum\.com\/?"[^>]*>YaBB/iэсвэл
$өгөгдөл =~ /YaBB\.pl\?[^""]*num=\d+/i );
"dleforum" хэвлэх \n"
хэрэв ($ өгөгдөл =~ /\(DLE форумаас дэмжигдсэн\)<\/title>/iэсвэл
$өгөгдөл =~ /]+href="[^"]+(?:http:\/\/(?:www\.)?dle\-files\.ru|act=copyright)[^"]*">DLE форум<\/a>/i)
;
"ikonboard" хэвлэх \n"
хэрэв ($ өгөгдөл =~ /]+href="[^"]*http:\/\/(?:www\.)?ikonboard\.com\/?[^"]*"[^>]*>Ikonboard/iэсвэл
$өгөгдөл =~ /\n"
хэрэв ($ өгөгдөл =~ /\n"
# if($data =~ /forums\.php\?fid=\d+/i эсвэл
# $өгөгдөл =~ /сэдэв\.php\?fid=\d+/i эсвэл
хэрэв ($ өгөгдөл =~ /]+href="http:\/\/(?:www\.)?flashbb\.net\/?"[^>]*>FlashBB/i)
;
"stokesit" хэвлэх \n"
# if($дата =~ /форум\.php\?f=\d+/i эсвэл
хэрэв ($ өгөгдөл =~ /]+href="http:\/\/(?:www\.)?stokesit\.com\.au\/?"[^>]*>[^\/]*Stokes IT/i)
;
"индэр" хэвлэх \n"
# if($өгөгдөл =~ /сэдэв\.php\?t=\d+/i эсвэл
хэрэв ($ өгөгдөл =~ /]+href=[""]?http:\/\/(?:www\.)?sopebox\.com\/?[""]?[^>]*>Индэр/i)
;
"usebb" хэвлэх \n"
# if($дата =~ /форум\.php\?id=\d+/i эсвэл
хэрэв ($ өгөгдөл =~ /]+href="http:\/\/(?:www\.)?usebb\.net\/?"[^>]*>UseBB/i)
;
"wrforum" хэвлэх \n"
# if($data =~ /index\.php\?fid=\d+/i эсвэл
хэрэв ($ өгөгдөл =~ /]+href="http:\/\/(?:www\.)?wr\-script\.ru\/?"[^>]*>WR\-Форум/i)
;
"yetanotherforumnet" хэвлэх \n"
if ($data =~ /Yet Another Forum\.net/i эсвэл
$өгөгдөл =~ /default\.aspx\?g=posts&t=\d+/i)
;
сайт: talk.*.ru
сайт:board.*.ru
сайт: smf.*.ru
сайт: phpbb.*.ru
....
Урт танилцуулга дуусч, одоо гол зүйл рүүгээ орлоо.
Xrumer+Hrefer цогцолбор шиг ийм супер комбайн нэмбэл эхлэгчдэд юу хэрэгтэй вэ? Зөв шүү, үүнийг хэрхэн ашиглаж сур, хэрэв та спам зарлаж эхэлбэл мөнгө олох боломжтой гэсэн хуурмаг зүйлийг бий болго. Хэрэв та тэгж бодож байгаа бол мөнгө төгрөгөө буяны ажилд хандивласан нь дээр. Та цогцолборын хэрэгслийг хэрхэн ашиглах талаар сурах хэрэгтэй бөгөөд тэдгээрийг өөртөө санаж байх хэрэгтэй. "Илүү авах - цааш шид" гэсэн цаг өнгөрсөн. Зузааныг амттайгаар солино. Тиймээс, өөрсдөдөө бааз сонгоё, хэрэв та ажиллаж дасахгүй бол галт тэрэгнээс буух болно. Хэн бидэнд туслах вэ, хамгийн түрүүнд Хрефер. Хэрэв та нөөцөө Google-д оруулахаар төлөвлөж байгаа бол бид Google-ээр дамжуулан хандивлагч сайтуудыг хайх хэрэгтэй. Энэ нь ойлгомжтой бөгөөд логиктой гэж би бодож байна. Ale Google нь Зэс уулын захирагчийн хувьд баялгаа хүн болгонд өгдөггүй. Өнөөг хүртэл ийм арга барил шаардлагатай. Би зүгээр л номноос олж болох шинж тэмдгүүдэд бүү хуурт, та чадах бүхнээ авах боломжтой гэдгийг хэлмээр байна. Тэд бас олон нийтэд байдаг, гэхдээ үнэ нь ичмээр юм. Би сэдвийг цаашид хөгжүүлэхгүй. Илүү сайн үр дүнд хүрэхийн тулд хэрхэн зөв сонгохыг илүү сайн ойлгоцгооё, эс тэгвээс та өөрөө зарчмыг сайтар судалж, ойлгох болно. Форумын шинж тэмдгүүдийн хувьд биш харин бидэнд хэрэгтэй байгаа тодорхой хөдөлгүүрийн шинж тэмдгүүдэд тохирохыг нь сонгох шаардлагатай. Шинээр ирсэн хүмүүсийн гол зорилго бол тодорхой зүйлд анхаарлаа төвлөрүүлэх биш харин бүх зүйлийг өөртөө шингээхийг хичээх явдал юм. Түүнчлэн, хэрэв та ердийн баазаас их юм уу бага хэмжээгээр задлан шинжлэхийг хүсвэл операторын асуулгыг ашиглахыг бодоорой. Нийтлэг "inurl:", "site:", "гарчиг" гэх мэт. Google ийм шоглогчдыг шууд хориглоно. Тиймээс бид Хрумерын нэн даруй ажилладаг хөдөлгөөнийг эрс шийдэмгий чичиргээ:
Гэсэн хэдий ч бид Hrefer задлан шинжлэхэд зөв асуулга бэлтгэх хэрэгтэй. Өгзөгний хувьд форумын санг авч үзье SMF форумууд. Шинжилгээнд ашиглах сэлбэг хэрэгслийг йогчдоо цэгцлэх цаг болжээ. Google-д зориулсан бидний хайр бидэнд тусалж чадна. Google-д бичсэн SMF форумууд- Энэ талаар 13-р хуудсыг хараад илгээсэн эсэхээ сонгоод маш их мэдээлэл байна. Би үүнийг олж мэдсэн: http://www.volcanohost.com/forum/index.php?topic=11.0. Энэ нь уян хатан, уян хатан байдаг. Бид таны хөдөлгүүр дээрх бусад сайтуудыг хайж олоход ашиглаж болох сайт дээрх ердийн зүйлийг мэдэх хэрэгтэй. Хөлийн хэсэгт удахгүй болох тэмдэг байна Powered by SMF 1.1.14, та үүнийг дарж Google-д оруулахад энэ асуултын ард 59 сая орчим сонголт байгааг харуулж байна. Бид мессежийг хянаж, энэ түлхүүр үгэнд өөр хэд хэдэн сонголтыг нэмж байна, жишээлбэл, "Powered by SMF 1.1.14" улиасэсвэл өөр "Powered by SMF 1.1.14" виагра. Хэлэлцүүлгийн аль алиных нь нүдээр, магадгүй таны smittya-ийн аль алинд нь дэгжин хүн юу уухыг дахин авч үзье.
Бидний хувьд энэ нь жимсний хэмжээ биш, харин би илүү олон удаа хэлсэн шиг чихэрлэг байдал юм. Цаашаа явцгаая. Нэг форумаас бид хөл хэсгээс өөр хэллэгийг авдаг: , мөн Google-д хэрэгтэй бөгөөд алдартай. Тайлангаас харахад би 13 сая гаруй үр дүнтэй байна. Дахин нэг удаа бид үзэмжийг харж, нэмэлт үгс нэмж, тэдгээрийн тусламжтайгаар харагдацыг шалгана. Бид дахин хөрвүүлж байна, ингэснээр энэ нь угааж, мөнгө байхгүй болно. Түүгээр ч барахгүй хоёр төмөр цахилгааны шугам бий. Би тайван байж, бусад форумаас асуулт цуглуулах хүртэл эхний форумыг үргэлжлүүлэн ашиглах болно. Аз болоход Google асуухад нээлттэй 2006-2008, Simple Machines ХХК. Жишээлбэл, бид энэ форумыг харгалзан үздэг: http://www.snowlinks.ru/forum/index.php?topic=1062.0 болон http://litputnik.ru/forum/index.php?action=printpage;topic =380.0-ийн хөл хэсэгт "Powered by SMF 1.1.7" болон "Powered by SMF 1.1.10" гэсэн үгс байна (эхний чергүд сарлагийн саваг хэрэгтэй байгаа тул Khrefer гэж урьдчилан rajah гэж бичнэ үү) . Бид ажиллаж байгаа гэж бодож байна, бид SMF хөдөлгүүр дээр форум хайх асуултуудын мэдээллийн санг олох болно (жишээлбэл, бусад хөдөлгүүрүүдтэй төстэй).
Энэ нь иймэрхүү харагдаж байна:
Та эхний шатанд Хрефертэй илүү хүндэтгэлтэй харьцаж сурсанд би талархаж байна, мөн үүнийг сурсан ч нөхцөл байдал өөрчлөгдөөгүй юм шиг Хрумер зогсонги байдалд байгааг үргэлж олж мэдэх боломжтой. Хамгаалалт нь төвөгтэй бөгөөд хэрэв хамгаалалт нь бүх төрлийн хөдөлгүүрт хэрэгжсэн бөгөөд Хрумер үүнийг даван туулж чадахгүй бол эдгээр холбоосыг цуглуулж, дараа нь Хрумертай ажиллах, эс тэгвээс анхаарлаа төвлөрүүлэхийн тулд нөөцийг үрэх нь утгагүй юм. юу үр дүн өгдөг. Үүний зэрэгцээ Botmeister Labs багийнхан Хромерт шинэ зүйлийг зааж өгсөн тул өвчтөн халуун хэвээр байхад шинэ өвчтөнийг хурдан бэлдэж, Khroomer-д суурь бэлтгэх боломжтой. Нэг цаг бол өчүүхэн мөнгө, хэрэв та мэдээллийн сан худалдаж авбал энэ нөөц хамаагүй байж магадгүй юм. Би кимо цуглуулсан. Нэмж дурдахад, өөртөө тохирсон суурийг зөв сонгох нь Хрумерын "цагаан" зогсонги байдлыг ихээхэн өргөжүүлдэг. Эндээс л бидний хүссэн зүйлээс үл хамааран бүх зүйл нуран унадаг ч нөхөн сэргээх үйл явц үргэлжилсээр байна. Черни яагаад төгсгөлд нь зөвхөн чи явж болно гэж сунгав.
Khrefer-тэй ажиллах бусад бүх, тэр ч байтугай техникийн талыг тусламжаас харж болно, тэдгээрийг ойлгоход хэцүү биш, нүдний бүх секундийг арьсны машинд зориулж урьдчилан тогтоодог.
Урамшууллын хувьд би Хятадын Baidu хайлтын системийг задлан шинжлэх загварыг энд нийтэлж байна, би энэ талаар олон хоног ярьж, баруун талд тэнхлэгийг үүсгээд, үг хэллэгийг тэмдэглэж байна. :)
Хост нэр=http://www.baidu.com
Query=s?wd=
LinksMask=
Нийт хуудас=100
NextPage=
NextPage2=
CaptchaURL=
CaptchaImage=
CaptchaField=
Үүнийг задлан шинжилж үзэх гэж оролдсон ч ямар ч хориг байхгүй, Khrefer-ийн нөөцийг хурдан цуглуулсан, задлан шинжлэхэд зориулсан бүх оруулгууд нь Google-ийнхтэй төстэй боловч Хятадын нөөц бол далай, өндөр PR-тай, үүнээс гадна олон газар байдаг. Европын нэг ч хүн хөл тавьсангүй. Амт нь хятад ундаагаар илүү сайн байдаг. Хэрэв та Google Translate ашигладаг бол орос хэл дээрх түлхүүр үгсийн жагсаалтыг бичээд Хятад хэл рүү орчуулаарай. "Үнэн" ҮгҮгсийг хятад хэлээр бичих боломжгүй тул дахин кодлох шаардлагатай.
Хятадуудыг солих:
Төгсгөлд нь хэлэхэд, новш, завхай хүмүүст уурлаж байгаа хүмүүсийг хэн ч ойлгодоггүй, гэхдээ та тэднийг зүгээр л бэлтгэж болохгүй гэдгийг хэлмээр байна. Илүү сайн, хэрэв задлан шинжлэгч видач сонгох боломжгүй бол зүгээр л зөвийг нь асуугаарай. Khrefer бол машин: сайн, хатуу, Германы үйлдвэрлэсэн, гэхдээ энэ нь хүн бөгөөд бүх зүйл хэвтдэг, учир нь боломжийн хэрнээ баруун эсвэл зүүн гараараа машин жолоодох боломжгүй юм. .
Окремагийн сэдэв бол мэдээллийн санг цэвэрлэх явдал юм, би удахгүй болох тэмцээнд 3 жилийн өмнө найдаж байна. Хамгийн гол нь тэнд бүх зүйл хамааралтай, өмнөх шигээ 200 OK дахин шалгахаас бусад тохиолдолд та одоо харж болно, гэхдээ энэ үйл явц тийм ч тохиромжтой биш байсан ч хулгайлах нь маш сайн байсан, маш их зугаа цэнгэлийг шүүж байсан. Одоо Khrumer роботын процесст автоматаар ажиллах боломжтой болсон ч энэ процесс нь "200 OK"-ыг шалгахтай яг адил биш юм. Үүний зэрэгцээ, бүртгэлд: саяхан Хрумерид нэгэн гайхамшигт чадвар гарч ирэв - төсөл хэрэгжүүлэх үед нөөцөөс мэдээлэл хулгайлах. Энэ нь иймэрхүү харагдаж байна. Та ажлын явцад боловсруулагдах загвараа оруулах ба уг загварын ард цуглуулсан мэдээлэл Logs хавтас дахь xgrabbed.txt файлд орох болно. Энэ функцийг ирээдүйд хэрэгжүүлэх боломжтой, уран зөгнөлийн нислэг нь гайхалтай юм. Долоо хоногт нэг удаа би энэ vikory функцийг ажлын мэдээллийн сангаас устгахаар "хугацаа дууссан" руу илгээсэн. Өнөөдөр форумууд устаж байгаа нь нууц биш бөгөөд мэдээллийн сангаас ийм нөөцийг цэвэрлэхийн тулд бид үүнийг хийхэд туслах "Auto-Grab" хэрэгслийг ашиглаж болно.
Түр хүлээгээрэй, жишээ нь http://www.laptopace.com/index.php mi bachimo гэж бичнэ, энэ домэйн дээр аль хэдийн, жишээлбэл, бурхан завгүй, тэнд форум байхгүй. Тиймээс, сууринаас шаарыг зайлуулж, шаарыг шүүрч аваарай. :) Та хуудасны гарах код болон энэ оруулгыг эндээс харж болно:
Одоо бүх "анивчсанууд" бидэнд нэрээр харагдах болно.
Хэрэв та янз бүрийн "хугацаа нь дууссан" домэйнуудын мэдээллийн санг цэвэрлэхийг хүсвэл Autograb хэрэгсэлд жижиг нэмэлт зүйл бий: