Ви використовуєте застарілий браузер. Цей та інші сайти можуть відображатися в ньому некоректно. Необхідно оновити браузер або спробувати використовувати інший.
Как восстановить свои темы/трипы и другой контент со старой лабы
та ты заипесся бро. прикинь скока проксей надо, обхода капч, вычислить как быстро будут банить/давать отдохнуть и архитекруа кеша не структурированная, то есть надо продумать еще как древо парсить. заеб кароче конкретный. писал парсер каталога заибался обходить ограничения, а тут будет позаебистей на порядки, даже начинать не охота
Повідомлення об'єднано автоматично:
LinuxSU а, если ты за чисто репорты, и у тебя есть ресурсы на поиграться то можешь попробовать
какая не структурированная. ты че. берешь страницу просто подставдляешь в циклеhttps://labrc.name/forums/trip-reporty.178/page-* открываешь через пюппитр. пармсишь ссылкки на темы. - парсишь в цикле странички с темами
ты работал с парсингом объемов данных? а там более с поисковиков... тебя ждет немало сюрпризов, когда система поймет что ты ботом это делаешь. даже в ручную слишком много запросов - дают блок на время и как заметил MrDewitt приходится менять ip
какая не структурированная. ты че. берешь страницу просто подставдляешь в циклеhttps://labrc.name/forums/trip-reporty.178/page-* открываешь через пюппитр. пармсишь ссылкки на темы. - парсишь в цикле странички с темами
я про общую архитктуру кеша. позже уточнил, что на примере конкретной папки - да, можно работать. но тут ряд ограничений придется обходить(прокси запас как минимум надо иметь, а еще бы вычислить тайминги блоков, чтобы снизить расходы)
по теме, стянул с помощью wayback-machine-downloader все до чего дотянулся с web.archive.org. Ничего интересного. В кеше гугл/бинг гораздо лучше искать
по теме, стянул с помощью wayback-machine-downloader все до чего дотянулся с web.archive.org. Ничего интересного. В кеше гугл/бинг гораздо лучше искать
просто трип и вещество так себе ключевые, ибо юзер мог комментить кучу всего и это вылазит мешая искать. а вот если к этому добавить никнейм селлера или назание магазина то результаты гораздо меньше воды имеют
Прошелся по репортам Dr GONZO , и очень много из того что он вспомнил удалось с легкостью восстановить!
Он очень грамотно сформулировал примерные названия своих репортов и имена селлеров, а дальше я просто подставлял его никнейм и иногда шуршал по соседним темам или по главной теме селлера чтобы посмотреть ссылки на репорты тестеров
ты работал с парсингом объемов данных? а там более с поисковиков... тебя ждет немало сюрпризов, когда система поймет что ты ботом это делаешь. даже в ручную слишком много запросов - дают блок на время и как заметил MrDewitt приходится менять ip
Повідомлення об'єднано автоматично:
открой первую страницу, она обновлялась за время. там скрины, где кнопка кеша в бинге
я про общую архитктуру кеша. позже уточнил, что на примере конкретной папки - да, можно работать. но тут ряд ограничений придется обходить(прокси запас как минимум надо иметь, а еще бы вычислить тайминги блоков, чтобы снизить расходы)
Прошелся по репортам Dr GONZO , и очень много из того что он вспомнил удалось с легкостью восстановить!
Он очень грамотно сформулировал примерные названия своих репортов и имена селлеров, а дальше я просто подставлял его никнейм и иногда шуршал по соседним темам или по главной теме селлера чтобы посмотреть ссылки на репорты тестеров
просто трип и вещество так себе ключевые, ибо юзер мог комментить кучу всего и это вылазит мешая искать. а вот если к этому добавить никнейм селлера или назание магазина то результаты гораздо меньше воды имеют
их много в сети, вопрос тока прочекать рабочие. но я тебе заранее говорю - тема с слишком большой вероятностью не стоит труда бро... просто представь себе, что новые репорты заходили с начала и смещались по страницам при появлении новых. поисковики такой контент не любят, он слишком динамичен чтобы его кешировать. Прикинь, что на первой странице скока смен репортов - ты думашь они бы стали это все кешировать?... задумайся над архитектурой такого поиска