Как парсят данные сканеры?

Сообщения
56
Реакции
18
Баллы
8
Задумался тут о написании собственного сканера Live вилок.
Просто - тема интересная с технической точки зрения.
Стало интересно - как парсят live данные эти сканеры?
Я покопался в коде некоторых контор - все конторы работают по разному:
кто то по аяксом присылает обновленные коэффициенты в виде JSON-а, кто то готовый HTML.
Если пытаться разобраться в JSON массивах каждой конторы - то просто охренеешь разбираться что значит конкретное поле. Ну и не все обновляют JSON-ом.
Если постоянно посылать GET запросы - то во первых твой IP очень быстро забанят, во вторых - на многих конторах контент страницы формируется уже на client side - т.е. обычный GET запрос а таких конторах не покажет тебе ничего.
...
И вот я думаю - что основным универсальным методом парсинга - является парсинг с помощью JS.
Т.е. полная иммитация обычного пользователя, которые открыл страницу события и тупо смотрит.
Да, под каждую контору каждого спорта нужно написать свой скрипт парсинга.
Но это не долго. Я в своем роботе такое делаю быстро.
Тут проблема в другом:
Одна открытая страница какого нибудь live события пожирает немало ресурсов компьютера.
А нам к примеру нужно парсить 100 контор, и у каждой конторы - 100 LIVE - событий. Т.е. одновременно нам нужно парсить 10 000 страниц, данные на которых обновляются каждую секунду...
Если парсить браузером - то понадобится несколько сотен виртуальных машин, чтобы были ресурсы для всех этих 10 000 одновременно открытых браузеров. И один мощный комп для DataBase - сервера, который будет принимать каждую секунду все эти 10 000 запросов от разных ботов.

Вопрос программистам: как думаете - как парсят поисковики LIVE вилок одновременно такое большое количество событий?
 
  • Like
Реакции: NRs
Arbitrage-bets - мультиаккаунтинг для букмекерских контор. Как букмекеры вычисляют вилочников? Оставайтесь анонимным в интернете.
forking.bet
Задумался тут о написании собственного сканера Live вилок.
Просто - тема интересная с технической точки зрения.
Стало интересно - как парсят live данные эти сканеры?
Я покопался в коде некоторых контор - все конторы работают по разному:
кто то по аяксом присылает обновленные коэффициенты в виде JSON-а, кто то готовый HTML.
Если пытаться разобраться в JSON массивах каждой конторы - то просто охренеешь разбираться что значит конкретное поле. Ну и не все обновляют JSON-ом.
Если постоянно посылать GET запросы - то во первых твой IP очень быстро забанят, во вторых - на многих конторах контент страницы формируется уже на client side - т.е. обычный GET запрос а таких конторах не покажет тебе ничего.
...
И вот я думаю - что основным универсальным методом парсинга - является парсинг с помощью JS.
Т.е. полная иммитация обычного пользователя, которые открыл страницу события и тупо смотрит.
Да, под каждую контору каждого спорта нужно написать свой скрипт парсинга.
Но это не долго. Я в своем роботе такое делаю быстро.
Тут проблема в другом:
Одна открытая страница какого нибудь live события пожирает немало ресурсов компьютера.
А нам к примеру нужно парсить 100 контор, и у каждой конторы - 100 LIVE - событий. Т.е. одновременно нам нужно парсить 10 000 страниц, данные на которых обновляются каждую секунду...
Если парсить браузером - то понадобится несколько сотен виртуальных машин, чтобы были ресурсы для всех этих 10 000 одновременно открытых браузеров. И один мощный комп для DataBase - сервера, который будет принимать каждую секунду все эти 10 000 запросов от разных ботов.

Вопрос программистам: как думаете - как парсят поисковики LIVE вилок одновременно такое большое количество событий?
Писать как все - долго, и вряд ли сейчас сможешь урвать себе кусок рынка.
 
Да если умение то писать нужно только под себя. Выбрал 3-5 контор и все. Тут конечно преимущество будет в скорости. А еще если раписать такой небольшой сканер, чтобы не пересекался с другими. То наверное вааще было бы супер.
 
У меня уже есть вариант где я парсю JS и тут же проставляю и все на автомате.
Но говорю: одно дело парсить 4 конторы, и пара спортов, другое дело 100 контор и все спорты и все события.
Это просто ТААААК ресурсоемко..... Даже парсинг 4-5 контор далеко не всех спортов и далеко не всех событий вешают виртуалки на 100%.
Писать как все - долго
А как это "как все"? Мне и интересно...
 
У меня уже есть вариант где я парсю JS и тут же проставляю и все на автомате.
Но говорю: одно дело парсить 4 конторы, и пара спортов, другое дело 100 контор и все спорты и все события.
Это просто ТААААК ресурсоемко..... Даже парсинг 4-5 контор далеко не всех спортов и далеко не всех событий вешают виртуалки на 100%.

А как это "как все"? Мне и интересно...
Под "Как все" я подразумеваю 100500 секундные задержки.
Сделать "Подобный" сканер - долго, сложно, но можно.
Мгновенный - пока нет ни у кого.
 
Да если умение то писать нужно только под себя. Выбрал 3-5 контор и все. Тут конечно преимущество будет в скорости. А еще если раписать такой небольшой сканер, чтобы не пересекался с другими. То наверное вааще было бы супер.
Был тут как-то один сканер который не пересекался с другми...
 
Под "Как все" я подразумеваю 100500 секундные задержки.
Это точно.
Я когда окунулся в тему вилок - вообще не понимал как люди пользуются сканерами.
На фонбете к примеру каждую секунду приходит обновление.
На других конторах - тоже часто.
И вот посчитаем:
Поисковик отпарсил коэффициенты, загрузил их в свою базу, потратил время на поиск и запись вилок, страница обновления поисковика раз в 5 секунд запрашивает обновления... это все секунды.. секунды.. секунды...
Потом пользователь принимает решение попытаться проставить... открыл одну страницу... открыл вторую страницу... нужно определить максы... посчитать плечи с учетом округления... проставить плечи... посмотреть где лучше проставить в первую очередь...

И вот мне казалось (да и сейчас кажется), что вероятность того что вилка провисит все это время стремится к нулю. Даже у моего бота количество попыток простановок и количество успешных простановок - это "две больше разницы".
 
Это точно.
Я когда окунулся в тему вилок - вообще не понимал как люди пользуются сканерами.
На фонбете к примеру каждую секунду приходит обновление.
На других конторах - тоже часто.
И вот посчитаем:
Поисковик отпарсил коэффициенты, загрузил их в свою базу, потратил время на поиск и запись вилок, страница обновления поисковика раз в 5 секунд запрашивает обновления... это все секунды.. секунды.. секунды...
Потом пользователь принимает решение попытаться проставить... открыл одну страницу... открыл вторую страницу... нужно определить максы... посчитать плечи с учетом округления... проставить плечи... посмотреть где лучше проставить в первую очередь...

И вот мне казалось (да и сейчас кажется), что вероятность того что вилка провисит все это время стремится к нулю. Даже у моего бота количество попыток простановок и количество успешных простановок - это "две больше разницы".
А ты сам программист, на чем бот написан(если не секрет?)
 
А ты сам программист, на чем бот написан(если не секрет?)
Секрет))
Тут дело не в языке, а скорее - в общей идеологии.
Я использую автоматизацию браузера.
А браузер можно автоматизировать по всякому.
И среда разработки - тут дело десятое.
 
Мне кажется что поисковики live вилок - типа AllBestBets используют что то другое.
Я уже покопался - есть всякие библиотеки, которые косят под браузер, и могут выполнять JS код, которые в итоге и формирует страницу, которую нужно отпарсить. Наверное - поисковики используют что то подобное.
 
Не хватает немножко инсайдерской информации из поисковиков))))
 
Задумался тут о написании собственного сканера Live вилок.
Делай, конкуренция это хорошо.

>>...и вряд ли сейчас сможешь урвать себе кусок рынка<<
-------------
Сделаешь, что-то эдакое ещё как урвёшь. Лям чистыми можешь иметь в месяц)), так что думай и делай... чтобы в старости сидеть на жопе ровно и иметь лям чистыми в месяц.
 
Назад
Сверху Снизу