Udemy: minerando lista de cursos com Crawler em Ruby

Publicado em 11 de Janeiro de 2018

O Udemy é uma dentre as principais plataformas de cursos online mais utilizadas atualmente. Particularmente é minha preferida pela usabilidade (tanto web quanto mobile), acesso vitalício e bons cursos pagos que ocasionalmente são oferecidos de graça. Recentemente, adicionei ao blog uma seção de cursos grátis, cuja primeira fonte foi o Udemy. Vou demonstrar nesse post a implementação para minerar a lista de cursos grátis da plataforma.

Em postagens anteriores, mostrei aplicações semelhantes em Ruby utilizando o Nokogiri e o Mechanize (lembrando que o Nokogiri é uma dependência do Mechanize). Para este caso, entretanto, essas bibliotecas de navegação não se mostraram eficazes, retornando muitos erros de Bad Request (400). Precisei então escovar alguns bits: analisar as requisições HTTP no console do navegador, inspecionar cookies e cabeçalhos e reproduzir o processo pelas bibliotecas. Ainda assim, as requisições continuaram com retorno de erro.

Em testes, reproduzi no console do Linux a requisição através do curl (os consoles dos navegadores tem uma opção para transformar a requisição em um comando do curl, clicando com o botão direito na requisição desejada). O resultado retornado foi o esperado: uma lista de cursos em format JSON. Decidi então utilizar a biblioteca HTTP padrão do Ruby para reproduzir a requisição feita no curl (existe um serviço online que faz a conversão da linha de comando curl para o código em ruby). Vou explicar a seguir o código desenvolvido:

O CÓDIGO-FONTE

#! /usr/bin/env ruby
require 'open-uri'
require 'net/http'
require 'uri'
require 'json'

@cursos = []

def retrieve_courses(url="/api-2.0/channels/1646/courses?is_angular_app=true&lang=pt%7Cen&price=price-free&p=0")

  uri = URI.parse("https://www.udemy.com#{url}")
  request = Net::HTTP::Get.new(uri)
  request["Host"] = "www.udemy.com"
  request["User-Agent"] = "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:57.0) Gecko/20100101 Firefox/57.0"
  request["Accept"] = "application/json, text/plain, */*"
  request["Accept-Language"] = "en-US,en;q=0.5"
  request["Referer"] = "https://www.udemy.com/courses/it-and-software/all-courses/?price=price-free"
  request["X-Requested-With"] = "XMLHttpRequest"
  request["Dnt"] = "1"
  request["Connection"] = "keep-alive"

  req_options = {
    use_ssl: uri.scheme == "https"
  }

  response = Net::HTTP.start(uri.hostname, uri.port, req_options) do |http|
    http.request(request)
  end

  dados = JSON.parse(response.body)

  cursos = []

  dados["results"].each do |curso|
    @cursos << {
      id: curso["id"],
      title: curso["title"],
      headline: curso["headline"],
      num_lectures: curso["num_published_lectures"],
      time: curso["content_info"].split[0],
      url: curso["url"],
      image_thumb: curso["image_125_H"],
      image_full: curso["image_480x270"],
      subscribers: curso["num_subscribers"],
      rating: curso["avg_rating_recent"],
      num_reviews: curso["num_reviews"],
      captions: curso["caption_languages"].join(","),
      language: curso["locale"]["title"]
    }
  end

  return (dados["pagination"]["next"] ? dados["pagination"]["next"]["url"] : nil)

end

url = retrieve_courses
while url
  url = retrieve_courses(url)
end

puts @cursos

#! /usr/bin/env ruby

require 'open-uri'

require 'net/http'

require 'uri'

require 'json'

@cursos = []

def retrieve_courses(url="/api-2.0/channels/1646/courses?is_angular_app=true&lang=pt%7Cen&price=price-free&p=0")

uri = URI.parse("https://www.udemy.com#{url}")

request = Net::HTTP::Get.new(uri)

request["Host"] = "www.udemy.com"

request["User-Agent"] = "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:57.0) Gecko/20100101 Firefox/57.0"

request["Accept"] = "application/json, text/plain, */*"

request["Accept-Language"] = "en-US,en;q=0.5"

request["Referer"] = "https://www.udemy.com/courses/it-and-software/all-courses/?price=price-free"

request["X-Requested-With"] = "XMLHttpRequest"

request["Dnt"] = "1"

request["Connection"] = "keep-alive"

req_options = {

use_ssl: uri.scheme == "https"

}

response = Net::HTTP.start(uri.hostname, uri.port, req_options) do |http|

http.request(request)

end

dados = JSON.parse(response.body)

cursos = []

dados["results"].each do |curso|

@cursos << {

id: curso["id"],

title: curso["title"],

headline: curso["headline"],

num_lectures: curso["num_published_lectures"],

time: curso["content_info"].split[0],

url: curso["url"],

image_thumb: curso["image_125_H"],

image_full: curso["image_480x270"],

subscribers: curso["num_subscribers"],

rating: curso["avg_rating_recent"],

num_reviews: curso["num_reviews"],

captions: curso["caption_languages"].join(","),

language: curso["locale"]["title"]

}

end

return (dados["pagination"]["next"] ? dados["pagination"]["next"]["url"] : nil)

end

url = retrieve_courses

while url

url = retrieve_courses(url)

end

puts @cursos

Explicando os pontos mais importantes que merecem atenção no código:

A URL passada como parâmetro na função foi obtida através da inspeção do fluxo de navegação no console do navegador (é altamente recomendável fazer esse acompanhamento para melhor entendimento dos protocolos HTTP). Na URL, que se refere ao canal de cursos em TI (cujo é o foco da página), acompanham os parâmetros de preço (apenas cursos grátis), idioma do curso (inglês e português do Brasil) e a página da lista (iniciada por padrão como a primeira – zero).
O código inicial, até o momento da obtenção da resposta (linha 27) é resultado da conversão da requisição feita à página para o código em Ruby na sua biblioteca HTTP padrão.
Como a resposta da requisição é um JSON, foi utilizada a biblioteca padrão de mesmo nome do Ruby para fazer o parsing para uma variável local, possibilitando acessar os seus atributos como um hash.
Em minha aplicação, utilizei uma variável de instância “@cursos” para armazenar todos os resultados obtidos, extraindo do hash somente as informações de meu interesse (linhas 34-50).
As respostas das requisições são paginadas, o que quer dizer que não é possível obter toda a lista de uma só vez, sendo necessário navegar página a página para obter todos os cursos. O link da página seguinte é um dos atributos retornados na resposta, auxiliando essa navegação. A função de extração dos dados é chamada enquanto houver uma página seguinte a ser extraída.

Neste post procurei manter a implementação curta e direta para facilitar o entendimento. Na aplicação real (a página do blog), existe um trabalho adicional para persistir a lista no banco de dados para ser exibida posteriormente. O processo descrito aqui pode ser estendido para a obtenção de objetos em demais plataformas que permitam a pesquisa/filtro de elementos. Quaisquer dúvidas ou sugestões, utilize os comentários ou entre em contato!

Ronan Lopes

CTO na Hy Brazil Energia. Bacharel em Ciência da Computação e mestre em Otimização e Inteligência Computacional pela Universidade Federal de São João del-Rei (UFSJ). Pós-graduado em Data Science & Big Data pela PUC Minas. Praticante do budismo tibetano e facilitador pelo CEBB. Nas horas vagas rabisca alguma coisa, resolve um cubo mágico ou aprecia uma boa cerveja em companhia dos amigos.

1 Comentário

Responder

Sannytet

12 de dezembro de 2018 at 04:31

Nice posts! 🙂
___
Sanny

Udemy: minerando lista de cursos com Crawler em Ruby

O CÓDIGO-FONTE

Ronan Lopes

Você Também Pode Gostar

Identificação de usuários influentes no Twitter: Análise comparativa entre métricas

Threads em Ruby: paralelizando requisições HTTP

WordPress: Minerando Posts através da REST API em Ruby

1 Comentário

Sannytet

Deixe uma resposta para Sannytet Cancelar Resposta