stMind

about Tech, Computer vision and Machine learning

scraping

from_toとencode, decode

perlの勉強として以前作ったJSPORTSのプレミアリーグ放送予定をスクレイピングするスクリプトを修正して、検索キーワードと放送形態(生放送、初回放送、同日録画)を指定できるようにした。今回修正する上で一つだけつまづいたのがURLエンコードのための文…

memo

jsportsの番組検索では、キーワードはShift-JISへの URIエンコードが必要。

Scraperで行こう

Topページの一番下、サムネイルがタイル上に並んでいる部分を ポップアップするタイトルで認識するのは困難、というわけで Web::Scraperを使ってタイトル一覧にしてみました。 pastNews: - VW社の燃料電池車『space up! blue』:動画で紹介 - クリックしなく…

 今度はNHKスペシャルの放送予定を取り出してみる

今回はXPathを使ったよ。nhk_scraper.pl #! /usr/bin/perl use strict; use warnings; use Web::Scraper; use URI; use YAML; my $uri = 'http://www.nhk.or.jp/special/schedule/index.html'; my %nhk_scraper; $nhk_scraper{'tweek'} = scraper { process …

J-Sportsから放送スケジュールを取り出してみる

こことかここを参考に書いてみた! jsports_scraper.pl #! /usr/bin/perl use strict; use warnings; use Web::Scraper; use URI; use YAML; use Encode; use Data::Dumper; my $uri = shift; my $jsports = scraper { process "tr", "programs[]" => scrape…