SimpleWikipediaAPI を ruby から使う
WikipediaAPI - ウィキペディア情報をサイトで利用できるAPI
Wikipediaの項目をひいて,XML やら JSON で返してくれる素晴らしい API。Perl から使えるライブラリは既にある(YappoLogs: WebService::SimpleAPI::Wikipedia)ので,ruby から使えるようにしてみた。基本的には川o・-・)<2nd life - TDD で作る RakuAPI ライブラリの真似というかコピペというか。元の SimpleWikipediaAPI には色々オプションがあるのですが,とりあえずキーワードだけ与えて検索結果が XML で返るだけです(id:secondlife さんのをソックリ真似したから…)。そんでもって TDD も真似っ子。
# 上の階層の lib ディレクトリをライブラリパスに追加 $LOAD_PATH << File.dirname(__FILE__) + '/../lib' require 'test/unit' require 'simple_wikipedia_api' class SimpleWikipediaAPITest < Test::Unit::TestCase def setup @simple_wikipedia = SimpleWikipediaAPI.new({:proxy_host => 'foo', :proxy_port => 8000, :timeout => 10}) end def test_instance assert_instance_of SimpleWikipediaAPI, @simple_wikipedia end def test_keyword results = @simple_wikipedia.keyword('YouTube') assert_instance_of Array, results results.each do |result| # 構造体かどうか assert_kind_of Struct, result # 構造体メンバーの型チェック struct_methods_call result, %w(sid length) do |method| assert_instance_of Fixnum, method end struct_methods_call result, %w(language url title body) do |method| assert_instance_of String, method end assert_instance_of Time, result.datetime # url は http で始まってるかどうか assert_match /^http/, result.url end end def test_show @simple_wikipedia.keyword('YouTube').each do |result| puts result.body.tosjis end end def struct_methods_call(struct, methods) methods.each do |method| yield struct.send(method) end end end
id:secondlife さんも絶賛している(川o・-・)<2nd life - ruby のスクレイピングツールキット scrAPI)scrapi を使っています。しかし proxy に対応していなかったので,パッチを当てました。Reader クラスの read_page メソッドに以下のようなコードを追加。
http = Net::HTTP.new(uri.host, uri.port, options[:proxy_host], options[:proxy_port])
Base クラスのオプションの定義も以下のように修正しました。
READER_OPTIONS = [:last_modified, :etag, :redirect_limit, :user_agent, :timeout, :proxy_host, :proxy_port]
これで上記のテストコードが通るようになります。
ruby の実体はこんな感じ。今のところ動いているけど。
require 'kconv' require 'uri' require 'scrapi' class SimpleWikipediaAPI WIKIPEDIA_API_URI = 'http://wikipedia.simpleapi.net/api' class SimpleWikipediaScraper < Scraper::Base elements = %w(language sid url title body length redirect strict datetime) elements.each {|el| process el, el => :text } def collect self.sid = sid.to_i self.length = length.to_i self.redirect = (redirect == 1) self.strict = (strict == 1) self.datetime = Time.iso8601(datetime) end result *elements end attr_accessor :options def initialize(options = {}) @options = { :parser => :html_parser }.update options end def keyword(keyword) uri = URI.parse(WIKIPEDIA_API_URI) uri.query = queryize({:keyword => keyword.toutf8}) Scraper.define do process 'result', 'results[]' => SimpleWikipediaScraper result :results end.scrape(uri, self.options) end private def queryize(hash) hash.map {|i| i.map {|j| URI.escape j.to_s }.join '=' }.join('&') end end
まあ,ほとんど id:seconflife さんのコードのままです。ただ id メソッドって ruby で使われているので,なんか不具合がある気がして sid とか逃げてます。ちゃんとオプションを渡せるようにしなきゃいけないんだけど,きっと誰かがやってくれるだろう。つーかもうやっていると見た。