はじめに
Pythonを利用してスクレイピングをする機会があるのですが、初学者の時はとにかく何から勉強したらいいかわからないことだらけで困りました。
ざっくり感覚からでも理解したい方もいるかと思って、記事にしてみましたので参考にしてみてください。
今回の記事では、何をやるかの簡単な紹介と環境構築についてまとめています。
この記事は、windowsユーザーで
・そもそもシステム初学者
・システムに詳しくはないけどスクレイピングを使って業務効率化してみたい
な方に向けた内容になるかと思います。
どんな知識が必要か
最初に、何を学んでいけばできるのかを軽く紹介してみたいと思います。
ここは読み飛ばしても問題ないですが、へーそうなんだー程度の理解があったほうが始めやすかったりするので、気が向いたら気軽な気持ちで読んでみてください。
HTML
webスクレイピングは、web上のソースコードの情報をとってくるものなので、当然そのソースコードの骨組みであるHTMLの知識は必須になります。
スクレイピングは如何にしてHTML内の要素を取り出すかが重要なので、HTMLの構造の知識が、後々情報を取り出すときの効率に関係してきます。
webを構成する言語はHTMLの他にもCSSやJavaScriptがあり、複雑なことをしようとするとそれだけ深い知識が必要になりますが、webページを作るわけでもないので(特にシステム初心者なら)、最初はHTMLの基本の‘き’くらいを知っておけば問題ないです。
なんとなくの階層構造と属性なんかがわかれば、ひとまず目的のデータを取り出すくらいは出来ると思います。
Python
今回はPythonを利用しますので、Pythonの知識はある程度しっかりしたものが必要になります。
HTMLと違って、自分で一からコードを書く必要があるので、やりたいことに応じて必要な知識は増えていきます。
とはいえ、動かすだけなら知識の範囲はともかく、そんなに理解が難しい要素はないはずです(多分)。
pythonを選択するメリットですが
・簡潔で可読性が高い
・いい意味で自由度が低いため書き方で迷う必要がない
などが挙げられると思います。
特にスクレイピングだけできればいいスタンスでいる場合は、このあたりのメリットは非常に都合がいいです。
後々、スクレイピング以外にもっと難しいことをやろうと思ったときにも対応できる言語です。
環境構築
Python本体
Pythonにはバージョンがあり、すでに完成したコードを動かしたい場合など、特定のケースを想定するならインストールするバージョンを合わせる必要があります。
学習や業務効率化などが目的であれば最新版をダウンロードするので問題ありません。
インストールの方法は、Chromeなど、他のアプリをインストールするときと同じです。
以下のページから

最新(Stable)のバージョンを選択してインストーラをダウンロードします。
Windows版では、64bit版と32bit版があるので、使っているPCのOSのbit数に合わせます。
(bit数はWindowsボタン+Xキーの「システム」からシステムの種類を見ればわかります)
ダウンロードしたらインストーラを実行してください。
下のほうにある「Add Python ‘バージョン名’ to PATH」チェックボックスは有効にしておきましょう。
VS Code
VS Codeはプログラミング用のエディタで、Pythonを書くときに便利な機能も豊富なため、これもインストールしておきましょう。
インストール方法はPyrhon本体と同じくインストーラをダウンロードして実行です。
ダウンロードページのDownload for Windowsをクリックして、インストーラをダウンロード

ダウンロードが完了したらインストーラを起動して、「同意する」にチェックを入れてインストールします。
特に何も変えず、次へを押していくだけで大丈夫です。
インストールが完了したら、VS Codeを使いやすいように、拡張機能を追加しておきます。
日本語化
インストールが完了したら、VS Codeを使いやすいように、拡張機能を追加しておきます。
左下にあるボタンを押して、検索用のバーに「日本語」と入力し、Japanese Language Pack for Visual Studio Codeをインストールします。
(画像は著者の環境のためアンインストールと表示されています)

Python開発環境
同じように、Pythonと入力して、Pythonの開発環境(Python Extension for Visual Studio Code)もインストールします。

スクレイピングに必要なモジュール Requests / BeautifulSoup
「モジュール」は、便利なツールの集まった工具箱のようなもので、インストールするとPython本体には無い機能を補ってくれます。
詳しくは、別の記事で解説するとして、ひとまず今回はPythonスクレイピングで一般的に使われるモジュールのインストール方法だけ紹介します。
モジュールは黒い画面にコマンドを入力してインストールする必要があります。
黒い画面のことをCUI(キャラクタユーザーインターフェース)といい、Windowsでは「コマンドプロンプト」か「PowerShell」を使います。
コマンドプロンプトとPowerShellの違いですが、PowerShellの方が後発で少しだけ高機能になったものと考えておけば大丈夫です。
ここではPowerShellを使って説明します。
(厳密にはもう少し違いがありますが、長くなるため割愛)
まずCUIを呼び出します。
タスクバーの検索マークからPowerShellと入力するか、Windowsボタン+Xキーを押してメニューを出してからPowerShell(ターミナル)を選択することでPowerShellを起動できます。
次に、コマンドの入力です。
Requestsをインストールするには
pip install requests
と入力してエンターを押すだけです。
「Pip install」は、Pythonのパッケージをインストールする時に使うコマンドで、requests以外にも必要なパッケージが出てきたら都度使うので覚えておくといいです。
同じようにBeautifulSoupもインストールします。
pip install bs4
これで、一通り環境構築が完了しました。
お疲れ様です。
おわりに
Pythonのスクレイピングに関する学習は、動画や有用な記事が多くありますが、自分が諸学者の時に知りたかったことがまとまっていれば便利だったなと思うことをまとめてみました。
この記事が初学者の方の参考になっていればうれしいです。