はじめに
Pythonを利用してスクレイピングをする機会があるのですが、初学者の時はとにかく何から勉強したらいいかわからないことだらけで困りました。
ざっくりと、感覚からでも理解したい方もいるかと思って、記事にしてみましたので参考にしてみてください。
今回の記事では、スクレイピングでよく使うプログラミングの基礎知識を、実際のコードで解説しています。
前回の記事はこちら
この記事は、windowsユーザーで
・プログラミング初心者
・プログラミングに詳しくはないけどスクレイピングを使って業務効率化してみたい
な方に向けた内容になるかと思います。
環境/前提知識
・Windows11環境(10環境でも可能です)
・Visual Studio Code
・ローカルPCでPythonを使える環境構築が完了している
→環境構築と前提知識についてはこちらの記事を参照してください
利用するコード
import requests
from bs4 import BeautifulSoup
url = 'https://fukugyo-shacho.jp/blog'
responce = requests.get(url)
soup = BeautifulSoup(responce.text, 'html.parser')
title = soup.find('h1')
print(title.text)
変数
変数は、データに名前を付けて収納できる箱のような機能で、Pythonでプログラミングをするなら高頻度で使います。
サンプルのコードを見てみましょう。
url = ‘https://fukugyo-shacho.jp/blog’
この例では、文字列のデータ’https://fukugyo-shacho.jp/blog’に「url」という名前を付けています。
下の画像のようなイメージで捉えるとわかりやすいかもしれません。

このコードの「url」のように、データを収納できるように名前を付けた箱を変数といいます。
また、データを収納することを代入といいます。
代入したデータは、呼び出して使うことができます。
例えば。今回のコードでは、こんな風に呼び出して使っています。

この文では、収納したurlのwebページにリクエスト(アクセス)して、HTMLを取得するために使っています。
「requests.get」の部分は、まだ分からなくても大丈夫です。
まずは、代入したデータを呼び出せることだけ覚えておきましょう。
変数の名前はある程度自由につけることができますが、Pythonでよく使う単語や、数字から始まる名前を付けることはできません。
変数名は、後でコードを見直したときに読みやすくなるように付けるのがセオリーです。
データ型
変数を使うときに一緒に覚えておきたいのが「データ型」です。
変数に代入できるデータには種類があります。
文字列 str型
例えば、urlという変数には、’https://fukugyo-shacho.jp/blog’というアドレスを入れました。
よく見ると、’’(クォーテーション)で囲んであります。
こんな風にクォーテーションで囲まれたデータのことを文字列と呼んでおり、文字列は「str型」というデータ型に分類されています。
“”(ダブルクォーテーション)で囲っても文字列になります。
url = “https://fukugyo-shacho.jp/blog”
数字であっても、クォーテーションで囲ってあれば文字列です。
foo = ‘3’
整数と浮動小数点 int型とfloat型
変数には数値のデータを代入することもできます。
クォーテーションで囲わずに直接数値を代入するだけです。
number = 3
この例では、3という整数を代入しているため、int型に分類されます。
同じように、少数も代入することができます。
float_number = 0.1415
こんな感じで浮動小数点がついていたら、float型に分類されます。
3.0のような数値も浮動小数点がついているので、float型です。
float_number = 0.1415
おわりに
今回は変数とデータ型についての解説です。
変数には、他にもbool型(真偽値)datetime(日付)などのデータ型がありますが、ひとまず文字列と数値だけ覚えておけば大丈夫です。
配列や辞書については別の記事で解説する予定です。