Python+OpenCVで画像処理勉強会第一回（物体認識、背景削除）

にゃんぱすー！
大学の某サークルの画像処理関連の勉強会の内容です。

この記事では、以下の内容について語っていきます

Python + OpenCVの環境構築
OpenCVの基本的な使い方
- 画像の読み込み・表示
- カメラ画像の読み込み・表示
- 各種エフェクト
  - 二値化
  - グレースケール変換
  - エッジ抽出
  - ブラー（ぼかし）
  - 色空間変換（RGB↔HSV等）
カメラの背景画像を削除する
物体検知（機械学習を使わずに）

プログラム全体はGitHubの↓レポジトリに上がっているよ
github.com
　　

ではいこう！

環境構築
1. 画像を表示してみる
2. 各種エフェクト
3. カメラ画像を取得
4. 背景削除
5. 物体認識(画像編)
6. 物体認識（カメラ編）

環境構築

基本的にWindowsの前提で話します。Macの人は頑張って下さい（ネット上に記事が大量にあるはず）

Pythonのインストール

自分のPCでPythonプログラムが実行できるような環境を整えます

www.python.org

上記リンクから、最新のPythonをダウンロードします。2021/6/5時点では、Python3.9.5が最新なので、それをクリックします。
そして、Files節の自分のOSに合ったインストーラーをダウンロードします。

Windows→「Windows installer (64-bit)」
intel製Mac→「macOS 64-bit Intel installer」
M1 Mac→「macOS 64-bit universal2 installer」

かなぁ。（間違ってたらごめんなさい）

インストール中に、「Add Python 3.x to PATH（Pythonを環境変数に追加する）」のような表示が出たらチェックすることを忘れずに！！

インストールが正常に終わっていると、ターミナル（Windowsの人はデフォルトではコマンドプロンプト。でもWindows Terminalを入れておくことをおすすめします）で以下のコマンドを実行してみて下さい。

$ python --version
Python 3.8.5

$ pip --version
pip 20.0.2 from /usr/lib/python3/dist-packages/pip (python 3.8)

※「＄」マークは「これはコマンドだよ」というのを表す記号なので、入力しないで下さい。
※上のようにしてエラーが出る場合はpython→python3, pip→pip3に置き換えて見て下さい

上のように、バージョンが表示されればOKです

ちなみに、pipはPythonの標準パッケージインストーラーです。

pipで必要モジュールのインストール

では、そのpipを使って画像処理用ライブラリ「OpenCV」と行列計算ライブラリ「numpy」をインストールします。

$ pip install numpy
$ pip install opencv-python
$ pip install opencv-contrib-python

VSCodeの設定

Pythonの拡張機能を入れておくと便利です。補完機能や、デバッグの効率化、インデント色付け、ボタン一つでPythonプログラムを実行など色々あります。
VSCodeの左枠の拡張機能アイコン（ f:id:pythonjacascript:20210605071017p:plain ）をクリックすると拡張機能一覧が表示されるので、「Python」とかで検索していい感じのものを入れましょう

ここからが本題です。プログラミングを始めます。この記事の通りにプログラムを書いて実行していっても良いですが、このレポジトリをzipダウンロード→解凍して使ったほうが楽かも。

1. 画像を表示してみる

以下のプログラムを実行して下さい。

# https://github.com/20niship/python_opencv_lecture/blob/master/1_1_show_img%20copy.py

# OpenCVライブラリを読み込む
import cv2

# 画像を読み込んでimg変数に格納
# print(img)をするとわかるが、imgはw * h * 3の大きさのnumpy行列
img = cv2.imread("cat.jpg")

while True:
    # testウィンドウにimgを表示
    cv2.imshow("test", img)

    # 10ms待つ。その間になにかキーボードが押されたらその数値を返してkeyに代入
    key = cv2.waitKey(10)
    # print(key)

    # ESCキーやQキーが押された場合は終了する
    if key == 27 or key == 113: break

プログラムの実行の仕方は、

「hogehoge.py」みたいに「.py」拡張子で名前を付けて保存して下さい。
pyファイルと同じ位置にcat.jpgという名前で適当な画像をおいて下さい。（この記事ではこれを使います）
コマンドプロンプトで「python hogehoge.py」のように「python [スクリプトファイル名]」と打って、プログラムを実行

以下のように「test」Windowに猫の画像が表示されたでしょうか？

f:id:pythonjacascript:20210605083336j:plain

説明はスクリプトに書いてあるので読んでね。それでもわからない部分はググってね

2. 各種エフェクト

imread関数で読み込んだ画像オブジェクトに、ぼかしエフェクトを加えてみます。
以下の一文をimread関数とimshow関数の間に追加して下さい。

img = cv2.blur(img,(51,51))

「(51, 51)のサイズでimgにブラー（ぼかし）を加えて、結果をimgに代入する」、という動作

以下の画像のようになったでしょうか？
f:id:pythonjacascript:20210605090544p:plain

blur関数の第二引数を色々変えてみると、ブラーの強さが変化します
blur関数が何をやっているのかは公式ドキュメントを見てね（行列をかけてる）

今度は、キーボードの入力で適応されるエフェクトが変化するスクリプトを作ってみます。
こーんな感じ。

python_opencv_lecture/1_2_effects.py at master · 20niship/python_opencv_lecture · GitHub
　　

import cv2
import numpy as np # 行列計算ライブラリ、Numpyをインポート
key = 0

while True:
    img = cv2.imread("cat.jpg") # image read

    # 画像にエフェクトをかけていく
    if key is ord('a'): # Aが押された時
        img = cv2.blur(img,(15,31)) # 画像をぼかす（15, 35)はX,Y方向のぼかす大きさ
    elif key is ord('g'):
        img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)  # グレースケールにする
    elif key is ord('e'):
        img = cv2.Canny(img,60,200) # 輪郭抽出
    elif key is ord('x'):
        # 油絵エフェクト
        # 第二引数はsize, 第三引数はdynRatio
        img = cv2.xphoto.oilPainting(img, 7, 2, cv2.COLOR_BGR2Lab)    
    elif key is ord('h'):
        # 色空間の変換(RGB -> HSV)
        img = cv2.cvtColor(img, cv2.COLOR_BGR2HSV)
    elif key is ord('b'):
        gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)  # グレースケールにする
        ret3,img = cv2.threshold(gray,0,255,cv2.THRESH_BINARY+cv2.THRESH_OTSU) # 大津の二値化
    
    # 上のようなエフェクト組み合わせて色々作っていくよ

    # 例1：グリーンバック
    elif key is ord('w'):
        hsv = cv2.cvtColor(img, cv2.COLOR_BGR2HSV) # 色空間の変換(RGB -> HSV)
        height, width, channel = img.shape
        print(hsv[10, 10])
        for x in range(width):
            for y in range(height):
                h, s, v= img[y, x]
                if 30 < h < 70 and s > 50: # 緑色の部分は
                    img[y, x]=[255, 0, 0] # 赤色にする
    # 例2：自力で輪郭抽出
    elif key is ord('v'):
        gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)  # グレースケール化
        ret3,img_binary = cv2.threshold(gray,0,255,cv2.THRESH_BINARY+cv2.THRESH_OTSU) # 二値化
        img_binary = cv2.bitwise_not(img_binary) # ネガポジ反転（findContours関数は白い部分を検出するため）
        contours, hierarchy = cv2.findContours(img_binary, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE) # 輪郭検出
        img = cv2.drawContours(img, contours, -1, (0, 255, 0), 5) # 輪郭描画

    cv2.imshow("test", img)
    key_tmp = cv2.waitKey(10)
    if key_tmp > 0: key = key_tmp

    if key == 27 or key == 113: break

プログラムを実行して、

押したキー	内容	出力画像
A	ブラー（平滑化）
G	グレースケール（白黒化）
E	エッジ抽出
X	油絵エフェクト（こんなのもある。面白いなぁ）
H	色空間をRGBからHSVにする
B	大津の二値化（白黒二色にする）
W	緑っぽい部分を青色（RGB(0, 0, 255)) にする
V	輪郭を描画(自作スクリプト)

という処理を実行します。

3. カメラ画像を取得

PCにカメラがあれば（もしくはUSBカメラ等が繋がっていれば）、そのカメラ映像を表示することもできます。

import cv2
import numpy as np # 行列計算ライブラリ、Numpyをインポート

# VideoCapture オブジェクトを取得
cap = cv2.VideoCapture(0)
 
if cap.isOpened(): 
    # get vcap property 
    width  = cap.get(cv2.CAP_PROP_FRAME_WIDTH)   # float `width`
    height = cap.get(cv2.CAP_PROP_FRAME_HEIGHT)  # float `height`
    # 以下の方法でも可
    # width  = cap.get(3)  # float `width`
    # height = cap.get(4)  # float `height`

    fps = cap.get(cv2.CAP_PROP_FPS)

    print("camera found!")
    print(f"width={width}, height={height}, fps={fps}")
else:
    print("カメラが取得できない！")

while(True):
    ret, img = cap.read() # 現在のカメラ画像を取得

    # ここにエフェクトを追加していく

    cv2.imshow('camera',img)

    key = cv2.waitKey(10)
    if key == 27 or key == 113: break

4. 背景削除

ここからは問題形式。

f:id:pythonjacascript:20210605090013j:plain

カメラ画像から背景を削除する

Zoomのバーチャル背景みたいな機能を実装する

人がいないときのカメラ映像は持っているものとする

▼ 解決策（例）

考え方：

背景を削除したいということは、以下のアルゴリズムが必要
- 1. 背景と前景を区別する
- 2. 背景と認定された部分を塗りつぶす
- 3. 背景を塗りつぶした画像を表示

1.について：

背景画像と現在画像の色の差が一定以上担った部分を「前景」とすれば良い
- absdiff()関数使えばなんとかなりそう(2つの画像の各ピクセルの差の絶対値を求める）
- 差分が閾値以下かどうかの判別にはthreshould関数を使おう
でもこれだけだと、ノイズに弱いよね
- 例えば、偶然前景のある部分の色が背景と同じ色だった場合、そこも背景になってしまう
- 領域を膨張すればよいのでは？
- Dilation関数を使おう
まてよ、、
- 逆に、背景がすこし動いたり光の当たり方が変わって、その数ピクセルだけが誤って前景と認識されることもある？
- この場合は領域収縮のerode関数だな
- ブラーをかけるのもノイズ対策としては有効かも？

2.について

Pythonのfor文でピクセルごとに処理すれば自分でプログラムを書くことはできるが、多分めっちゃ遅くなる。
いいのないかなぁ、、、と探していたら、np.where()というのがあるのを知った。超便利！

3.について

imshowでOk

import cv2
import numpy as np # 行列計算ライブラリ、Numpyをインポート

# VideoCapture オブジェクトを取得
cap = cv2.VideoCapture(0)

width = 10
height = 10
if cap.isOpened(): 
    # get vcap property 
    width  = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))  # float `width`
    height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))  # float `height`
    # 以下の方法でも可
    # width  = cap.get(3)  # float `width`
    # height = cap.get(4)  # float `height`

    fps = cap.get(cv2.CAP_PROP_FPS)

    print("camera found!")
    print(f"width={width}, height={height}, fps={fps}")
else:
    print("カメラが取得できない！")
    import os
    os.exit()

# ここでは自分は映らない
# 背景画像を取得
ret, background = cap.read()
background_gray = cv2.cvtColor(background, cv2.COLOR_BGR2GRAY)  # グレースケールにする


#青色ブランク画像
blue_img = np.zeros((int(height), int(width), 3))
blue_img += [0,0,255][::-1] #RGBで青指定

while(True):
    ret, img = cap.read()

    #グレースケール化して、backgroundとの絶対値（背景差分）を求める
    img_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)  # グレースケールにする
    diff_img = cv2.absdiff(background_gray, img_gray)

    #二値化処理(どちらか良さそうな方を使って)
    # img_th = cv2.threshold(diff_img, 10, 255,cv2.THRESH_BINARY)[1]
    ret3,img_th = cv2.threshold(diff_img,0,255,cv2.THRESH_BINARY+cv2.THRESH_OTSU) # 大津の二値化

    # 膨張処理
    kernel = np.ones((5,5), np.uint8)
    mask = cv2.erode( img_th,kernel,iterations = 1) #縮小処理
    mask = cv2.dilate(mask,kernel,iterations = 1) # 拡大処理

    # #マスク画像を使って対象を切り出す
    result = np.copy(img)
    result[:] = np.where(mask[:height, :width, np.newaxis] == 0, blue_img, img)

    cv2.imshow('camera',img_th)
    cv2.imshow('diff',diff_img)
    cv2.imshow('result', result)

    key = cv2.waitKey(1)
    if key == 27 or key == 113: break

5. 物体認識(画像編)

問題設定

flower.jpgがある
ここから赤のチューリップを認識して四角の枠で囲もう

例：
f:id:pythonjacascript:20210605085053j:plain
　
　　

▼ 解決策（例）

考え方：

画像全体を眺めると、背景部分は緑とか黒っぽい色が多いのに対して、花の部分は赤いな
HSV変換して、色相が赤っぽいところを抽出すれば良さそう
その後、findCounters関数でバウンディングボックスを作成すればOKじゃん！

import cv2
import numpy as np

img = cv2.imread('flower.jpg') # 画像読み込み

# HSV色空間に変換
hsv_img = cv2.cvtColor(img, cv2.COLOR_BGR2HSV)

# 画像をぼかす（15, 35)はX,Y方向のぼかす大きさ
# hsv_img = cv2.blur(hsv_img,(5,5)) 
# hsv_img = cv2.GaussianBlur(hsv_img, (9, 9), 3)

h_img = hsv_img[:, :, 0]
s_img = hsv_img[:, :, 1]
v_img = hsv_img[:, :, 2]

lower_th = (0, 100, 100)
higher_th = (10, 255, 255)

img_th = cv2.inRange(hsv_img, lower_th, higher_th)
# ret, img_th= cv2.threshold(h_img, 60, 255, cv2.THRESH_BINARY)
img_th = cv2.bitwise_not(img_th) # ネガポジ反転（findContours関数は白い部分を検出するため）


# 収縮・膨張処理
kernel = np.ones((3,3), np.uint8)
mask = cv2.dilate(img_th, kernel, iterations = 1) #縮小処理（ノイズ除去）
# mask = cv2.dilate(mask,  kernel, iterations = 1) # 拡大処理（凹んだ部分を埋める）

result = np.copy(img)

contours, hierarchy = cv2.findContours(mask,cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)
# labels, contours, hierarchy = cv2.findContours(mask, cv2.RETR_LIST, cv2.CHAIN_APPROX_NONE)

print("-------------------   Counters  -----------------------")
for c in contours:
    if cv2.contourArea(c) < 300: continue # オブジェクトが小さいときは無視する
    print(c)
    x, y, w, h = cv2.boundingRect(c)
    cv2.rectangle(result, (x, y), (x + w, y + h), (255, 255, 0), 2)
print("-------------------   Counters  -----------------------")


cv2.imshow("before", img)
cv2.imshow("result", result)
cv2.imshow("threshould", img_th)
cv2.imshow("mask", mask)

cv2.waitKey(0)

6. 物体認識（カメラ編）

4.と5.を組み合わせて、以下のようなものを作る

カメラ画像を取得して、その中にある物体を検出して四角で囲む

例：
f:id:pythonjacascript:20210605091942g:plain

▼ 解決策（例）

import cv2
import numpy as np # 行列計算ライブラリ、Numpyをインポート

# VideoCapture オブジェクトを取得
cap = cv2.VideoCapture(0)

width = 10
height = 10
if cap.isOpened(): 
    # get vcap property 
    width  = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))  # float `width`
    height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))  # float `height`
    # 以下の方法でも可
    # width  = cap.get(3)  # float `width`
    # height = cap.get(4)  # float `height`

    fps = cap.get(cv2.CAP_PROP_FPS)

    print("camera found!")
    print(f"width={width}, height={height}, fps={fps}")
else:
    print("カメラが取得できない！")
    import os
    os.exit()

# ここでは自分は映らない
# 背景画像を取得
ret, background = cap.read()
background_gray = cv2.cvtColor(background, cv2.COLOR_BGR2GRAY)  # グレースケールにする


#青色ブランク画像
blue_img = np.zeros((int(height), int(width), 3))
blue_img += [0,0,255][::-1] #RGBで青指定

while(True):
    ret, img = cap.read()

    #グレースケール化して、backgroundとの絶対値（背景差分）を求める
    img_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)  # グレースケールにする
    diff_img = cv2.absdiff(background_gray, img_gray)

    #二値化処理(どちらか良さそうな方を使って)
    # img_th = cv2.threshold(diff_img, 10, 255,cv2.THRESH_BINARY)[1]
    ret3,img_th = cv2.threshold(diff_img,0,255,cv2.THRESH_BINARY+cv2.THRESH_OTSU) # 大津の二値化

    # 収縮・膨張処理
    kernel = np.ones((5,5), np.uint8)
    mask = cv2.erode( img_th,kernel,iterations = 1) #縮小処理（ノイズ除去）
    mask = cv2.dilate(mask,kernel,iterations = 1) # 拡大処理（凹んだ部分を埋める）

    contours, hierarchy = cv2.findContours(mask,cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)
    # labels, contours, hierarchy = cv2.findContours(mask, cv2.RETR_LIST, cv2.CHAIN_APPROX_NONE)
    for c in contours:
        if cv2.contourArea(c) < 50: continue # オブジェクトが小さいときは無視する
        x, y, w, h = cv2.boundingRect(c)
        cv2.rectangle(img, (x, y), (x + w, y + h), (255, 0, 0), 10)

    cv2.imshow('camera',img_th)
    cv2.imshow('diff',diff_img)
    cv2.imshow('result', img)

    key = cv2.waitKey(1)
    if key == 27 or key == 113: break