こんばんは!
今日はスクレイピングについてまとめてみます!
スクレイピングとは
スクレイピングとは簡単に言うと「webサイトからデータを抜き取って加工して表示すること」です。
例えば、日経平均株価の数値や、オークションである商品の価格など、並べられている数値の中から欲しいものだけを抽出して、別のフォーマットとして書き出すことができます。
今までノートに手書きで写していた人がいればすごく力になってくれる技術ですね。
スクレイピングのプログラムの作成には「Python」という言語が良く使われています。
Pythonについてもう少し話すと、主に機械学習やAIのプログラム言語としてよく利用されている言語です。
「Instagram」もPythonによって作られています。(インスタが機械学習やAIの要素があるのかは使っていないので不明、、)
スクレイピングをすることによって効率的にデータを収集でき、それによって解析やマーケティングに発展することが期待できます。
ただし注意点もあって、スクレイピングは少なからずwebサイトに負荷をかけることから、そもそも禁止されている場合や、コードを工夫して負荷が出来るだけかからないようにする配慮が必要です。
また、採取したデータの取り扱いについても、事実を公開すること自体はOKなのですが、商用利用したり、加工して意図的に見せたりすることは厳禁とされています。
サイトのデータは著作物という考え方ですね。
今回スクレイピングに興味をもったのは、自社サービスの利用データについてスクレイピングを使用することで、傾向を観察したり、新たな機能のヒントになったりするのではないかと考えたのですが、調べていくうちに利用データというのもお客様のデータであるため、安易に手を出すのは危険だと感じました。
ネットの世界では便利な昨日もたくさんあるのですが、使用する上でのリスクをしっかりと把握することが大切だと再認識した次第です。
と言うわけで今日はスクレイピングについてでした。
このブログサイトに関して自分でスクレイピングする分にはなんの問題もないので、練習がてら触ってみようかな笑
それではまた!
2021.3.1
ガオ
コメント