webスクレイピングをする際にデータをまとめ、それをデータセットにまで加工する方法を教えてください |
いい質問ですね。Webスクレイピングで得たデータを 機械学習に使えるデータセット に加工するには、以下のような流れを踏むと効率的です。 1. 目的の明確化
2. データ収集(スクレイピング)
3. データの整形スクレイピングしたデータはそのままだと機械学習に使いにくいので、整形します。
4. データのラベル付け
5. データの保存形式
6. 前処理と拡張
7. データセットの分割
まとめWebスクレイピングからデータセットにする流れは、
を順番にやるのが王道です。 もしよければ、あなたが考えている どんなタスク用のデータセットを作りたいのか(テキスト?画像?分類?予測?)を教えていただけますか? |
|
|
この記事へのコメント