class: middle # Creative Lab. 人工知能(機械学習)システムの開発と
ワークショップ
公開版 .right[2019/07/13] .right[Yuu Ito] --- # Agenda ## 15:00 - 16:00 - AI、機械学習を扱うシステム開発の現場 - 取り組むために準備していること ## 16:00 - 17:00 - 探索的データ解析(EDA)の体験ワークショップ わからない点、意見などありましたら 随時コメントください 😁 --- # 自己紹介 - 伊藤 雄 (ITO Yuu) - フリーランス Web エンジニア - 経歴 - 2007 ~ 2012 会津大学、同大学院 - コンピュータサイエンスについて学ぶ。 - 講義はそこそこに、OBの立ち上げた受託開発会社でPGとしてアルバイト - 2012 ~ 2017 - 東京のインターネット事業会社に入社 - Webサービス開発、サービスインフラの運用管理、ネット広告配信ロジックの開発を行う。 - 知識のベースとなる、統計学、機械学習についてはここ時期に学ぶ。 - 2017~ 現在 - フリーランスに転向し、複数の企業でデータ解析、分析基盤の構築を行っています。 --- # 主な仕事内容 - データ分析基盤構築 - データ分析のためのシステム構築、運用など - データ分析 - サービスに価値を見出すデータかどうか調査、判断 - 事前分析、トライアル分析 - ウェブシステム開発 - 分析結果を元にシステムを構築する --- # 過去案件例: DWHサービスを基盤とした分析システムの構築 - DWH(データウェアハウス) > [引用](www.advanlink.co.jp/crmconsultation/crm_dwh.html) > データウェアハウス(DWH)とは、意思決定のために、基幹系などの複数システムから、必要なデータを収集し、目的別に再構成して時系列に蓄積した統合データベースで、データ分析や意思決定に役立てます。 - 主なDWHサービス、製品 - [Google BigQuery](https://cloud.google.com/bigquery/?hl=ja) - AWS Redshift / Athena - [Amazon Redshift](https://aws.amazon.com/jp/redshift/) - [Amazon Athena](https://aws.amazon.com/jp/athena/) - IBM Puredata (Netteza) - [IBM PureData System for Analytics](http://www.ctc-g.co.jp/solutions/ibm_puredata_a/index.html) - DWHにデータを実際にロードする方法としてETL(Extract/Transform/Load) が重要です。 --- # 過去案件例: (非公開にしました) - 当日紹介したリンク: - 単純ベイズ分類器 - [Wikipedia](https://ja.wikipedia.org/wiki/%E5%8D%98%E7%B4%94%E3%83%99%E3%82%A4%E3%82%BA%E5%88%86%E9%A1%9E%E5%99%A8) --- # AI / 機械学習 とは -- ## AI(人工知能) - 人が行う作業を代わりに行う装置 歴史しては長く、 幅広い用途で利用される言葉になるため、 結局何を意味する用語なのかわからないので、個人的にはあまり使わない... 😅 -- ## 機械学習 - 正しくは統計的機械学習 - データの値や出現する確率、データ間の関係性を元に、データの値を推定するもの - AIの実現する仕組みの一つ --- class: middle, center # AI・機械学習システムの要件のハマりどころ --- # 企画の段階で気づきたいPOINT - データ不足していないか、整備する必要があるか - 開発を開始した時点でデータが無いと予定している仕組みで実現できるのかわかりません。 - 企画の段階である程度把握し、事前に分析する必要があります。 - 利用者を無視したシステムを作っていないか。 - 利用者のスキル、用途が考慮されていないことで活用できないシステムを作ってしまうこと。 - 内部で動作する仕組みについての説明、用途に合わせた動作が実現できているか考える必要があります。 - 人工知能、機械学習は本当に必要か? - 複雑な仕組みが必ずしもビジネス課題を解決するためのベストではない。 - AIという手段を利用することが目的となっていないか --- class: center # 顧客が本当に必要だったもの
- 顧客が期待した通りのシステムとして完成しなかった原因は、開発側の勝手な思い込みや都合の押し付けだと思いきや、そもそも最初に顧客が説明した要件からしてズレていた、というオチ。 - 一般的なシステム開発はもちろん、AI/機械学習を扱ったシステムにも同様の問題が起きうる(むしろ多いのでは?) --- # まとめ: 機械学習プロジェクトに関わるために準備できること - 機械学習、AIは魔法でないことを理解すること - できること、できないことの理解 --- # 参考リンク・書籍の紹介 ある程度プログラミングができるがどこから始めたらいいか困っている人向け - 統計の基礎(データの読み方、判断の仕方) - ハンバーガー統計学 http://kogolab.chillout.jp/elearn/hamburger/ - アイスクリーム統計学 http://kogolab.chillout.jp/elearn/icecream/index.html - 代表値、統計的仮説検定の初歩が理解できます。 - データ解析のための統計モデリング入門 - https://www.amazon.co.jp/dp/400006973X - データの特徴を理解し、適切なモデリングを行うための考え方、手法が学べます。 --- # 参考リンク・書籍の紹介 ある程度プログラミングができるがどこから始めたらいいか困っている人向け - kaggle - https://www.kaggle.com/ - データサイエンスコンペサービス - コンペだけでなく、世界中の優秀なデータサイエンティストのディスカッションの場。 - コンペで優勝したモデルが見れたりします。 --- # 参考リンク・書籍の紹介 ビジネスで利用したい人向け - 書籍:機械学習 - 仕事ではじめる機械学習 - https://www.amazon.co.jp/dp/4873118255 - 機械学習について広く浅く紹介し、後半では実践的な内容もあります。 - 人工知能システムのプロジェクトがわかる本 - https://www.amazon.co.jp/dp/4798154059 - 企画から運用まで。開発者よりもプロジェクトリーダー、マネージャーにも読んでほしい。 --- # まとめ - AI(機械学習)システムとは人が行う処理を代わりに行う装置 - 魔法ではない。向き不向きがある。 - 判断するためには基礎を学ぶ必要があります。 --- class: middle, center # Session1 終了。休憩できるかな? しつもんあればどうぞ! --- class: middle, center # Session2: ワークショップ ## 探索的データ分析の体験 --- # 探索的データ分析 - Explonatory Data Analysis(略してEDA) - 問題解決する前に、どのようなデータセットを扱っているのか、 どのような状況にあるのかを、理解するのが重要。 - まずはデータに触れてみて、データを視覚化したり、データのパターンを探したり、 特徴量やターゲットの関係性/相関性を感じるとるのが目的です。 --- # 探索的データ分析の体験 - 以下の2つのリンクを開いて実行してください。 - https://www.kaggle.com/uciml/breast-cancer-wisconsin-data - 短縮URL https://bit.ly/2rfKt2I - New Kernel からKernelを起動してください。 - https://nbviewer.jupyter.org/gist/u110/e53fe58136b5fc5ce5c47c4887c7b1e2 - 短縮URL https://bit.ly/2NNi9Dq - In[xxx]: と書いてある箇所がプログラムコードになります。 ボリューミーなので、データ可視化あたりまでできたらよいなと。 時間に余裕あれば、 後半の特徴量エンジニアリング、 モデルへの適用とモデル評価も試してみてください。 --- class: middle, center # ありがとうございました。