GithubHelp home page GithubHelp logo

mishima-syk / py4chemoinformatics Goto Github PK

View Code? Open in Web Editor NEW
217.0 16.0 85.0 34.63 MB

Python for chemoinformatics

License: Other

Jupyter Notebook 99.98% Shell 0.02%
chemoinformatics scikit-learn cheminformatics python rdkit jupyter

py4chemoinformatics's Introduction

badge logo

目次

py4chemoinformatics
  • RDKitとは?

  • 対象読者

  • 本書のコードについて

  • おまけ

  • 謝辞

  • License

  • Anacondaとは

  • Anacondaのインストール方法

  • 仮想環境の構築とパッケージのインストール

  • インストールしたパッケージの説明

  • Condaについてもう少し詳しく

  • Pythonの基礎

  • Jupyter notebookで便利に使おう

  • Pythonで機械学習をするために

  • ChEMBL

  • PubChem

  • ChEMBLで欲しい情報を検索する

  • その他有用なデータベース

  • SMILESとは

  • 構造を描画してみよう

  • 複数の化合物を一度に取り扱うには?

  • ヘテロシャッフリングをしてみる

  • 化合物が似ているとはどういうことか?

  • 類似度を計算する

  • バーチャルスクリーニング

  • クラスタリング

  • Structure Based Drug Design(SBDD)

  • 主要な骨格による分類(MCS)

  • Matched Molecular PairとMatched Molecular Series

  • Cytoscapeを使ってMMPネットワークを可視化する

  • Chemical Spaceとは

  • ユークリッド距離を用いたマッピング

  • tSNEをつかったマッピング

  • 化合物の距離情報に基づいたクラスタリング(HDBSCANを使ってみる)

  • 予め定義したケミカルスペースに新しいデータを足したい

  • 効果ありなしの原因を考えてみる(分類問題)

  • 薬の効き目を予測しよう(回帰問題)

  • モデルの適用範囲(applicability domain)

  • ディープラーニングに関して

  • TensorFlowとKerasについて

  • インストールしてみよう

  • Google colabとは

  • DNNを利用した予測モデル構築

  • 記述子を工夫してみる(neural fingerprint)

  • さらに学ぶために

License

This document is copyright © 2019 by @fmkz___ and @iwatobipen

CC-BY-NC-SA

py4chemoinformatics's People

Contributors

iwatobipen avatar kzfm avatar mnagaku avatar yamasakih avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

py4chemoinformatics's Issues

LBVS

ZINCのデータを使ってLBVSをやってみるというサブセクションを類似性の章に入れるのを検討する

2章のconda仮想環境構築の必要性

2章のconda仮想環境構築の必要性は初心者にわからないので説明を入れるか削除するかどちらかの対応を行ったほうがよろしいと思います。

ch03気になる部分

全体を通して、句点がある/ないセクションが混在していて気になります…

  • みんなのPython 第4版
    Javascript,Java カンマ後に半角スペースが欲しい

  • その他ローカルコミュニティなど
    『勉強会やコミュニティのあつまり』 -> 『勉強会やコミュニティの集まり

  • udemy/python
    『周りの評判を効いてみても』 -> 『周りの評判を聞いてみても』

  • Qiita
    『大抵答えが見つかるとはず』突然のヒロシ調! -> "と"を削除、『大抵答えが見つかるはず』

  • Jupyter notebookで便利に使おう 以降、Pythonで機械学習をするために も
    Jupyter notebook, jupyter notebook が混在していて気になる。別に気にならないなら放置でも。本質とは関係ないし。

  • Pythonで機械学習をするために
    chemoinformatics カタカナ表記で統一かと思ってたけど違うのかしら?

English version

It is useful for translate the document from Japanese to English for some people....
This is not issue, just memo.

文体統一

「である調」か「ですます調」に統一する必要がある。

ch01気になっている

  • 化合物デザインはイノベーティブ
    『どのような化合物を作るべきか?、またそれをどのように化合物を合成するか?』
    『どのような化合物を作るべきか?、またそれをどのように合成するか?』?

  • 化合物関連データベースの歴史
    公開データベースがないという状況はオープンネスを失わせる要員の一つでした
    要因

  • おまけ2
    全体で『ケモインフォマティクス』と統一されているので(たぶん)、
    『chemoinformatics, bioinformaticsと括る』のところが毎度気になります。気にしすぎ?
    Chemoinformatics or Bioinformatics? はもちろんそのままで良いと思いますし、これに沿った記載なのかも知れませぬが…

ch01タイポ

そういう領域に対してもAIと呼ばれるものが進出がここ数年(2017-2019)で急速に進みました。
↓ こうでしょうか?
そういう領域に対してもAIと呼ばれるもの進出がここ数年(2017-2019)で急速に進みました。

ch02気になる部分

  • Anacondaのインストール方法
    『アナコンダの公式サイト』ってここだけ急に日本語!
    『ついでLinuxであれば』の前に謎のスペースが!

  • インストールしたパッケージの説明、RDKit
    オープンソースソフトウェア(OSS) -> "("が全角、")"が半角。最初の"("を半角にすれば気にならない

  • git
    『本書ではgitについては説明しませんのでもしGitについて全然知らない』 タイトルも含め、git, Gitが混在してましゅ

  • Condaについてもう少し詳しく
    『本書執筆時点でconda-forgeで配布されているRDKitのパッケージが要求するPythonのバージョンが3.6となっています』 なんか気になる

9章 注釈

  • confusion matrixとは
  • F1スコアとは
  • R2スコアとは
  • インピーダンスミスマッチとは

F1スコア、R2スコアの計算結果・値は見れないですか?AsciidocはMarkdownだから、コマンドの評価した結果は見れないですかね?

8章の事例面白くない

いくつかの異なる製薬企業で同じターゲットが骨格かぶっているかいないかの例に変更する

DLの章で説明不足なところ

page 44 : KerasとTensorflowでどちらがどちらを内包している関係なのかがわかりません。Kerasの中でTensorflowが動いているのか、TensorflowがKerasを動かしているのか?
page 44 : 隠れ層が"分岐"というところがあまりイメージできませんでした。1つのシナプスが次のレイヤーの複数のシナプスにつながるところですか?深層学習では一般的に言われているフレーズでしょうか?
page 51 : Epochsは増やしすぎると過学習するというのは知らなかったのですが、何か参考文献はありますか?
page 53 : DNNが自動で特徴量を作るという説明(例えば画像でSIFTを使わずPrimitiveなデータ(ピクセル?)のまま古典的な機械学習手法を使うとうまくいかなかったのでしょうか?変数選択はあらゆる機械学習手法が自動でやってそうですが)

ch01おまけ2

chemoinformatics,bioinformatics の部分、カンマの後ろに半角スペースが欲しいです

ch06 で計算されている Fingerprint が FCFP4

ch06 で

今回はこのECFP4(Morgan2)を利用した類似性評価をしてみましょう。

と書いてありますが

apx_fp = AllChem.GetMorganFingerprint(apx, 2, useFeatures=True)
rvx_fp = AllChem.GetMorganFingerprint(rvx, 2, useFeatures=True)

と、 useFeatures=True となっており FCFP4 で計算されていると思います。
あと Jupyter Notebook の方では

fp1 = AllChem.GetMorganFingerprint(mol1, 2, useFeatures=True)
fp2 = AllChem.GetMorganFingerprint(mol2, 2, useFeatures=True)
DataStructs.TanimotoSimilarity(fp1, fp2)

と書かれてこちらも useFeatures=True となっています。
PDFの方では fp1, fp2 を発生させるところは省略されていますがこれは意図しているのでしょうか?
ミスでしたら追加してあげた方が良いと思いました。いかがでしょう?

[pdf]気になる点についていくつか

・「RDKitで構造情報を取り扱う」の最初に本章のJupyter notebookへのリンクがあり、
とても便利と感じました。他の章でも、同様のリンクがあれば更に便利だと思いました。
・各セルの出力内容の記載がある場合とない場合があり類推して読むことがありました。

以下は個人的要望ですので参考程度でかまいません。
・個人的に、この入門書を読んだ後に読み進むべき文献や勉強方法があると感激します。
・実際の業務での流れの一例(解説した章のまとめになるもの?)があると感激します。
ケモインフォマティシャンが周りにいない人(自分ですが)は、実際に行われた流れ(に近いもの)があれば、
とても勉強になりますし、こういう話は集会に参加することでしか得られない情報となりがちで貴重に思います。

ch02 RDKit日本語サイトのこと

最近では日本語での解説サイトも増えてきており初学者の導入のハードルも低くなってきています。

インストレーションの章で説明すること?

LICENSEを明記

リポジトリには含めているけどpdfには表記されていないのでライセンスのサブセクションを追加する

ch07 MCSの説明

最大共通部分構造Maximum Common Substructure(MCS)探索はケモインフォマティクスの分野でよく利用される手法です。これは、類似性探索、クラスタリング、分子のアライメントなどに有効です。

はMCSを説明していない

誤植・注釈など

みなさま、執筆お疲れ様です。
先日のMishima.sykではお世話になりました。
ケモインフォは素人ですが、非常に読みやすく、一気に読み通せました。
幾つか気になった点があったので、フィードバックしてみます。

誤植

  • page 29 : SMIRKS → SMILES
  • page 31 : つかて → 使って
  • page 37 : 覚えてしまうと よいです → 覚えてしまうとよいです(半角スペースが他にも入っているかもしれません)
  • page 40 : ChEMB → ChEMBL
  • page 44 : SupportVectorMachine、LogisticRegiression、ArtificialNeuralNetwork → Support Vector Machine、Logistic Regiression、Artificial Neural Network
  • page 53 : UnderEstimate → Under Estimate(または、「過小評価」?)
  • page 44,49 : ディープラーニグ、ディープラニング、ディプラーニング → ディープラーニング
  • page 45 : Thensorflow → Tensorflow(コードのほうにもthensorflowという記述があるのですが、コレはどっちが正しいですか?)
  • page 46 : Coalb → Colab
  • page 51 : 用意おり → 用意されており
  • page 51 : Backprobagation → Backpropagation/Back Propagation/Back-propagationなど

注釈が欲しい箇所

  • page 30 : スキャフォールドとは
  • page 42 : confusion matrixとは
  • page 42 : f1スコアとは(あとF1と書いた方がいいかも?)
  • page 43 : R2スコアとは
  • page 43 : インピーダンスミスマッチとは
  • page 49 : One-hotベクトルとは
  • page 55 : 生成モデルとは(よくある識別モデルとの対比みたいな説明を入れるのはどうでしょうか)

表記ゆれ

  • page 31 : smilesが小文字
  • page 45,46,54 : Github → GitHub

その他気になった点

  • page 23 : 自分は専門外なのですが、フィンガープリントは部分構造をベクトル化させたもの、SMILESはそれを記述したファイルの種類(拡張子)、という理解であってますか?SMILESとの対応がわかりませんでした。
  • page 42,43 : F1スコア、R2スコアの計算結果・値は見れないですか?AsciidocはMarkdownだから、コマンドの評価した結果は見れないですかね?
  • page 44 : KerasとTensorflowでどちらがどちらを内包している関係なのかがわかりません。Kerasの中でTensorflowが動いているのか、TensorflowがKerasを動かしているのか?
  • page 44 : 隠れ層が"分岐"というところがあまりイメージできませんでした。1つのシナプスが次のレイヤーの複数のシナプスにつながるところですか?深層学習では一般的に言われているフレーズでしょうか?
  • page 51 : Epochsは増やしすぎると過学習するというのは知らなかったのですが、何か参考文献はありますか?
  • page 53 : DNNが自動で特徴量を作るという説明(例えば画像でSIFTを使わずPrimitiveなデータ(ピクセル?)のまま古典的な機械学習手法を使うとうまくいかなかったのでしょうか?変数選択はあらゆる機械学習手法が自動でやってそうですが)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.