Биология на графах. Графы 'взаимодействия' генов на основе NLP анализа текстов - Антон Костин

Рассмотрим корпус биологических текстов по определенной тематике - болезнь Альцгеймера , глиобластома и тд. Обучим NLP модель (типа word2vec или более продвинутые) на выбранном корпусе. Возьмем список интересующих нас терминов - например генов. Рассмотрим эмбединги генов, которые получены данной моделью, построим по ним граф близости. После этого мы можем анализировать данный граф и пытаться понять насколько он отражает биологическую информацию. Насколько он зависит от корпуса текстов, насколько кластеры биологически осмысленны, и так далее. Об этом и будет рассказано. Разобраны ноутбуки, которые делают данное построение. Доклад является идейным продолжением предыдущего доклада    • Антон Костин - Философия на графах  
📢 Подписывайся на наше сообщество в telegram, чтобы быть в курсе мероприятий
🗨 Обсудить доклады можно в нашем чатике
Biology on graphs. Gene 'interaction' graphs based on NLP text analysis - Anton Kostin Consider a body of biological texts on a specific topic - Alzheimer's disease, glioblastoma, etc. Let's train an NLP model (like word2vec or more advanced) on the selected corpus. Let's take a list of terms we are interested in - for example, genes. Consider the embeddings of genes that are obtained by this model, build a proximity graph based on them. After that, we can analyze this graph and try to understand how much it reflects biological information. To what extent it depends on the text corpus, to what extent the clusters are biologically meaningful, and so on. This will be discussed. Disassembled laptops that make this build.

Смотрите также