Ünlü bir yapay zeka yeni bir öğrenim kazandı: Kimya nasıl yapılır

yapay zeka

Yapay zeka, araştırmacıların modern bilimsel araçların ürettiği devasa miktarda veriyi analiz etmelerine izin vererek bilimin yapılma şeklini değiştirdi. Milyonlarca saman yığını arasında bir iğne bulabilir ve derin öğrenmeyi kullanarak verilerin kendisinden öğrenebilir. AI, gen avcılığı, tıp, ilaç tasarımı ve organik bileşiklerin yaratılmasındaki ilerlemeleri hızlandırıyor.

Derin öğrenme, yeni verilerden bilgi çıkarmak için genellikle büyük miktarda veri üzerinde eğitilen sinir ağları olan algoritmaları kullanır. Adım adım talimatlarıyla geleneksel bilgi işlemden çok farklıdır. Aksine, verilerden öğrenir. Derin öğrenme, geleneksel bilgisayar programlamasından çok daha az şeffaftır ve önemli sorular bırakır – sistem ne öğrendi, ne biliyor?

Bir kimya profesörü olarak, farklı fikirleri birleştirip yeni fikirleri ve kavramları sentezleyip birleştiremeyeceklerini belirlemek için öğrencilerin bilgilerini genişleten en az bir zor soru içeren testler tasarlamayı seviyorum. Protein katlama sorununu çözen AI savunucularının poster çocuğu AlphaFold için böyle bir soru tasarladık.

Protein katlanması

Proteinler tüm canlı organizmalarda bulunur. Hücrelere yapı sağlar, reaksiyonları katalize eder, küçük molekülleri taşır, yiyecekleri sindirir ve çok daha fazlasını yapar. Bir ipteki boncuklar gibi uzun amino asit zincirlerinden oluşurlar. Ancak bir proteinin hücredeki işini yapabilmesi için bükülmesi ve bükülmesi, protein katlanması adı verilen karmaşık bir üç boyutlu yapıya dönüşmesi gerekir. Yanlış katlanmış proteinler hastalığa yol açabilir.

Christiaan Anfinsen, 1972’deki kimya Nobel kabul konuşmasında, bir proteinin üç boyutlu yapısını, yapı taşlarının dizilişinden, amino asitlerden hesaplamanın mümkün olması gerektiğini öne sürdü.

Nasıl ki bu makaledeki harflerin sırası ve aralığı ona anlam ve mesaj veriyorsa, amino asitlerin sırası da proteinin kimliğini ve şeklini belirler ve bu da işleviyle sonuçlanır.

Amino asit yapı taşlarının doğal esnekliği nedeniyle, tipik bir protein, tahminen 10 üzeri 300 farklı biçimi benimseyebilir. Bu, evrendeki atom sayısından çok daha büyük bir sayıdır. Yine de bir organizmadaki her protein, bir milisaniye içinde, proteini oluşturan tüm kimyasal bağların en düşük enerjili düzenlemesi olan kendi özel şekline katlanacaktır. Bir proteinde tipik olarak bulunan yüzlerce amino asitte yalnızca bir amino asidi değiştirin ve yanlış katlanıp artık çalışmayabilir.

AlfaKatlama

50 yıldır bilgisayar bilimciler, protein katlanma problemini çok az başarı ile çözmeye çalışıyorlar. Daha sonra 2016’da Google ana Alphabet’in bir AI yan kuruluşu olan DeepMind, AlphaFold programını başlattı. 150.000’den fazla proteinin deneysel olarak belirlenmiş yapılarını içeren eğitim seti olarak protein veri bankasını kullandı.

AlphaFold, beş yıldan daha kısa bir sürede protein katlama problemini yendi – en azından bunun en faydalı kısmı, yani amino asit dizisinden protein yapısını belirleme. AlphaFold, proteinlerin nasıl bu kadar hızlı ve doğru bir şekilde katlandığını açıklamıyor. Yapay zeka için büyük bir kazançtı, çünkü yalnızca büyük bilimsel prestij kazanmakla kalmadı, aynı zamanda herkesin hayatını etkileyebilecek büyük bir bilimsel ilerlemeydi.

Bugün, AlphaFold2 ve RoseTTAFold gibi programlar sayesinde benim gibi araştırmacılar, proteini oluşturan amino asitlerin dizilişinden proteinlerin üç boyutlu yapısını hiçbir ücret ödemeden bir veya iki saat içinde belirleyebiliyor. AlphaFold2’den önce proteinleri kristalleştirmemiz ve yapıları, aylar süren ve yapı başına on binlerce dolara mal olan bir süreç olan X-ışını kristalografisini kullanarak çözmemiz gerekiyordu.

Artık Deepmind‘in insanlarda, farelerde ve 20’den fazla başka türde bulunan neredeyse tüm proteinlerin 3B yapılarını biriktirdiği AlphaFold Protein Yapısı Veritabanına da erişimimiz var. Bugüne kadar bir milyondan fazla yapıyı çözdüler ve yalnızca bu yıl 100 milyon yapı daha eklemeyi planlıyorlar. Proteinler hakkında bilgi hızla arttı. Bilinen tüm proteinlerin yarısının yapısının 2022’nin sonunda belgelenmesi muhtemeldir, bunların arasında yeni faydalı işlevlerle bağlantılı birçok yeni benzersiz yapı bulunmaktadır.

Bir kimyager gibi düşünmek

AlphaFold2, proteinlerin birbirleriyle nasıl etkileşime gireceğini tahmin etmek için tasarlanmamıştı, ancak tek tek proteinlerin birden fazla proteinden oluşan büyük karmaşık birimler oluşturmak için nasıl birleştiğini modelleyebildi. AlphaFold için zorlu bir sorumuz vardı – yapısal eğitim seti ona biraz kimya öğretmiş miydi? Amino asitlerin birbirleriyle reaksiyona girip girmeyeceğini söyleyebilir mi – nadir ama önemli bir olay?

Floresan proteinlerle ilgilenen bir hesaplamalı kimyagerim. Bunlar denizanası ve mercan gibi yüzlerce deniz organizmasında bulunan proteinlerdir. Parıltıları hastalıkları aydınlatmak ve incelemek için kullanılabilir.

Protein veri bankasında 578 floresan protein var, bunlardan 10’u “kırık” ve floresan yaymıyor. Proteinler nadiren kendilerine saldırır, buna otokatalitik posttranslasyon modifikasyonu denir ve hangi proteinlerin kendileriyle reaksiyona girip hangilerinin tepki vermeyeceğini tahmin etmek çok zordur.

Yalnızca önemli miktarda floresan protein bilgisi olan bir kimyager, floresan yapmak için gerekli kimyasal dönüşümlerden geçmek için doğru amino asit sekansına sahip floresan proteinleri bulmak için amino asit dizisini kullanabilir. AlphaFold2’ye protein veri bankasında olmayan 44 floresan proteinin dizilerini sunduğumuzda, sabit floresan proteinleri kırık olanlardan farklı katladı.

Sonuç bizi hayrete düşürdü: AlphaFold2 biraz kimya öğrenmişti. Floresan proteinlerdeki hangi amino asitlerin onları parlatan kimyayı yaptığını bulmuştu. Protein veri bankası eğitim setinin ve çoklu dizi hizalamalarının AlphaFold2’nin kimyagerler gibi “düşünmesine” ve proteini floresan yapmak için birbirleriyle reaksiyona girmesi gereken amino asitleri aramasına olanak tanıdığından şüpheleniyoruz.

Eğitim setinden biraz kimya öğrenen bir katlama programının da daha geniş etkileri vardır. Doğru soruları sorarak diğer derin öğrenme algoritmalarından başka neler kazanılabilir? Yüz tanıma algoritmaları hastalıklar için gizli işaretler bulabilir mi? Tüketiciler arasındaki harcama modellerini tahmin etmek için tasarlanan algoritmalar, küçük hırsızlık veya aldatma eğilimi de bulabilir mi? Ve en önemlisi, bu yetenek ve diğer AI sistemlerindeki benzer yetenek sıçramaları arzu edilir mi?