Please use this identifier to cite or link to this item:
http://repositorio.yachaytech.edu.ec/handle/123456789/736
Title: | The Yggdrasil Project: organic reaction prediction with a custom-developed feedforward neural network and a tailored database |
Authors: | Terencio, Thibault Castro Angamarca, Jonnathan Ariel |
Keywords: | Redes neuronales Aprendizaje automático Cognitio Neural network Machine learning Vaticinor |
Issue Date: | Apr-2024 |
Publisher: | Universidad de Investigación de Tecnología Experimental Yachay |
Abstract: | Esta tesis presenta el proyecto Yggdrasil, cuyo objetivo es aplicar el aprendizaje automático para predecir reacciones químicas orgánicas mediante el desarrollo y validación de un modelo de red neuronal. El proyecto se estructura en dos fases principales: Cognitio y Vaticinor. En la fase Cognitio, un subconjunto de la base de datos USPTO_MIT fue procesado y adaptado para el aprendizaje automático, aumentado con cálculos de la Teoría del Funcional Densidad, para formar un conjunto de datos adecuado para el entrenamiento del modelo. La fase Vaticinor consistió en el diseño, desarrollo y validación del modelo de red neuronal, centrándose en la capacidad del modelo para predecir reacciones orgánicas con precisión. Utilizando sólo el 0,375% de la base de datos USPTO_MIT, el proyecto logró una precisión de prueba del 32,33% y una precisión de validación cruzada del 29,39%. El análisis determinó que el conjunto de características "Correlación fuerte" era el que ofrecía el mejor rendimiento, lo que subraya la importancia de la selección estratégica de características para mejorar la precisión predictiva y la capacidad de generalización del modelo. Los resultados ilustran la viabilidad y el potencial del uso del aprendizaje automático para la predicción de reacciones orgánicas. La dirección futura del proyecto Yggdrasil incluye: • La ampliación de la base de datos para mejorar la robustez del modelo. • La integración de todos los scripts de Cognitio para la optimización de procesos. • La adición de información estereoquímica al conjunto de datos. • El perfeccionamiento del modelo para cubrir una gama más amplia de reacciones orgánicas. Esta tesis destaca la importancia de la preparación de datos, la selección de características y la validación de modelos en el aprendizaje automático y la química computacional. Los códigos que componen el Proyecto Yggdrasil fueron escritos en Python3.10 y Bash y están disponibles en el repositorio GitHub: https://github.com/jcastro7732/Yggdrasil-Project |
Description: | This thesis presents the Yggdrasil project, which aims to apply machine learning to predict organic chemical reactions by developing and validating of a neural network model. The project is structured into two main phases: Cognitio and Vaticinor. In the Cognitio phase, a subset of the USPTO_MIT database was processed and tailored for machine learning, augmented with Density Functional Theory calculations, to form a suitable dataset for model training. The Vaticinor phase involved the design, development, and validation of the neural network model, focusing on the model's ability to predict organic reactions accurately. Using only 0.375% of the USPTO_MIT database, the project achieved a test accuracy of 32.33% and a cross-validation accuracy of 29.39%. The analysis identified the 'Strong Correlation' feature set as yielding the best performance, emphasizing the importance of strategic feature selection in enhancing the model's predictive accuracy and generalization capability. The results illustrate the feasibility and potential of using machine learning for organic reaction prediction. Future direction for the Yggdrasil project includes: • Expanding the database to improve model robustness. • Integrating all Cognitio's scripts for process optimization. • Adding stereochemical information to the dataset. • Refining the model to cover a broader range of organic reactions. This thesis highlights the importance of data preparation, feature selection, and model validation in machine learning and computational chemistry. The codes that compose the Yggdrasil Project were written in Python3.10 and Bash and are available in the GitHub repository: https://github.com/jcastro7732/Yggdrasil-Project |
URI: | http://repositorio.yachaytech.edu.ec/handle/123456789/736 |
Appears in Collections: | Química |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
ECQI0159.pdf | 2.31 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.