Ramalama simplifica inferência de IA com contêineres

A Red Hat está desenvolvendo um novo projeto open source chamado Ramalama, com a missão de “tornar a IA chata”, no melhor sentido da palavra. O objetivo é simplificar ao máximo o uso de ferramentas de inferência de IA, permitindo que usuários implementem workloads de IA com facilidade e rapidez, sem complicações.

Ramalama adota contêineres OCI para facilitar a execução de workloads de inferência de IA em diferentes fornecedores de GPU, com fallback automático para inferência baseada em CPU, caso não haja suporte a GPU disponível. Além disso, a ferramenta integra-se com Podman e Llama.cpp para gerenciar tarefas mais complexas, ao mesmo tempo que busca modelos em fontes como Hugging Face e Ollama Registry. A proposta é garantir suporte nativo para GPU em hardwares da Intel, NVIDIA, Arm e Apple, além de suporte para CPU em plataformas AMD, Intel, RISC-V e Arm.

Apresentado recentemente na conferência Flock da Fedora, Ramalama foi descrito como um “companheiro entediante de IA”, destacando-se por sua abordagem prática e acessível. Em um campo dominado por inovações complexas e soluções intrincadas, Ramalama aposta na simplicidade como virtude, focando em ferramentas confiáveis e fáceis de usar.

Com um processo de instalação simplificado e comandos intuitivos para gerenciar e implantar modelos de IA, Ramalama pretende atender desde entusiastas de IA até usuários casuais de tecnologia. Apesar de ainda estar em estágio inicial de desenvolvimento, o projeto tem uma forte ênfase na participação da comunidade e no feedback dos usuários, buscando tornar a IA avançada acessível a todos.

O código de Ramalama está disponível no GitHub, e o projeto representa um esforço significativo para facilitar a execução e a implantação de diferentes modelos de IA em diversas plataformas de hardware e software. Além disso, iniciativas como o Llamafile da Mozilla também são notáveis por simplificarem a execução de modelos de IA acelerados por GPU ou CPU a partir de um único arquivo, sem depender de contêineres.

Interessados em conhecer mais sobre Ramalama podem assistir à apresentação realizada por Eric Curtin e Dan Walsh, engenheiros da Red Hat, durante a Flock 2024.