Estamos em 2021 e quando falamos em tendências de mercado podemos incluir o aprendizado de máquina no topo da lista, segundo uma pesquisa feita pela Glassdoor, o cargo de Cientista de Dados é o segundo colocado da lista de melhores empregos na América para 2021, além disso, em pesquisa feita pela Algorithmia, 76% das empresas priorizam a inteligência artificial e o aprendizado de máquina nos orçamentos de TI de 2021. Parece atrativo, não é?
Porém, não é de hoje que essa subárea da inteligência artificial está em alta, ao longo dos anos ela vem mostrando sua importância na medida em que possibilita realizar tarefas árduas e/ou impossíveis para o ser humano além de contribuir no aprimoramento das mais diversas técnicas e processos existentes.
Mesmo tendo grande influência na vida da maior parte das pessoas, pouquíssimas dessas sabem de fato do que se trata, como ela está inserida no nosso dia a dia e o quão poderosa é.
Mas se você é uma das pessoas interessadas em descobrir sobre essa área, leia esse artigo até o final porque nele você vai descobrir o que é o aprendizado de máquina, métodos de aprendizado, aplicações e tudo o que você precisa para conhecer um pouco mais desse mundo.
1. O que é o Aprendizado de Máquina?
Em 1959, Arthur Lee Samuel, engenheiro do MIT definiu o aprendizado de máquina como “um campo de estudo que dá aos computadores a habilidade de aprender sem terem sido programados para tal”. Vamos entender o que isso quer dizer a seguir.
Quando estamos criando um modelo de aprendizado de máquina não informamos ao computador os passos a seguir para que ele aprenda o que precisa, isso porque o conhecimento é adquirido, no geral, a partir de modelos estatístico/matemáticos que reconhecem padrões em dados, criando a possibilidade que eles aprendam com seus erros e façam previsões em cima do que foi aprendido. Esses modelos podem ser definidos por diferentes formas de aprendizado e elas serão tratadas na seção a seguir.
2. Tipos de Aprendizado
Cada um dos itens abaixo vai explicar detalhadamente as principais formas que uma máquina pode aprender, elas irão compor o ecossistema do aprendizado de máquina, de forma que seja possível resolver diferentes problemas baseado nas abordagens que mais se encaixem a elas.
2.1. Aprendizado Supervisionado
O aprendizado supervisionado é um paradigma de aprendizado de máquina, que tem como objetivo adquirir informações de relacionamento entre entrada e saída de um sistema, baseado em um conjunto de amostras de treinamento.
Um algoritmo de aprendizado supervisionado analisa os dados de treino e produz uma função inferida que será utilizada para mapear novos exemplos. Para deixar menos abstrato, vamos considerar um exemplo, a classificação de e-mails como spam.
Provavelmente, você utiliza e-mail e sabe que conteúdos maliciosos são quase sempre enviados para uma pasta específica, com o objetivo de te proteger. Mas como isso acontece?
A experiência que permite você não precisar classificar quais e-mails são maliciosos ou não, é proporcionada por um modelo de classificação que é baseado em entradas rotuladas. Nessas entradas, possuímos e-mails classificados como confiáveis ou não, dessa forma, o modelo irá aprender a reconhecer a classe que um novo dado pertence baseado no que já aprendeu sobre esses dados rotulados.
Porém, pode te bater aquela curiosidade, por que então o meu provedor de e-mail ainda me pergunta se a mensagem que eu recebi é ou não um spam? Apesar de já existirem modelos confiáveis treinados em cima de enormes conjuntos de dados, a sua validação permite que esse modelo seja aprimorado cada vez mais, permitindo que essa não seja uma preocupação sua.
O exemplo acima demonstra como seria um problema de Classificação, mas vale lembrar que existe outra gama de problemas que podem ser denominados como problemas de Regressão. Para que não sobrem dúvidas do que se trata cada um desses tipos de problemas, eles estão definidos abaixo:
Classificação
A classificação é o processo de categorizar um determinado conjunto de dados em classes. No exemplo da classificação de e-mails como spam, teríamos um exemplo de classificação binária, no qual o modelo através dos dados fornecidos, precisaria gerar como resposta se o e-mail é spam ou não.
Alguns dos algoritmos mais famosos são:
- KNN
- Naive Bayes
- Logistic Regression
- Support Vector Machines
- Decision Trees
Regressão
Os modelos de regressão são utilizados quando queremos prever valores, por exemplo, prever o preço de uma casa ou o número de produtos que serão vendidos em determinado mês.
Os modelos de regressão são dos mais diversos e suas possibilidades são descritas pela imagem abaixo:
Imagem 1-Introdução a regressão e suas possibilidades. Link de acesso.
Analisando a imagem acima podemos perceber que a primeira subdivisão dos modelos de regressão diz respeito ao número de variáveis envolvidas, modelos de regressão simples envolvem apenas uma variável e os múltiplos duas ou mais. Em seguida, para cada um dos tipos descritos ainda existe outra ramificação que divide esses modelos em lineares ou não lineares.
Alguns modelos são famosos para realizar regressão, são eles:
- Linear Regression
- Polynomial Regression
- Logistic Regression
- Principal Components Regression (PCR)
2.2. Aprendizado Não Supervisionado
O aprendizado não supervisionado consiste em treinar uma máquina a partir de dados que não estão rotulados e/ou classificados. Os algoritmos que fazem isso buscam descobrir padrões ocultos que agrupam as informações de acordo com semelhanças ou diferenças, por exemplo.
Para que isso fique mais claro, vamos imaginar um algoritmo de aprendizado não supervisionado, que receba uma imagem contendo cachorros e gatos.
Ao receber essa imagem nada se sabe sobre as características que cada animal possui, ou seja, não é possível categorizá-los. Porém, esse algoritmo será responsável por descobrir semelhanças, padrões e/ou diferenças que permitam diferenciar cães e gatos.
No exemplo citado anteriormente utilizamos uma técnica chamada de agrupamento (Clustering), porém existem outras técnicas como regras de associação (Association Rules) e redução de dimensionalidade (Dimensionality Reduction). Falaremos um pouco de cada uma delas abaixo.
Agrupamento
A técnica de agrupamento como explicado no exemplo anterior, consiste em agrupar dados não rotulados com base em suas semelhanças ou diferenças. Esses algoritmos de agrupamento ainda podem ser subdivididos em agrupamentos exclusivos, sobrepostos, hierárquicos e probabilísticos.
Regras de Associação
Ao usar as regras de associação, buscamos descobrir relações que descrevem grandes porções dos dados. A associação é muito utilizada em análises de cestas de compras, no qual a empresa pode tentar entender relações de preferências de compras entre os produtos.
Quando falamos de algoritmos para gerar regras de associação os principais são: Apriori, Eclat e FP-Growth.
Redução de dimensionalidade
Existem casos nos quais ao estudar um conjunto de dados, podemos encontrar nele um grande número de recursos (dimensões). Por mais que existam situações onde isso é positivo, o excesso pode impactar o desempenho dos algoritmos causando, por exemplo, o overfitting.
Utilizando a técnica de redução de dimensionalidade, será feita uma redução no número de recursos, de forma que torne-os gerenciáveis por parte do modelo, além de preservar a integridade dos dados.
E para executar essa tarefa existem algumas técnicas que podem ser utilizadas, como: Missing Values Ratio, Low Variance Filter, High Correlation Filter, Random Forests / Ensemble Trees, Principal Component Analysis (PCA), Backward Feature Elimination e Forward Feature Construction.
2.3. Aprendizado por reforço
Para entendermos melhor como funciona o aprendizado por reforço usaremos a seguinte imagem para ilustrar qual é o princípio.
Imagem 2- Modelo de aprendizado por reforço. Link de acesso.
O primeiro passo é definir os elementos presentes na imagem, o agente (Agent) é aquele que toma as decisões com base nas recompensas e punições, esse agente pode realizar uma ação (Action) que irá variar de acordo com o contexto. O ambiente (Environment) é o mundo físico ou virtual em que o agente opera, a recompensa (reward) é o feedback do ambiente baseado na ação tomada e o estado (state) é a situação atual do agente.
A imagem acima demonstra um exemplo de como o aprendizado por reforço pode ser utilizado. Nesse caso, o robô é o nosso agente e ele está situado no estado inicial do nosso ambiente, que é representado pelo “labirinto” que o robô terá de percorrer. Desta forma, o objetivo é chegar ao diamante evitando os obstáculos (fogueiras).
Definido o objetivo, o robô deve buscar pelo melhor caminho possível para chegar até o diamante. Dessa forma, a cada ação do robô, ele poderá caminhar em uma determinada direção, caso ele escolha corretamente, ele irá inserir pesos diferentes, para diferentes respostas. Com isso, espera-se que ao final o robô consiga realizar seu objetivo de forma que obtenha a maior recompensa cumulativa.
3. Aplicações
Lembra quando eu mencionei no início do artigo que as diferentes abordagens do aprendizado de máquina contribuem na realização de tarefas árduas e melhoria de processos? Nessa seção iremos conhecer em quais cenários o machine learning está inserido.
Diagnósticos médicos
Na área médica as técnicas de machine learning são utilizadas para fazer o reconhecimento de doenças. Com o crescimento da tecnologia tem sido possível construir modelos 3D que podem prever a posição exata de lesões no cérebro, permitindo a detecção de tumores e outros diagnósticos relacionados muito mais fácil.
Além disso, muito trabalho vem sendo feito com imagens como, por exemplo, o reconhecimento de padrões que identificam câncer de pulmão, de pele, dentre outros.
Detecção de fraudes online
Se considerarmos uma instituição financeira que lida com milhares de transações por dia, ela está sujeita a fraudes a todo momento e sabendo que avaliar toda essa quantidade de operações seria totalmente exaustivo e ineficiente, modelos de machine learning são criados para que possam ser detectadas anomalias nas transações.
Para ficar mais claro vamos supor que uma pessoa tenha um cartão de crédito de um banco com limite de 2000 reais, porém, ela tem um histórico de uso mensal de no máximo 800 reais, se por acaso em um determinado dia houver uma compra no seu cartão no valor de 2000 reais, o modelo de detecção de fraudes irá perceber que essa compra não se encaixa no seu padrão e, com isso, o banco será notificado colocando a transação em espera.
Sistemas de recomendação
Presente nos mais diversos tipos de aplicações, os sistemas de recomendação tiram aquela velha necessidade de procurar tudo aquilo que desejamos. No sistema de varejo, por exemplo, se você tiver cadastro na plataforma de algum desses varejistas você terá um sistema de recomendações de produto ao seu dispor, ele cria essas recomendações baseado em compras anteriores, históricos de navegação, dentre outras informações complementares.
Dessa forma, quando você está com o carrinho de compras e percebe que esqueceu mais um item da compra que estava planejando, provavelmente ele estará em uma seção destinada a seus possíveis interesses.
Reconhecimento de fala
Provavelmente o exemplo mais famoso para o reconhecimento de fala são os assistentes de voz. Então, a Siri da Apple, Alexa da Amazon, Cortana da Microsoft, dentre outros assistentes de voz usam machine learning através de técnicas de processamento de linguagem natural (NLP) para reconhecerem a fala, posteriormente transformam essa fala em números para que possam formular uma resposta de acordo.
4. Conclusões
Neste artigo você deu os primeiros passos dentro de uma área gigante, passamos pelos conceitos iniciais, vimos as formas de aprendizado e alguns dos modelos mais famosos de machine learning, além de conhecer diversas aplicações. Dessa forma, agora você pode destinar seus estudos para a forma de aprendizado e aplicações que mais te chamaram atenção.
Portanto, se você quer saber mais sobre machine learning e outros tópicos quentes na área de tecnologia, recomendo acompanhar todas nossas redes sociais. Não se esqueça também de curtir e compartilhar, seu apoio é muito importante!
Artigo escrito por Lucas Natali Magalhães Silva. Revisado por Prof. Rodrigo César Pedrosa Silva.
1 COMENTÁRIO
Muito bom!