TL;DR: O artigo detalha 21 estratégias de chunking (segmentação de texto) para otimizar sistemas RAG (Retrieval-Augmented Generation), desde abordagens simples como divisão por linha até técnicas avançadas como análise semântica e reconhecimento de modalidade. A escolha correta do método de chunking impacta diretamente a precisão e eficiência na recuperação de informações. O texto conclui que a combinação inteligente de diferentes técnicas é crucial para atender às demandas de diversas aplicações e aprimorar a qualidade das respostas geradas por LLMs.

Takeaways:

A estratégia de chunking é fundamental para o sucesso de sistemas RAG, influenciando a recuperação e o processamento da informação.
Existem diversas abordagens de chunking, cada uma com seus pontos fortes e limitações, adequadas a diferentes tipos de dados e aplicações.
Técnicas avançadas, como semantic chunking e modality-aware chunking, oferecem maior precisão e relevância na recuperação de informações.
A combinação inteligente de diferentes métodos de chunking pode otimizar o desempenho de sistemas RAG.
O avanço dos LLMs e o crescimento dos dados multimodais exigem a contínua evolução das técnicas de chunking.

21 Estratégias de Chunking para RAG para otimizar aplicações de LLM

Introdução

Retrieval-Augmented Generation (RAG) envolve recuperar o contexto adequado de grandes volumes de dados e utilizar um modelo de linguagem para gerar respostas precisas, integrando o conhecimento disponível com as capacidades de geração do LLM. Essa técnica é fundamental para operações que exigem a combinação de informações estruturadas e desestruturadas, permitindo aproveitar ao máximo os dados disponíveis.

A escolha da estratégia de chunking, ou segmentação do texto, é um dos pilares críticos para o sucesso dos sistemas RAG. Dividir o conteúdo de forma apropriada garante que cada “chunk” contenha informações relevantes e coesas, otimizando a recuperação e o processamento da informação mesmo em cenários com formatos e estruturas variados. Diversos métodos – dos mais simples aos mais sofisticados – podem ser aplicados dependendo do tipo de dado e da finalidade da aplicação.

Neste artigo, serão detalhadas 21 estratégias de chunking, explorando desde técnicas elementares, como o naive chunking, até abordagens avançadas, como o modality-aware chunking. Cada seção apresenta uma explicação técnica, evidenciando seus pontos fortes, limitações e exemplos práticos de aplicação, inclusive sugestões de prompts para orientar a divisão do conteúdo nos sistemas RAG.

Naive Chunking (Divisão por Nova Linha)

Naive chunking é uma abordagem simples que divide o texto a cada quebra de linha, tratando cada linha como uma unidade independente de informação. Essa técnica é especialmente útil para documentos onde cada linha carrega uma ideia completa, como notas, listas de itens, FAQs e logs de bate-papo. Conforme descrito em exemplos práticos, a instrução “You split the text at every line break. That’s it.” resume bem este método.

A simplicidade deste método é também a sua limitação, pois se o texto não estiver uniformemente distribuído em linhas, pode resultar em chunks muito longos ou excessivamente fragmentados, prejudicando o contexto. Assim, embora seja direto e fácil de implementar, é recomendável apenas para dados onde a estrutura em linhas já define unidades completas. De forma resumida, seus pontos positivos são a rapidez e a facilidade de uso, enquanto sua eficácia depende da regularidade do formato.

Por exemplo, ao trabalhar com um conjunto de FAQs organizadas por linha, pode-se utilizar o naive chunking para isolar cada pergunta e resposta. Um prompt sugerido para esse cenário seria: “Divida o texto em cada nova linha, mantendo a unidade semântica do conteúdo”. Essa abordagem garante que cada linha seja processada como um item isolado, sem necessidade de ajustes posteriores.

Fixed-size / Janela Fixa Chunking

Fixed-size chunking divide o texto em partes iguais com base em uma contagem pré-determinada de palavras ou caracteres, sem levar em consideração a estrutura gramatical ou semântica. Essa técnica é particularmente útil para processar dados brutos e desestruturados, como documentos digitalizados ou transcrições mal formatadas. Em muitos casos, sua implementação simples compensa a falta de refinamento, permitindo uma divisão uniforme do texto.

Apesar de sua praticidade, essa abordagem pode cortar frases e ideias ao meio, pois ignora os delimitadores naturais de um texto, o que pode resultar na perda de contexto crítico. A divisão arbitrária pode ser eficiente para dados grandes, mas exige cautela para evitar que a informação seja fragmentada de forma prejudicial à compreensão. Assim, o fixed-size chunking é indicado para conjuntos de dados onde a integridade da estrutura não é tão importante quanto a segmentação por volume.

Como exemplo prático, imagine um arquivo de texto extenso com poucos sinais de pontuação. Um prompt adequado para esse método seria: “Divida o texto em blocos de 100 palavras, mesmo que isso corte sentenças”. Essa instrução automatizada pode ser útil em contextos em que a regularidade do tamanho dos chunks é mais desejável do que a manutenção plena do contexto semântico.

Sliding Window Chunking

Sliding window chunking é similar ao método de tamanho fixo, porém com a diferença de que os chunks se sobrepõem parcialmente para preservar o fluxo do contexto entre eles. Ao incluir essa sobreposição, a continuidade das ideias é melhor mantida e os limites artificiais introduzidos pela segmentação uniforme são atenuados. Essa estratégia se mostra vantajosa especialmente para textos cujas ideias se estendem por várias sentenças ou parágrafos.

A principal vantagem deste método reside na preservação do contexto, mesmo quando os blocos são gerados por cortes em posições arbitrárias. Essa técnica melhora a coesão dos dados processados, permitindo que o LLM “veja” parte da informação anterior e posterior a cada chunk. Dessa forma, mesmo que partes de frases sejam divididas, o significado completo pode ser deduzido a partir da sobreposição.

Por exemplo, em ensaios ou relatórios longos, um prompt adequado seria: “Divida o texto em blocos de 100 palavras com sobreposição de 20 palavras entre cada chunk”. Essa instrução ajuda a assegurar que as transições entre os chunks sejam suaves, garantindo que as informações importantes não sejam perdidas no processo de segmentação.

Sentence-based Chunking

Sentence-based chunking divide o texto utilizando os pontos finais, interrogações e exclamações como delimitadores naturais das sentenças. Essa estratégia é ideal para textos bem elaborados, onde cada sentença ou frase contém uma ideia completa e autossuficiente. Ao respeitar as fronteiras naturais da linguagem, esse método facilita a manutenção da integridade semântica das informações.

Por permitir uma divisão que segue a estrutura linguística do texto, o sentence-based chunking é frequentemente usado como um passo preliminar para a formação de chunks menores e mais precisos. Ele possibilita uma recombinação posterior de sentenças, o que pode ser útil em processos de rerank ou na criação de blocos temáticos mais densos. Essa técnica é valiosa para documentos como blogs, resumos e artigos técnicos.

Um exemplo prático seria a utilização dessa técnica em um artigo de opinião, onde cada sentença é essencial para o argumento. Um prompt para esse cenário poderia ser: “Divida o texto em sentenças considerando pontos finais, pontos de interrogação e de exclamação como delimitadores”. Essa abordagem garante que cada chunk contenha unidades de sentido completo, facilitando a interpretação pelo sistema RAG.

Paragraph-based Chunking

No paragraph-based chunking, o texto é dividido com base nos parágrafos, assumindo que cada parágrafo representa um bloco de ideia completo. Essa técnica é particularmente eficiente para documentos já estruturados em parágrafos, como posts de blogs, artigos e relatórios, onde o agrupamento de ideias é evidente. Ao manter os parágrafos intactos, preserva-se um contexto mais amplo em cada chunk.

A principal vantagem dessa abordagem é que ela evita a fragmentação excessiva de ideias que pode ocorrer com métodos mais granulares, como o sentence-based chunking. Além disso, ela oferece uma divisão natural que facilita a recomposição do conteúdo para aplicações que exigem análise de contexto mais detalhado. Contudo, em textos onde os parágrafos são muito longos, pode ser necessário complementá-la com outras técnicas.

Por exemplo, para um blog estruturado em parágrafos bem definidos, um prompt apropriado seria: “Utilize os parágrafos como unidades de chunking e mantenha a integridade de cada bloco de informações”. Essa instrução assegura que cada chunk retenha a coerência e o significado pretendido, contribuindo para uma melhor recuperação de informações no RAG.

Page-based Chunking

Page-based chunking trata cada página de um documento como um único chunk, respeitando a formatação e a disposição visual do conteúdo. Essa estratégia é especialmente útil para documentos paginados, como PDFs, apresentações de slides ou livros escaneados, onde o layout e a numeração das páginas são relevantes para a consulta posterior. Assim, a integridade visual e estrutural de cada página é mantida.

Esse método facilita o referenciamento, permitindo que algoritmos de recuperação associem dados a páginas específicas, o que é valioso em workflows que necessitam de referências precisas, como pesquisas acadêmicas ou auditorias de documentos. Contudo, sua aplicação depende de documentos que já possuam uma divisão natural por página, o que pode não ocorrer em textos contínuos sem layout definido.

Como exemplo prático, ao processar um PDF de um relatório técnico, o prompt “Divida o documento considerando cada página como um bloco distinto, preservando o layout original” pode ser utilizado. Dessa forma, cada página é tratada como uma unidade única, facilitando a recuperação e a referência posterior no sistema RAG.

Structured Chunking

Structured chunking divide o texto com base em uma estrutura predefinida, como dados extraídos de logs, campos de um esquema, tags HTML ou elementos Markdown. Essa técnica é ideal para dados estruturados ou semiestruturados, onde a organização interna permite identificar pontos de divisão precisos. Ao explorar a estrutura inerente ao conteúdo, é possível extrair informações específicas com maior precisão.

Utilizando delimitadores naturais – como as marcações de um JSON ou as tags de um documento HTML – esse método permite que cada chunk contenha um grupo lógico de informações. Isso é fundamental para a análise de dados onde a hierarquia e a relação entre os elementos devem ser preservadas. Embora requeira um pré-processamento para identificar a estrutura, os ganhos na precisão da recuperação são significativos.

Um exemplo prático seria a aplicação deste método em registros de log de sistemas ou documentos com formatação Markdown. Um prompt recomendado é: “Divida o texto considerando os delimitadores estruturais (como tags HTML ou chaves de JSON) para cada chunk”. Essa abordagem garante que os dados sejam particionados de maneira a manter suas relações semânticas, facilitando análises posteriores.

Document-Based Chunking

Document-Based Chunking utiliza a estrutura natural do documento, onde títulos, subtítulos e seções são empregados para definir os limites de cada chunk. Essa abordagem se aproveita da organização hierárquica do conteúdo para criar blocos que correspondem a unidades temáticas completas, facilitando a recuperação e a navegação. Cada chunk reflete uma parte coerente e contextualizada do documento.

Esse método é extremamente útil para manuais, artigos e livros que apresentam uma divisão clara em seções e subseções, permitindo que o sistema RAG extraia tanto um panorama geral quanto detalhes específicos conforme a necessidade. Ao capitalizar elementos de formatação inerentes ao texto, o Document-Based Chunking torna o processo de segmentação mais intuitivo e menos sujeito a cortes arbitrários.

Como exemplo, imagine um manual técnico que utiliza títulos e subtítulos para cada seção. Um prompt adequado seria: “Divida o documento utilizando os títulos, subtítulos e quebras de seção como delimitadores para formar os chunks”. Essa estratégia assegura que cada bloco represente uma ideia coerente, facilitando o processamento e a recuperação de informações.

Keyword-based Chunking

Keyword-based Chunking baseia a segmentação do texto na ocorrência de palavras-chave específicas que indicam mudanças de tópico ou a transição entre ideias. Essa técnica é indicada quando as divisões por títulos ou parágrafos não estão disponíveis e as palavras-chave podem servir como marcadores naturais de novos segmentos. Ao identificar termos recorrentes que sinalizam novos tópicos, é possível agrupar o conteúdo de forma semântica.

A abordagem ajuda a isolar partes do texto que abordam temas específicos, permitindo uma recuperação mais direcionada das informações relevantes. No entanto, é essencial definir previamente as palavras-chave de forma adequada para que a técnica produza chunks coerentes e significativos. Esse método pode complementar outras técnicas de chunking, aprimorando a organização do conteúdo.

Por exemplo, em um relatório que não contém divisões claras mas possui termos que indicam mudanças de assunto, um prompt sugerido seria: “Divida o texto sempre que ocorrer a(s) palavra(s)-chave definidas previamente”. Essa estratégia assegura que o chunking respeite as mudanças de tópico, facilitando a extração de informações segmentadas e precisas no sistema RAG.

Entity-based Chunking

Entity-based Chunking utiliza modelos de reconhecimento de entidade nomeada (NER) para identificar e agrupar textos em torno de entidades relevantes, como nomes de pessoas, locais ou produtos. Essa estratégia é fundamental quando a identificação de entidades precisas é crucial para o entendimento do conteúdo, como em notícias, contratos ou estudos de caso. Ao isolar essas entidades, a técnica melhora a organização dos dados e a relevância das informações extraídas.

Além disso, a identificação de entidades permite que o chunking seja adaptado para agrupar contextos inteiros referentes a uma mesma entidade, facilitando análises mais profundas e consultas direcionadas. Essa abordagem assume que as entidades destacadas são pontos de referência naturais dentro do texto, servindo como âncoras para a segmentação. O uso de NER aprimora a precisão do chunking em documentos onde as entidades carregam informações privilegiadas.

Por exemplo, em uma análise jornalística, um prompt eficaz pode ser: “Utilize um modelo NER para identificar as entidades principais e agrupe o texto em torno delas, garantindo que cada bloco contenha contexto suficiente sobre a entidade referenciada”. Essa instrução automatiza a segmentação baseada em entidades, contribuindo para uma recuperação mais focada e informativa.

Token-based Chunking

Token-based Chunking segmenta o texto de acordo com a contagem de tokens, utilizando um tokeniser para dividir o conteúdo em blocos de tamanho predeterminado. Essa abordagem é particularmente útil quando se lida com documentos sem uma estrutura clara e quando se deseja evitar que o LLM ultrapasse os limites de tokens disponíveis. Ao contar tokens de maneira precisa, pode-se garantir que cada chunk esteja dentro dos limites operacionais do modelo.

Embora essa técnica seja bastante direta, ela pode resultar em cortes que fragmentem sentenças ou ideias, especialmente se não for combinada com técnicas que preservem os limites naturais do texto. Por isso, é comum que o token-based chunking seja empregado juntamente com métodos adicionais, como o sentence-based chunking, para mitigar a perda de contexto. Essa combinação permite maior flexibilidade e precisão na segmentação do conteúdo.

Um exemplo prático seria o processamento de um grande arquivo de texto sem formatação, onde o prompt “Divida o texto em blocos de 512 tokens” pode ser utilizado. Essa prática assegura que cada segmento esteja dentro dos limites de processamento do LLM, evitando truncamentos e contribuindo para uma análise mais consistente dos dados.

Topic-based Chunking

Topic-based Chunking segmenta o texto com base na mudança de tópicos, agrupando sentenças ou parágrafos que compartilham o mesmo tema. Essa estratégia utiliza técnicas de modelagem de tópicos ou algoritmos de clustering para identificar as transições naturais entre diferentes assuntos, permitindo agrupar o conteúdo de forma semântica e coerente. Dessa forma, cada chunk permanece focado em uma única ideia central, contribuindo para a precisão na recuperação de informações.

A vantagem deste método é que ele permite tratar documentos complexos que abordam múltiplos temas, assegurando que a informação extraída seja relevante para o contexto desejado. Mesmo em textos onde as alterações de tópico não são marcadas por delimitadores estruturais, a análise de similaridade pode ajudar a definir os limites dos chunks de maneira eficaz. Essa técnica é particularmente útil em contextos de análises de grandes volumes de dados com variação temática.

Como exemplo, em um relatório multifacetado, um prompt pode ser: “Divida o texto identificando mudanças de tópico e agrupe sentenças com alta similaridade temática”. Essa instrução garante que cada chunk seja homogêneo em relação ao tema abordado, melhorando a qualidade dos resultados obtidos pelo sistema RAG.

Table-aware Chunking

Table-aware Chunking é uma estratégia que foca na identificação e segmentação de tabelas presentes no documento, tratando-as de forma separada do restante do texto. Esse método possibilita que os dados tabulares sejam preservados em sua forma original, facilitando a extração e análise quando comparados a textos corridos. Com essa técnica, a integridade dos dados contidos nas tabelas é mantida, o que é fundamental para a precisão dos resultados.

Em documentos que combinam grandes blocos de texto com tabelas, essa abordagem evita que a estrutura tabular seja fragmentada, mantendo a continuidade e a organização dos dados apresentados. Ela é especialmente útil para formatos como JSON ou Markdown, onde as tabelas podem ser facilmente identificadas e extraídas. Dessa forma, o tratamento especializado para esse formato contribui para uma recuperação mais precisa e segmentada das informações.

Por exemplo, ao processar um relatório financeiro que inclui tabelas com indicadores-chave, um prompt eficaz é: “Identifique e extraia as tabelas do documento, mantendo cada uma como um bloco separado”. Essa instrução ajuda a preservar a integridade dos dados tabulares, facilitando análises posteriores e a integração com outros métodos de chunking.

Content-aware Chunking

Content-aware Chunking adapta as regras de segmentação com base no tipo de conteúdo presente, respeitando as características específicas de parágrafos, listas, tabelas ou outros elementos. Essa abordagem é especialmente valiosa em documentos de formato misto, onde diferentes tipos de dados coexistem e exigem tratamentos distintos para preservar sua integridade. Ao considerar o conteúdo, os chunks mantêm o formato e o significado originalmente pretendido.

Essa técnica evita a fragmentação inadequada que pode ocorrer quando se aplica uma regra única a todo o documento, assegurando que cada tipo de elemento seja processado conforme suas particularidades. Ela possibilita uma integração harmoniosa de informação textual, visual e tabular, contribuindo para uma recuperação de contexto mais precisa em sistemas RAG. O content-aware chunking, assim, garante que as informações essenciais não sejam comprometidas.

Como exemplo, em um documento que combina texto corrido com tabelas e listas, um prompt adequado seria: “Divida o conteúdo respeitando os diferentes formatos – mantenha parágrafos completos, tabelas intactas e listas agrupadas”. Essa abordagem permite que cada chunk seja formado de maneira consistente com o tipo de conteúdo, otimizando a recuperação sem perder o contexto original.

Contextual Chunking

Contextual Chunking emprega um modelo de linguagem para analisar o texto e adicionar um contexto extra a cada chunk antes de realizar sua incorporação ou embedding. Essa estratégia enriquece os blocos de informação com dados contextuais relevantes, melhorando a precisão da recuperação e a compreensão do conjunto de dados. Ao integrar informações adicionais, o método busca superar limitações da segmentação puramente mecânica.

Essa técnica é particularmente útil em documentos complexos, onde a simples divisão do texto pode resultar em perda de informações interligadas. O uso de um LLM para contextualizar os chunks garante que as transições entre as partes do texto sejam mais coerentes e que os blocos mantenham uma relação semântica clara. Dessa forma, a recuperação das informações é aprimorada mesmo quando os blocos se sobrepõem ou apresentam cortes inesperados.

Por exemplo, se um relatório narrativo contiver nuances que se perdem com uma simples divisão, um prompt interessante seria: “Utilize um LLM para adicionar um breve contexto a cada chunk antes da extração, garantindo que os pontos-chave sejam preservados”. Essa abordagem potencializa a integração entre os dados extraídos, proporcionando uma análise mais robusta e precisa.

Semantic Chunking

Semantic Chunking agrupa sentenças ou parágrafos com alta similaridade semântica, garantindo que cada chunk seja focado em um único tema. Essa abordagem utiliza técnicas de embedding para medir a similaridade entre porções do texto e gerar agrupamentos coesos, otimizando a segmentação em termos de significado. Ao priorizar a afinidade semântica, o método supera limitações dos cortes baseados apenas na estrutura física do texto.

A técnica é indicada quando estratégias mais simples, como o chunking por parágrafo ou bloco fixo, não conseguem manter a integridade do tema abordado, especialmente em documentos longos e multifacetados. Ao agrupar partes que falam sobre o mesmo assunto, o semantic chunking favorece a recuperação de informações de forma coerente, evitando a dispersão contextual. Essa abordagem é uma evolução necessária para análises mais precisas em sistemas RAG modernos.

Como exemplo prático, imagine um ensaio em que os temas vão se intercalando. Um prompt para essa situação pode ser: “Agrupe as sentenças com base na similaridade semântica, garantindo que cada chunk aborde um único tópico de forma coesa”. Dessa forma, o sistema consegue recuperar informações integradas e relevantes, melhorando a acurácia da resposta gerada.

Recursive Chunking

Recursive Chunking começa dividindo o texto em blocos maiores, por exemplo, por parágrafos, e depois subdivide recursivamente os chunks que excedem um tamanho pré-estabelecido utilizando separadores menores, como sentenças ou palavras. Essa abordagem é essencial para lidar com textos que apresentam variações significativas no tamanho das unidades, garantindo que nenhum chunk ultrapasse os limites de processamento do modelo. O método é iterativo, aprimorando a granularidade conforme a necessidade.

Ao aplicar essa técnica, torna-se possível controlar de forma dinâmica o tamanho dos chunks, evitando que unidades muito extensas sejam processadas de maneira inadequada e que informações relevantes sejam perdidas. É especialmente útil em casos como entrevistas, discursos ou narrativas livres, onde a diversidade no comprimento das sentenças pode ser imprevisível. Essa estratégia possibilita uma segmentação equilibrada e adaptativa, ajustando-se a diferentes necessidades de processamento.

Por exemplo, para um discurso transcrito onde alguns parágrafos são excessivamente longos, um prompt útil seria: “Inicie a divisão por parágrafos e, se um bloco exceder o limite, subdivida-o recursivamente em sentenças ou palavras”. Essa instrução garante que cada chunk final seja de tamanho adequado para o processamento sem comprometer a integridade das informações.

Embedding Chunking

Embedding Chunking envolve a incorporação de cada sentença ou parágrafo em um espaço vetorial e a subsequente agrupação dos blocos com alta similaridade de embeddings. Essa técnica é particularmente poderosa para textos desestruturados, onde os métodos tradicionais de segmentação podem falhar em capturar as relações semânticas entre as partes. Ao trabalhar com representações vetoriais, o método pode identificar e agrupar automaticamente segmentos com conteúdo similar.

A abordagem baseia-se em cálculos de similaridade e em thresholds definidos para determinar onde um chunk deve terminar e outro iniciar, garantindo que a coesão do conteúdo seja mantida de acordo com sua semelhança semântica. Esse método supera a dependência exclusiva de delimitadores físicos, proporcionando uma divisão mais intuitiva e alinhada com os significados subjacentes do texto. Como resultado, a recuperação de informações torna-se mais precisa e contextualmente relevante.

Um exemplo prático seria a aplicação desse método em um artigo com muitos tópicos interligados sem separadores claros. Um prompt recomendado seria: “Incorpore todas as sentenças e agrupe as que tiverem alta similaridade em embedding, dividindo os chunks apenas quando a similaridade cair abaixo do limite estabelecido”. Essa instrução permite que o sistema forme grupos de conteúdo coerentes, aproveitando a análise de similaridade semântica.

Agentic / LLM-based Chunking

Agentic ou LLM-based Chunking confere ao próprio modelo de linguagem a responsabilidade de determinar os pontos ótimos para a segmentação do texto. Esse método explora a capacidade dos LLMs de interpretar e compreender contextos complexos, permitindo que o modelo divida o conteúdo com base em critérios de coesão e significado. Trata-se de uma abordagem que imita o julgamento humano, adequando a segmentação de acordo com a complexidade do texto.

Embora seja uma técnica poderosa, a abordagem agentic pode ser computacionalmente intensiva, pois depende de processamento avançado para avaliar múltiplos aspectos do conteúdo. Ela é particularmente indicada para textos complexos e desestruturados onde métodos tradicionais não conseguem capturar nuances contextuais importantes. Assim, essa estratégia pode oferecer resultados de alta qualidade, compensando seu custo operacional em projetos de grande porte.

Por exemplo, em conteúdos com informações interligadas e dificuldade de segmentação manual, um prompt eficiente seria: “Utilize um LLM para identificar os pontos de corte ideais no texto, garantindo que cada chunk seja coeso e mantenha o contexto necessário”. Essa instrução permite que o modelo decida a divisão de forma inteligente, promovendo um tratamento mais humano da segmentação.

Hierarchical Chunking

Hierarchical Chunking organiza o texto em múltiplos níveis de segmentação, começando por seções amplas e refinando até atingir subseções e parágrafos individuais. Essa abordagem hierárquica possibilita que usuários obtenham tanto uma visão geral quanto detalhes específicos conforme necessário, sem perder o contexto global do documento. A estrutura lógica do conteúdo é preservada em cada nível, facilitando a navegação e a recuperação de informações.

Essa técnica é especialmente útil para documentos bem estruturados, como manuais, artigos acadêmicos e livros, onde a organização em títulos e subtítulos já está presente. Ao utilizar a hierarquia existente, o método permite uma segmentação progressiva e adaptativa, que pode ser explorada em consultas de diferentes granularidades. Essa flexibilidade torna o hierarchical chunking uma escolha robusta para aplicações que exigem múltiplos níveis de detalhamento.

Por exemplo, ao processar um manual técnico, o prompt “Divida o texto primeiro por seções utilizando títulos e, em seguida, subdivida cada seção em parágrafos” permite que o sistema mantenha a estrutura hierárquica original. Essa abordagem facilita a recuperação de informações, oferecendo ao usuário tanto uma visão macro quanto a possibilidade de aprofundar em detalhes específicos conforme necessário.

Modality-Aware Chunking

Modality-Aware Chunking é uma estratégia que leva em consideração a diversidade dos tipos de conteúdo presentes em um documento, separando textos, imagens, tabelas e outros elementos de acordo com suas características específicas. Ao aplicar regras distintas para cada modalidade, esse método assegura que cada chunk mantenha sua integridade e relevância, sem misturar formatos incompatíveis. Essa abordagem é crucial para documentos multimodais, onde a união de diferentes tipos de dados pode comprometer a clareza da informação.

Essa técnica oferece a vantagem de tratar cada formato com as regras que lhe são próprias, garantindo que, por exemplo, uma tabela não seja fragmentada da mesma forma que um parágrafo de texto. Ao preservar as características visuais e contextuais de cada elemento, o modality-aware chunking contribui para uma recuperação de informações mais precisa e adequada à forma original do documento. Portanto, a aplicação desse método otimiza a eficácia dos sistemas RAG em ambientes com dados heterogêneos.

Um exemplo prático seria um relatório que combine texto explicativo, imagens ilustrativas e tabelas de dados. Um prompt adequado para esse cenário seria: “Divida o documento separando os diferentes tipos de conteúdo, aplicando regras específicas para texto, imagens e tabelas”. Essa instrução garante que cada chunk seja formado levando em conta a modalidade, otimizando a integridade e a clareza das informações extraídas.

Conclusão

Ao longo deste artigo, foram exploradas 21 estratégias de chunking para otimizar aplicações RAG, detalhando desde métodos simples como o naive chunking até técnicas avançadas como o modality-aware chunking. Cada abordagem apresenta seus benefícios e limitações, oferecendo ao leitor um panorama diversificado de técnicas adaptáveis a diferentes tipos de dados e contextos de aplicação.

A escolha adequada da estratégia de chunking pode impactar significativamente o desempenho de sistemas que dependem da recuperação de informações, facilitando a integração entre dados estruturados e desestruturados. A utilização de métodos contextuais, semânticos e hierárquicos demonstra como a segmentação bem planejada pode melhorar a qualidade da resposta gerada por modelos de linguagem.

Com o avanço constante dos modelos LLM e o crescimento dos dados multimodais, espera-se que abordagens híbridas e adaptativas se tornem cada vez mais relevantes, incentivando a contínua evolução das técnicas de chunking. O desafio futuro está em combinar métodos de forma inteligente para atender às demandas de diversas aplicações, consolidando o papel do chunking como uma ferramenta essencial para sistemas RAG.

Referência Principal

Título: 21 Chunking Strategies for RAG
Autor: Anjolaoluwa Ajayi
Fonte: Substack
Link: https://anjolaoluwa.substack.com/p/21-chunking-strategies-for-rag

Referências Adicionais

Título: Finding the Best Chunking Strategy for Accurate AI Responses
Autor: Steve Han
Data: 2025-06-18
Fonte: NVIDIA Technical Blog
Link: https://developer.nvidia.com/blog/finding-the-best-chunking-strategy-for-accurate-ai-responses/
Título: Is Semantic Chunking Worth the Computational Cost?
Autor: Renyi Qu, Ruixuan Tu, Forrest Bao
Data: 2024-10-16
Fonte: arXiv
Link: https://arxiv.org/abs/2410.13070
Título: Rethinking Chunk Size For Long-Document Retrieval: A Multi-Dataset Analysis
Autor: Sinchana Ramakanth Bhat, Max Rudat, Jannis Spiekermann, Nicolas Flores-Herr
Data: 2025-05-27
Fonte: arXiv
Link: https://arxiv.org/abs/2505.21700
Título: ChunkRAG: Novel LLM-Chunk Filtering Method for RAG Systems
Autor: Ishneet Sukhvinder Singh, Ritvik Aggarwal, Ibrahim Allahverdiyev, Muhammad Taha, Aslihan Akalin, Kevin Zhu, Sean O’Brien
Data: 2024-10-25
Fonte: arXiv
Link: https://arxiv.org/abs/2410.19572
Título: Optimizing Chunking Strategies for Efficient Knowledge Retrieval in RAG Architectures
Autor: Nishad Ahamed
Data: 2024-10-13
Fonte: Medium
Link: https://n-ahamed36.medium.com/optimizing-chunking-strategies-for-efficient-knowledge-retrieval-in-rag-architectures-92cc2cfe9481
Título: Chunking Optimization for Retrieval-Augmented Generation (RAG)
Fonte: Squareboat
Link: https://squareboat.com/blog/chunking-optimization-for-retrieval-augmented-generation
Título: Mastering Document Chunking Strategies for Retrieval-Augmented Generation (RAG)
Autor: Sahin Ahmed
Fonte: Medium
Link: https://medium.com/@sahin.samia/mastering-document-chunking-strategies-for-retrieval-augmented-generation-rag-c9c16785efc7
Título: Reconstructing Context: Evaluating Advanced Chunking Strategies for Retrieval-Augmented Generation
Autor: Carlo Merola, Jaspinder Singh
Data: 2025-04-28
Fonte: arXiv
Link: https://arxiv.org/abs/2504.19754
Título: Chunking Techniques for Retrieval-Augmented Generation (RAG): A Comprehensive Guide to Optimizing Text Segmentation
Fonte: Digital Innovation
Data: 2024-10-01
Link: https://digitalsinnovation.com/chunking-techniques-for-retrieval-augmented-generation-rag-a-comprehensive-guide-to-optimizing-text-segmentation/
Título: 15 Chunking Techniques to Build Exceptional RAGs Systems
Fonte: Quantum
Link: https://quantum.platodata.ai/15-chunking-techniques-to-build-exceptional-rags-systems/
Título: Chunking Strategies in Retrieval-Augmented Generation (RAG) Systems
Fonte: Premai
Link: https://blog.premai.io/chunking-strategies-in-retrieval-augmented-generation-rag-systems/
Título: A Guide to Chunking Strategies for Retrieval Augmented Generation (RAG)
Fonte: Zilliz
Data: 2024-05-15
Link: https://medium.com/@zilliz_learn/a-guide-to-chunking-strategies-for-retrieval-augmented-generation-rag-09c5a2b68ef2
Título: Chunking Strategies For Production-Grade RAG Applications
Fonte: Helicone
Data: 2024-12-26
Link: https://www.helicone.ai/blog/rag-chunking-strategies
Título: Chunking Data for Retrieval-Augmented Generation (RAG) Applications
Fonte: Quilltez
Link: https://quilltez.com/blog/chunking-data-retrieval-augmented-generation-rag-applications

21 Estratégias de Chunking para Otimizar Aplicações RAG

21 Estratégias de Chunking para RAG para otimizar aplicações de LLM

Introdução

Naive Chunking (Divisão por Nova Linha)

Fixed-size / Janela Fixa Chunking

Sliding Window Chunking

Sentence-based Chunking

Paragraph-based Chunking

Page-based Chunking

Structured Chunking

Document-Based Chunking

Keyword-based Chunking

Entity-based Chunking

Token-based Chunking

Topic-based Chunking

Table-aware Chunking

Content-aware Chunking

Contextual Chunking

Semantic Chunking

Recursive Chunking

Embedding Chunking

Agentic / LLM-based Chunking

Hierarchical Chunking

Modality-Aware Chunking

Conclusão

Referência Principal

Referências Adicionais

Curtir isso:

21 Estratégias de Chunking para RAG para otimizar aplicações de LLM

Introdução

Naive Chunking (Divisão por Nova Linha)

Fixed-size / Janela Fixa Chunking

Sliding Window Chunking

Sentence-based Chunking

Paragraph-based Chunking

Page-based Chunking

Structured Chunking

Document-Based Chunking

Keyword-based Chunking

Entity-based Chunking

Token-based Chunking

Topic-based Chunking

Table-aware Chunking

Content-aware Chunking

Contextual Chunking

Semantic Chunking

Recursive Chunking

Embedding Chunking

Agentic / LLM-based Chunking

Hierarchical Chunking

Modality-Aware Chunking

Conclusão

Referência Principal

Referências Adicionais

Gostou? Compartilhe!

Curtir isso: