Um Guia de Codificação para Construir Pipelines Avançados de Document Intelligence com Google LangExtract, Modelos OpenAI, Extração Estruturada e Visualização Interativa

Neste tutorial, exploramos como usar a biblioteca LangExtract do Google para transformar texto não estruturado em informações estruturadas e legíveis por máquina. Começamos instalando as dependências necessárias e configurando com segurança nossa chave de API OpenAI para aproveitar poderosos modelos de linguagem para tarefas de extração. Além disso, construiremos um pipeline de extração reutilizável que nos permite processar uma variedade de tipos de documentos, incluindo contratos, notas de reunião, anúncios de produtos e logs operacionais. Através de prompts cuidadosamente projetados e anotações de exemplo, demonstramos como o LangExtract pode identificar entidades, ações, prazos, riscos e outros atributos estruturados, enquanto os ancora em seus spans de origem exatos. Também visualizamos as informações extraídas e as organizamos em conjuntos de dados tabulares, permitindo análises downstream, fluxos de trabalho de automação e sistemas de tomada de decisão. Copiar Código Copiado Use um navegador diferente !pip -q install -U "langextract[openai]" pandas IPython import os import json import textwrap import getpass import pandas as pd OPENAI_API_KEY = getpass.getpass("Digite a OPENAI_API_KEY: ") os.environ["OPENAI_API_KEY"] = OPENAI_API_KEY import langextract as lx from IPython.display import display, HTML Instalamos as bibliotecas necessárias, incluindo LangExtract, Pandas e IPython, para que nosso ambiente Colab esteja pronto para tarefas de extração estruturada. Solicitamos a chave de API OpenAI do usuário de forma segura e a armazenamos como uma variável de ambiente para acesso seguro durante o tempo de execução. Em seguida, importamos as bibliotecas principais necessárias para executar o LangExtract, exibir resultados e lidar com saídas estruturadas. Copiar Código Copiado Use um navegador diferente MODEL_ID = "gpt-4o-mini" def run_extraction( text_or_documents, prompt_description, examples, output_stem, model_id=MODEL_ID, extraction_passes=1, max_workers=4, max_char_buffer=1800, ): result = lx.extract( text_or_documents=text_or_documents, prompt_description=prompt_description, examples=examples, model_id=model_id, api_key=os.environ["OPENAI_API_KEY"], fence_output=True, use_schema_constraints=False, extraction_passes=extraction_passes, max_workers=max_workers, max_char_buffer=max_char_buffer, ) jsonl_name = f"{output_stem}.jsonl" html_name = f"{output_stem}.html" lx.io.save_annotated_documents([result], output_name=jsonl_name, output_dir=".") html_content = lx.visualize(jsonl_name) with open(html_name, "w", encoding="utf-8") as f: if hasattr(html_content, "data"): f.write(html_content.data) else: f.write(html_content)
r