Building Multimodal Generative AI and Agentic Applications

Indrajit Kar

This audiobook is narrated by a digital voice. DESCRIPTION Generative AI and agentic AI are reshaping how we interact with data, enabling intelligent systems that can reason, generate, and autonomously act across multiple modalities. From text and...

Location:

United States

Genres:

Computers

Audiobooks

Networks:

Indrajit Kar

Digital Voice Madison G

BPB Publications

English Audiobooks

INAudio Audiobooks

Description:

This audiobook is narrated by a digital voice. DESCRIPTION Generative AI and agentic AI are reshaping how we interact with data, enabling intelligent systems that can reason, generate, and autonomously act across multiple modalities. From text and images to voice and structured data, these technologies are increasingly essential in enterprise and research applications today. This book offers a complete roadmap to mastering multimodal generative AI and agentic AI systems. It covers foundational concepts, vision-language models, retrieval-augmented generation, human-in-the-loop and multi-agent workflows, text-to-SQL, OCR, and hybrid AI integrations. Each chapter combines theory, practical guidance, code implementations, and real-world case studies, helping readers understand architectures, pipelines, and production-grade deployments. By the end of this book, readers will be capable of designing, implementing, and scaling robust multimodal and agentic AI systems. They will gain hands-on expertise in reasoning, generation, retrieval, agent orchestration, and Ops, equipping them to build production-ready AI applications and excel in their roles. WHAT YOU WILL LEARN ● Understand multimodal generative AI and agentic AI systems. ● Architecting RAG, vector DBs, embeddings, cross-encoders, and core agentic planning. ● Build retrieval-augmented generation workflows efficiently. ● Implement human-in-the-loop and multi-agent pipelines. ● Apply text-to-SQL for real-time data queries. ● Develop OCR solutions for images and documents. ● Integrate traditional ML models with GenAI workflows. ● Deploy production-grade AI with monitoring and observability. Duration - 17h 22m. Author - Indrajit Kar. Narrator - Digital Voice Madison G. Published Date - Thursday, 02 January 2025. Copyright - © 2026 BPB ©.

Language:

English

Premium Chapters

Premium

Title Page

1/1/2025

Duration:00:00:18

Copyright Page

1/1/2025

Duration:00:01:21

Dedication Page

1/1/2025

Duration:00:00:06

About the Author

1/1/2025

Duration:00:02:26

About the Reviewers

1/1/2025

Duration:00:03:25

Acknowledgement

1/1/2025

Duration:00:00:43

Preface

1/1/2025

Duration:00:15:39

1/1/2025

Duration:00:22:49

1. Introducing New Age Generative AI

1/1/2025

Duration:00:00:05

Introduction

1/1/2025

Duration:00:01:44

Structure

1/1/2025

Duration:00:00:38

Objectives

1/1/2025

Duration:00:00:52

Overview of generative AI

1/1/2025

Duration:00:04:16

Retrieval system

1/1/2025

Duration:00:02:30

Sparse retrieval

1/1/2025

Duration:00:00:39

Dense retrieval

1/1/2025

Duration:00:04:29

Generation system

1/1/2025

Duration:00:02:11

Types of generation systems

1/1/2025

Duration:00:02:51

Autoregressive generation

1/1/2025

Duration:00:01:08

Prompting strategies

1/1/2025

Duration:00:00:20

Understanding where generation systems excel

1/1/2025

Duration:00:00:31

Combining retrieval and generation

1/1/2025

Duration:00:00:41

Retrieval-augmented generation

1/1/2025

Duration:00:00:54

RAG working

1/1/2025

Duration:00:00:35

Architecture of a basic RAG pipeline

1/1/2025

Duration:00:00:47

Types of RAG architectures

1/1/2025

Duration:00:00:58

Iterative RAG

1/1/2025

Duration:00:00:19

Vector databases and RAG

1/1/2025

Duration:00:00:42

Prompt engineering for RAG

1/1/2025

Duration:00:00:40

Advanced RAG techniques

1/1/2025

Duration:00:01:12

Applications of RAG

1/1/2025

Duration:00:00:46

Orchestration in AI systems

1/1/2025

Duration:00:00:41

Orchestration in RAG systems

1/1/2025

Duration:00:01:20

Orchestration in agentic systems

1/1/2025

Duration:00:02:15

Tokens in AI systems

1/1/2025

Duration:00:04:08

Vector database

1/1/2025

Duration:00:02:58

Understanding vector databases

1/1/2025

Duration:00:00:38

Indexing algorithms in vector databases

1/1/2025

Duration:00:01:42

Search algorithms in vector databases

1/1/2025

Duration:00:01:42

Embeddings and embedding models

1/1/2025

Duration:00:01:10

Importance of vector databases for RAG and agentic systems

1/1/2025

Duration:00:01:46

Reranking

1/1/2025

Duration:00:01:12

Bi-encoders vs. cross-encoders

1/1/2025

Duration:00:02:03

Cross-encoders for reranking

1/1/2025

Duration:00:01:40

Guardrails

1/1/2025

Duration:00:01:07

Types of guardrails

1/1/2025

Duration:00:01:06

Methods of applying guardrails

1/1/2025

Duration:00:00:48

Without guardrails

1/1/2025

Duration:00:00:44

Industry examples of guardrail solutions

1/1/2025

Duration:00:03:00

Agents

1/1/2025

Duration:00:04:47

Agentic RAG vs. non-agentic RAG

1/1/2025

Duration:00:01:44

Model Context Protocols

1/1/2025

Duration:00:02:34

Conclusion

1/1/2025

Duration:00:01:43

2. Deep Dive into Multimodal Systems

1/1/2025

Duration:00:00:04

Understanding vision-language models

1/1/2025

Duration:00:01:00

Categories of vision-language models

1/1/2025

Duration:00:04:41

Core architectural components of vision-language models

1/1/2025

Duration:00:05:36

Challenges in vision-language models

1/1/2025

Duration:00:03:06

Multimodal GenAI system

1/1/2025

Duration:00:06:41

Multimodal vector embedding

1/1/2025

Duration:00:03:45

Multimodal vector database

1/1/2025

Duration:00:01:50

Collections

1/1/2025

Duration:00:00:43

Points and point IDs

1/1/2025

Duration:00:00:42

Vectors

1/1/2025

Duration:00:00:42

Payload

1/1/2025

Duration:00:00:35

Storage and vector store

1/1/2025

Duration:00:00:56

Indexing

1/1/2025

Duration:00:05:01

Implementation comparisons

1/1/2025

Duration:00:00:27

Single collection, partitioned via payload

1/1/2025

Duration:00:01:41

Multiple collections with global indexing

1/1/2025

Duration:00:02:23

Multimodal generative AI systems vs. VLMs

1/1/2025

Duration:00:00:39

Vision-language models

1/1/2025

Duration:00:01:24

Multimodal generative AI systems

1/1/2025

Duration:00:01:44

Using vision-language models

1/1/2025

Duration:00:01:02

Using multimodal generative AI systems

1/1/2025

Duration:00:01:37

Real-world example comparison

1/1/2025

Duration:00:00:52

Output-based classification of multimodal systems

1/1/2025

Duration:00:01:12

Text-to-image systems

1/1/2025

Duration:00:02:27

Image-to-text systems

1/1/2025

Duration:00:01:45

Text and image systems

1/1/2025

Duration:00:02:20

Text-only to specifications and image systems

1/1/2025

Duration:00:02:28

Text-to-SQL systems

1/1/2025

Duration:00:01:58

Text-to-code systems

1/1/2025

Duration:00:03:42

3. Implementing Unimodal Local GenAI System

1/1/2025

Duration:00:00:05

GPU in today’s generative AI systems

1/1/2025

Duration:00:04:12

Using a local GPU

1/1/2025

Duration:00:06:14

Architectural components

1/1/2025

Duration:00:01:32

About Ollama

1/1/2025

Duration:00:01:08

Alternatives to Ollama

1/1/2025

Duration:00:04:12

Generate a PDF document with Ollama

1/1/2025

Duration:00:04:58

RAG implementation

1/1/2025

Duration:00:04:47

Load and chunk the PDF document

1/1/2025

Duration:00:01:53

Alternative chunking strategies in LangChain

1/1/2025

Duration:00:03:18

Creating embeddings with metadata

1/1/2025

Duration:00:02:37

Using them in code

1/1/2025

Duration:00:00:48

Hybrid search with semantic and keyword

1/1/2025

Duration:00:02:32

Other retrievers you can use

1/1/2025

Duration:00:02:48

Conversation memory buffer

1/1/2025

Duration:00:01:27

LLM configuration natural language generation

1/1/2025

Duration:00:01:05

ReAct prompt template

1/1/2025

Duration:00:01:33

Building the conversational QA chain

1/1/2025

Duration:00:01:30

User chat loop

1/1/2025

Duration:00:02:50

Challenges in RAG

1/1/2025

Duration:00:04:43

4. Implementing Unimodal API-based GenAI Systems

1/1/2025

Duration:00:00:06

Getting started with OpenAI APIs and models

1/1/2025

Duration:00:00:59

OpenAI as a company

1/1/2025

Duration:00:00:48

Overview of the OpenAI API

1/1/2025

Duration:00:00:54

Core API endpoints

1/1/2025

Duration:00:00:35

Major OpenAI models

1/1/2025

Duration:00:01:52

Accessing OpenAI models

1/1/2025

Duration:00:00:55

Choosing the right model

1/1/2025

Duration:00:00:37

Best practices for beginners

1/1/2025

Duration:00:01:22

From OpenAI to agentic AI

1/1/2025

Duration:00:01:20

OpenAI’s agentic API ecosystem

1/1/2025

Duration:00:00:40

Responses API

1/1/2025

Duration:00:00:55

Agents SDK

1/1/2025

Duration:00:01:21

Operator

1/1/2025

Duration:00:00:45

Codex

1/1/2025

Duration:00:00:44

Assistants API

1/1/2025

Duration:00:00:34

Multi-document query

1/1/2025

Duration:00:04:24

Implementing modular RAG with OpenAI

1/1/2025

Duration:00:00:46

Main controller

1/1/2025

Duration:00:01:16

Configuration

1/1/2025

Duration:00:01:14

Embedding initialization

1/1/2025

Duration:00:01:03

Vector store setup

1/1/2025

Duration:00:01:51

Metadata tagging

1/1/2025

Duration:00:00:55

Document loading and chunking

1/1/2025

Duration:00:01:51

Hybrid retriever

1/1/2025

Duration:00:00:21

Enforce metadata-based filtering during retrieval

1/1/2025

Duration:00:01:43

Language model

1/1/2025

Duration:00:01:04

Prompt template

1/1/2025

Duration:00:01:17

RAG chain assembly

1/1/2025

Duration:00:02:15

Conversational memory

1/1/2025

Duration:00:00:58

Dependencies

1/1/2025

Duration:00:01:29

To do

1/1/2025

Duration:00:01:17

5. Implementing Agentic GenAI Systems with Human-in-the-loop

1/1/2025

Duration:00:00:06

Architecting agentic GenAI systems

1/1/2025

Duration:00:01:20

Parallel pattern

1/1/2025

Duration:00:01:27

Sequential pattern

1/1/2025

Duration:00:01:07

Loop pattern

1/1/2025

Duration:00:01:09

Router pattern

1/1/2025

Duration:00:01:06

Aggregator pattern

1/1/2025

Duration:00:01:02

Network pattern

1/1/2025

Duration:00:01:06

Hierarchical pattern

1/1/2025

Duration:00:01:01

Human-in-the-loop pattern

1/1/2025

Duration:00:00:58

Shared tools pattern

1/1/2025

Duration:00:00:52

Database with tools pattern

1/1/2025

Duration:00:00:54

Memory transformation using tools

1/1/2025

Duration:00:01:03

Planner-executor pattern

1/1/2025

Duration:00:01:01

Critic or validator pattern

1/1/2025

Duration:00:00:59

Negotiator pattern

1/1/2025

Duration:00:01:11

Multimodal agent pattern

1/1/2025

Duration:00:00:59

Voting or consensus pattern

1/1/2025

Duration:00:00:55

Supervisor-subordinate pattern

1/1/2025

Duration:00:01:20

Watchdog or recovery pattern

1/1/2025

Duration:00:01:00

Temporal planner pattern

1/1/2025

Duration:00:03:32

Human-in-the-loop

1/1/2025

Duration:00:04:21

End-to-end human-in-the-loop RAG workflow

1/1/2025

Duration:00:01:23

From HITL to multi-agent human-in-the-loop RAG

1/1/2025

Duration:00:05:47

Agentic AI vs. AI agents

1/1/2025

Duration:00:03:48

6. Two and Multi-stage GenAI Systems

1/1/2025

Duration:00:00:05

Concepts of interactions in dense retrievals

1/1/2025

Duration:00:00:39

No interaction

1/1/2025

Duration:00:00:56

Full interaction

1/1/2025

Duration:00:00:54

Late interaction

1/1/2025

Duration:00:01:59

Multi-vector representations

1/1/2025

Duration:00:03:50

Differentiation from late interaction architectures

1/1/2025

Duration:00:02:26

Role of interaction models in two-stage RAG systems

1/1/2025

Duration:00:00:42

Interaction in the retrieval phase

1/1/2025

Duration:00:00:50

Reranking with various interaction models

1/1/2025

Duration:00:03:21

Integration into two-stage RAG architectures

1/1/2025

Duration:00:01:09

Two-stage RAG architecture

1/1/2025

Duration:00:00:35

Stage one dense retrievals

1/1/2025

Duration:00:00:54

Stage-two, reranking for semantic precision

1/1/2025

Duration:00:00:56

The strategic role of two-stage design

1/1/2025

Duration:00:01:14

Two-stage RAG vs. late interaction

1/1/2025

Duration:00:00:32

Capabilities of ColBERT and ColPali

1/1/2025

Duration:00:01:01

Use of two-stage RAG

1/1/2025

Duration:00:01:11

Multi-stage RAG

1/1/2025

Duration:00:00:33

Beyond two-stage systems

1/1/2025

Duration:00:00:43

Components of multi-stage RAG

1/1/2025

Duration:00:01:36

Benefits of multi-stage RAG

1/1/2025

Duration:00:00:54

Types of multi-stage RAG

1/1/2025

Duration:00:05:02

Grading mechanisms

1/1/2025

Duration:00:03:33

Challenges and considerations

1/1/2025

Duration:00:00:47

Token utilization in multi-stage RAG systems

1/1/2025

Duration:00:01:58

Grading types

1/1/2025

Duration:00:11:57

Implementation of multi-stage RAG workflow with routing

1/1/2025

Duration:00:02:17

7. Building a Bidirectional Multimodal Retrieval System

1/1/2025

Duration:00:00:06

Integration and design implications

1/1/2025

Duration:00:01:07

Understanding a multimodal retrieval system

1/1/2025

Duration:00:01:44

Technical architecture

1/1/2025

Duration:00:07:27

Applications and implications

1/1/2025

Duration:00:00:41

Code implementation and explanation

1/1/2025

Duration:00:00:46

Requirement

1/1/2025

Duration:00:05:57

Frontend

1/1/2025

Duration:00:08:25

Data directory

1/1/2025

Duration:00:00:48

The retrieval system

1/1/2025

Duration:00:01:14

Loaders

1/1/2025

Duration:00:04:29

Embedding utils

1/1/2025

Duration:00:02:05

Building Multimodal Generative AI and Agentic Applications

Indrajit Kar

This audiobook is narrated by a digital voice. DESCRIPTION Generative AI and agentic AI are reshaping how we interact with data, enabling intelligent systems that can reason, generate, and autonomously act across multiple modalities. From text and...

Title Page

Copyright Page

Dedication Page

About the Author

About the Reviewers

Acknowledgement

Preface

Table of Contents

1. Introducing New Age Generative AI

Introduction

Structure

Objectives

Overview of generative AI

Retrieval system

Sparse retrieval

Dense retrieval

Generation system

Types of generation systems

Autoregressive generation

Prompting strategies

Understanding where generation systems excel

Combining retrieval and generation

Retrieval-augmented generation

RAG working

Architecture of a basic RAG pipeline

Types of RAG architectures

Iterative RAG

Vector databases and RAG

Prompt engineering for RAG

Advanced RAG techniques

Applications of RAG

Orchestration in AI systems

Orchestration in RAG systems

Orchestration in agentic systems

Tokens in AI systems

Vector database

Understanding vector databases

Indexing algorithms in vector databases

Search algorithms in vector databases

Embeddings and embedding models

Importance of vector databases for RAG and agentic systems

Reranking

Bi-encoders vs. cross-encoders

Cross-encoders for reranking

Guardrails

Types of guardrails

Methods of applying guardrails

Without guardrails

Industry examples of guardrail solutions

Agents

Agentic RAG vs. non-agentic RAG

Model Context Protocols

Conclusion

2. Deep Dive into Multimodal Systems

Understanding vision-language models

Categories of vision-language models

Core architectural components of vision-language models

Challenges in vision-language models

Multimodal GenAI system

Multimodal vector embedding

Multimodal vector database

Collections

Points and point IDs

Vectors

Payload

Storage and vector store

Indexing

Implementation comparisons

Single collection, partitioned via payload

Multiple collections with global indexing

Multimodal generative AI systems vs. VLMs

Vision-language models

Multimodal generative AI systems

Using vision-language models

Using multimodal generative AI systems

Real-world example comparison

Output-based classification of multimodal systems