logo
0
0
WeChat Login
localizeflow[bot]<skytin1004@users.noreply.github.com>
chore(i18n): sync translations with latest source changes (chunk 1/1, 237 changes)

ఉత్పత్తిలో AI ఏజెంట్లు: గమనీయత & మూల్యాంకన

ఉত్పత్తిలో AI ఏజెంట్లు

AI ఏజెంట్లు ప్రయోగాత్మక ప్రోటోటైప్స్ నుంచి వాస్తవ ప్రపంచ అనువర్తనాలకు తరలిచేప్పుతున్నప్పుడు, వాటి நடத்த ను అర్థం చేసుకోవడం, పనితీరును పర్యవేక్షించడం, మరియు అవి ఉత్పత్తి చేసే అవుట్పుట్‌లను శాస్త్రీయంగా మూల్యాంకనం చేయడం కీలకంగా మారుతుంది.

నేర్చుకోవాల్సిన లక్ష్యాలు

ఈ పాఠాన్ని పూర్తి చేసిన తర్వాత, మీరు ఎలా చేయాలో/అర్థం చేసుకుంటారు:

  • ఏజెంట్ ఆకవరణ (observability) మరియు మూల్యాంకన యొక్క ప్రాథమిక ధారణలు
  • ఏజెంట్ల పనితీరు, ఖర్చులు మరియు ప్రభావాన్ని మెరుగుపరచడానికి టెక్నిక్‌లు
  • మీ AI ఏజెంట్లను వ్యవస్థాత్మకంగా ఏమి మరియు ఎలా మూల్యాంకనం చేయాలో
  • AI ఏజెంట్లను ఉత్పత్తిలో విడుదల చేసినప్పుడు ఖర్చులను ఎలా నియంత్రించాలో
  • Microsoft Agent Framework తో నిర్మింపబడిన ఏజెంట్లను ఎలా ఇన్‌స్ట్రుమెంట్ చేయాలో

లక్ష్యం మీ "బ్లాక్ బాక్స్" ఏజెంట్లను పారదర్శక, నిర్వహించదగిన మరియు నమ్మదగిన వ్యవస్థలుగా మార్పు చేయడానికి అవసరమైన జ్ఞానాన్ని అందించడం.

గమనిక: AI ఏజెంట్లను సురక్షితంగా మరియు నమ్మదగినవిగా చేస్తూ ڈیپلాయ్ చేయడం ముఖ్యము. దయచేసి Building Trustworthy AI Agents పాఠాన్ని కూడా చూడండి.

ట్రేస్‌లు మరియు స్పాన్లు

Langfuse లేదా Microsoft Foundry వంటి గమనీయత సాధనాలు సాధారణంగా ఏజెంట్ నడిచే ప్రక్రియలను ట్రేస్‌లు మరియు స్పాన్లుగా ప్రస్తావిస్తాయి.

  • ట్రేస్ ఒక పూర్తి ఏజెంట్ టాస్క్‌ని ప్రారంభం నుండి ముగింపుకి ప్రతిపాదిస్తుంది (ఉదాహరణకు, ఒక వినియోగదారుడి ప్రశ్నను నిర్వహించడం).
  • స్పాన్లు ట్రేస్‌లోని వ్యక్తిగత దశలు (ఉదాహరణకు, ఒక భాషా మోడల్‌ను పిలవటం లేదా డేటాను తిరిగి పొందటం).

Langfuseలో ట్రేస్ ట్రీ

గమనీయత లేకపోతే, ఒక AI ఏజెంట్ "బ్లాక్ బాక్స్" లా అనిపించవచ్చు - దాని అంతర్గత స్థితి మరియు తర్కం అపారదర్శకంగా ఉంటుంది, సమస్యలను నిర్ధారించడం లేదా పనితీరును మెరుగుపరచడం కష్టం అవుతుంది. గమనీయతతో, ఏజెంట్లు "గ్లాస్ బాక్స్" లా మారతాయి, ఇది విశ్వాసాన్ని నిర్మించడానికి మరియు అవి ఉద్దేశించినట్లు పనిచేస్తున్నాయి అని నిర్ధారించడానికి అవసరమైన పారదర్శకతను అందిస్తుంది।

ఉత్పత్తి వాతావరణాలలో గమనీయత ఎందుకు ముఖ్యమే

AI ఏజెంట్లను ఉత్పత్తి వాతావరణాలకు తరలిస్తున్నప్పుడు కొత్త ప్రతికూలతలు మరియు అవసరాలు ఎదురవుతాయి. గమనీయత ఇకపై "చాలా బాగుంది" అనే అంశంగా ఉండదు, కాని ఒక కీలక సామర్థ్యంగా మారుతుంది:

  • డీబగ్గింగ్ మరియు మూల కారణ విశ్లేషణ: ఏజెంట్ ఎదుర్కొన్నప్పుడు లేదా ఆశించినట్లుగా కాకుండా అవుట్పుట్ ఇచ్చినప్పుడు, గమనీయత సాధనాలు పొరపాటును గుర్తించడానికి అవసరమైన ట్రేస్‌లను అందిస్తాయి. ఇది బహుళ LLM కాల్‌లు, టూల్ పరస్పర చర్యలు మరియు షరతు లాజిక్ ఉండే సంక్లిష్ట ఏజెంట్లలో ప్రత్యేకంగా ముఖ్యము.
  • విలంబం మరియు ఖర్చు నిర్వహణ: AI ఏజెంట్లు తరచుగా టోకెన్ లేదా కాల్ ప్రాతిపదికన బిల్లింగ్ చేసే LLMలు మరియు ఇతర బాహ్య APIలపై ఆధారపడతాయి. గమనీయత ఈ కాల్‌లను ఖచ్చితంగా ట్రాక్ చేయడానికి సహాయపడుతుంది, ఇవి చాలా నెమ్మదిగా లేదా ఖరీదైన ఆపరేషన్లను గుర్తించడంలో సహాయపడుతుంది. ఇది టీమ్స్‌కి ప్రాంప్ట్‌లు ఆప్టిమైజ్ చేయడానికి, సమర్థవంతమైన మోడళ్ళను ఎంచుకోవడానికి, లేదా ఆపరేషనల్ ఖర్చులను నిర్వహించేందుకు వర్క్‌ఫ్లోలను తిరిగి రూపకల్పన చేయడానికి అవకాశాన్ని కల్పిస్తుంది.
  • నమ్మకం, సేఫ్టీ మరియు అనుగుణత: అనేక అనువర్తనాల్లో, ఏజెంట్లు సురక్షితంగా మరియు నైతికంగా ప్రవర్తిస్తున్నాయో చూడటం ముఖ్యం. గమనీయత ఏజెంట్ చర్యలు మరియు నిర్ణయాల ఆడిట్ ట్రెయిల్‌ను అందిస్తుంది. ఇది ప్రాంప్ట్ ఇంజెక్షన్, హానికరమైన కంటెంట్ ఉత్పత్తి లేదా వ్యక్తిగతంగా గుర్తించగల సమాచారం (PII) యొక్క తప్పుగా నిర్వహణ వంటి సమస్యలను గుర్తించడానికి మరియు తగ్గించడానికి ఉపయోగపడుతుంది. ఉదాహరణకి, ఏజెంట్ ఒక నిర్దిష్ట ప్రతిస్పందన ఎందుకు ఇచ్చిందో లేదా ఒక నిర్దిష్ట టూల్ ఎందుకు ఉపయోగించాడో అర్ధం చేసుకోవడానికి మీరు ట్రేస్‌లను సమీక్షించవచ్చు.
  • సతత మెరుగుదల లూప్స్: గమనీయత డేటా ఒక ఆవృత అభివృద్ధి ప్రక్రియ యొక్క పునాది. ఏజెంట్లు వాస్తవ ప్రపంచంలో ఎలా ప్రదర్శిస్తున్నాయో పరిశీలించడం ద్వారా, టీమ్స్ మెరుగుదల కోసం ప్రాంతాలను గుర్తించవచ్చు, మోడళ్లను ఫైన్-ట్యూన్ చేయడానికి డేటా సేకరించవచ్చు, మరియు మార్పుల ప్రభావాన్ని ధృవీకరించవచ్చు. ఇది ఒక ఫీడ్‌బ్యాక్ లూప్‌ను సృష్టిస్తుంది, ఎక్కడ ఆన్లైన్ మూల్యాంకన నుండి పొందిన ఉత్పత్తి అవగాహన ఆఫ్‌లైన్ ప్రయోగానికి మరియు శోధనకు ఉపయోగపడతాయి, తద్వారా ఏజెంట్ పనితీరులో క్రమంగా మెరుగుదల వస్తుంది.

ట్రాక్ చేయవలసిన కీలక మీట్రిక్స్

ఏజెంట్ ప్రవర్తనను పర్యవేక్షించడానికి మరియు అర్థం చేసుకోవడానికి, అనేక మీట్రిక్స్ మరియు సంకేతాలను ట్రాక్ చేయాలి. ఏజెంట్ యొక్క ప్రయోజనంపై ఆధారపడి నిర్దిష్ట మీట్రిక్స్ మారవచ్చు, కానీ కొన్ని సాధారణంగా ముఖ్యమైనవే.

ఇవి గమనీయత సాధనాలు తరచుగా పర్యవేక్షించే అత్యంత అంతర్గత మీట్రిక్స్‌లో కొన్ని:

విలంబం: ఏజెంట్ ఎంత త్వరగా ప్రతిస్పందిస్తుందో? దీర్ఘ ఆగండి సమయాలు వినియోగదారుల అనుభవాన్ని ప్రతికూలంగా ప్రభావితం చేస్తాయి. ఏజెంట్ రన్‌లను ట్రేస్ చేయడం ద్వారా పనుల మరియు వ్యక్తిగత దశల కోసం విలంబాన్ని కొలవాలి. ఉదాహరణకి, అన్ని మోడల్ కాల్‌లకు మొత్తం 20 సెకన్లు పడితే, ఫాస్టర్ మోడల్ ఉపయోగించడం లేదా మోడల్ కాల్‌లను సమాంతరంగా నిర్వహించడం ద్వారా వేగవంతం చేయవచ్చు.

ఖర్చులు: ప్రతి ఏజెంట్ రన్‌కు ఖర్చు ఎంత? AI ఏజెంట్లు టోకెన్ లేదా బాహ్య API కాల్‌ల ద్వారా బిల్లింగ్ చేసే LLM కాల్స్‌పై ఆధారపడతాయి. తరచుగా టూల్ ఉపయోగం లేదా బహుళ ప్రాంప్ట్‌లు ఖర్చులను వేగంగా పెంచవచ్చు. ఉదాహరణకి, ఒక ఏజెంట్ నాణ్యమైన మెరుగుదల కోసం LLMను ఐదు సార్లు పిలుస్తే, ఖర్చు న్యాయైత్యాన్ని పరిశీలించాలి లేదా కాల్స్ సంఖ్యను తగ్గించగలిగితే లేదా సস্তా మోడల్ ఉపయోగించగలిగితే చూడాలి. రియల్-టైమ్ మానిటరింగ్ అసాధారణ పీక్‌లను (ఉదా. బగ్‌ల కారణంగా అధిక API లూప్‌లు) గుర్తించడంలో కూడా సహాయపడుతుంది.

అభ్యర్థన లోపాలు: ఏజెంట్ ఎంతమంది అభ్యర్థనలు విఫలమయ్యారు? దీనిలో API లోపాలు లేదా విఫలమైన టూల్ కాల్‌లు ఇవ్వబడవచ్చు. ఉత్పత్తిలో వీటికి ఏజెంట్ను మరింత బలంగా చేయడానికి, మీరు ఫాల్బ్యాక్‌లు లేదా రీట్రైలు అమర్చవచ్చు. ఉదా. LLM ప్రొవైడర్ A డౌన్ అయితే, మీరు బ్యాకప్‌గా LLM ప్రొవైడర్ Bకి మారితే.

వాడుకరి అభిప్రాయం: ప్రత్యక్ష వాడుకరి మూల్యాంకనాలు విలువైన అవగాహనలను అందిస్తాయి. ఇందులో స్పష్టమైన రేటింగ్‌లు (👍thumbs-up/👎down, ⭐1-5 స్టార్‌లు) లేదా టెక్స్టువల్ కామెంట్స్ ఉండవచ్చు. నిరంతర నెగిటివ్ ఫీడ్బ్యాక్ ఉంటే అది ఏజెంట్ ఆశించినట్లుగా పని చేయడంలేదని సూచిస్తుంది.

సూచనాత్మక వాడుకరి ఫీడ్బ్యాక్: ప్రత్యక్ష రేటింగ్‌ల లేకుండానే కూడా వాడుకరి ప్రవర్తనలు పరోక్ష ఫీడ్బ్యాక్ అందిస్తాయి. దీనిలో తక్షణ ప్రశ్నను మళ్లీ వ్రాయడం, పునరావృత ప్రశ్నలు లేదా ఒక రిట్రై బటన్‌ను క్లిక్ చేయడం వంటి రీతులు ఉంటాయి. ఉదా. వినియోగదారులు ఒకే ప్రశ్నను తరచుగా అడిగితే, ఇది ఏజెంట్ ఆశించినంతగా పనిచేస్తోందని సూచించదు.

ఖచ్చితత్వం: ఏజెంట్ ఎంత తరచుగా సరైన లేదా కోరుకున్న అవుట్పుట్‌లను ఉత్పత్తి చేస్తుంది? ఖచ్చితత్వ నిర్వచనాలు మారవచ్చు (ఉదా. సమస్య పరిష్కార ఖచ్చితత్వం, సమాచార అరవరు ఖచ్చితత్వం, వినియోగదారు సంతృప్తి). సక్సెస్ ఎలా కనిపిస్తుందో నిర్వచించడం మొదటి దశ. మీరు ఆటోమేటెడ్ చెక్ల్స్, మూల్యాంకన స్కోర్లు లేదా టాస్క్ కంప్లీషన్ లేబుల్స్ ద్వారా ఖచ్చితత్వాన్ని ట్రాక్ చేయవచ్చు. ఉదాహరణకి, ట్రేస్‌లను "succeeded" లేదా "failed" గా లేబుల్ చేయడం.

స్వయంచాలిత మూల్యాంకన ప్రమాణాలు: మీరు ఆటోమేటెడ్ ఎవల్స్ కూడా అమర్చవచ్చు. ఉదాహరణకి, ఆ ఏజెంట్ ఔట్పుట్ సహాయకరమా, ఖచ్చితమా లేదా కాదా అని స్కోర్ చేయడానికి LLM ను ఉపయోగించవచ్చు. వివిధ అంశాలను స్కోర్ చేయడంలో సహాయపడే అనేక ఓపెన్ సోర్స్ లైబ్రరీలు కూడా ఉన్నాయి. ఉదా. RAG ఏజెంట్ల కోసం RAGAS లేదా హానికర భాష లేదా ప్రాంప్ట్ ఇంజెక్షన్ గుర్తించడానికి LLM Guard.

వాస్తవికంగా, ఈ మీట్రిక్స్ సంయోగం ఒక AI ఏజెంట్ యొక్క ఆరోగ్యం యొక్క ఉత్తమ కవరేజ్ అందిస్తుంది. ఈ అధ్యాయం example notebook లో, మేము ఈ మీట్రిక్స్ ఏలా వాస్తవ ఉదాహరణల్లో కనిపిస్తాయో చూపిస్తాము కానీ ముందుగా, ఒక సాధారణ మూల్యాంకన పనిప్రవాహం ఎలా ఉంటుందో నేర్చుకుందాం.

మీ ఏజెంట్‌ను ఇన్‌స్ట్రుమెంట్ చేయండి

ట్రేసింగ్ డేటా సేకరించడానికి, మీరు మీ కోడ్‌ను ఇన్‌స్ట్రుమెంట్ చేయాలి. లక్ష్యం ఏజెంట్ కోడ్‌ని ఇన్‌స్ట్రుమెంట్ చేయడం, తద్వారా ట్రేస్‌లు మరియు మీట్రిక్స్ ఉత్పత్తి అవ్వాలని, అవి ఒక గమనీయత ప్లాట్‌ఫారమ్ ద్వారా క్యాప్చర్, ప్రాసెస్ మరియు విజువల్ చేయబడ్డాయి.

OpenTelemetry (OTel): OpenTelemetry LLM గమనీయతకు ఒక పరిశ్రమ ప్రమాణంగా అవతరించింది. ఇది టెలిమెట్రీ డేటా ఉత్పత్తి చేయడానికి, సేకరించడానికి, మరియు ఎక్స్‌పోర్ట్ చేయడానికి APIలు, SDKలు, మరియు సాధనాల‌ను అందిస్తుంది.

అనేక ఇన్‌స్ట్రుమెంటేషన్ లైబ్రరీలు ఉన్నాయి, ఇవి ఉన్న ఏజెంట్ ఫ్రేమ్‌వర్క్‌లను రాప్ చేసి OpenTelemetry స్పాన్లను గమనీయత సాధనానికి ఎగుమతి చేయడం సులభతరం చేస్తాయి. Microsoft Agent Framework సహజంగానే OpenTelemetryతో ఇంటిగ్రేట్ అవుతుంది. దిగువకు MAF ఏజెంట్‌ను ఇన్‌స్ట్రుమెంటింగ్ చేసే ఉదాహరణ ఉంది:

from agent_framework.observability import get_tracer, get_meter tracer = get_tracer() meter = get_meter() with tracer.start_as_current_span("agent_run"): # ఏజెంట్ అమలు స్వయంచాలకంగా ట్రేస్ చేయబడుతుంది pass

ఈ అధ్యాయంలోని example notebook మీ MAF ఏజెంట్‌ను ఎలా ఇన్‌స్ట్రుమెంట్ చేయాలో ప్రదర్శించుతుంది.

మాన్యువల్ స్పాన్ క్రియేషన్: ఇన్‌స్ట్రుమెంటేషన్ లైబ్రరీలు బేస్‌లైన్‌ను అందించినప్పటికీ, మరిన్ని వివరణాత్మక లేదా అనుకూల సమాచారాన్ని అవసరంగా ఉండే సందర్భాలు తరచుగా ఉంటాయి. మీరు ఆప్లికేషన్-స్పెసిఫిక్ లాజిక్ జోడించడానికి మాన్యువల్‌గా స్పాన్లను సృష్టించవచ్చు. మరింత ముఖ్యంగా, అవి ఆటోమేటిగ్గా లేదా మాన్యువల్‌గా సృష్టించబడిన స్పాన్లను అనుకూల గుణలతో (ట్యాగ్‌లు లేదా మెటాడేటా అని కూడా పిలవబడే) సమృద్ధి చేయవచ్చు. ఈ గుణాలలో వ్యాపార-స్పెసిఫిక్ డేటా, మధ్యంతర గణనల లేదా డీబగ్గింగ్ లేదా విశ్లేషణకు ఉపయోగపడే ఏ సందర్భం అయినా ఉండవచ్చు, ఉదాహరణకు user_id, session_id, లేదా model_version.

Langfuse Python SDK తో ట్రేస్‌లు మరియు స్పాన్లను మాన్యువల్‌గా సృష్టించడానికి ఉదాహరణ:

from langfuse import get_client langfuse = get_client() span = langfuse.start_span(name="my-span") span.end()

ఏజెంట్ మూల్యాంకనం

గమనీయత మాకు మీట్రిక్స్‌ను ఇస్తుంది, కానీ మూల్యాంకనం అనేది ఆ డేటాను విశ్లేషించడం (మరియు పరీక్షలు నిర్వహించడం) ద్వారా AI ఏజెంట్ ఎంత బాగా పని చేస్తుందో మరియు దాన్ని ఎలా మెరుగుపరచాలో నిర్ణయం తీసుకోవడం. అంటే, ఒకసారి మీకు ఆ ట్రేస్‌లు మరియు మీట్రిక్స్ ఉంటే, వాటిని ఏజెంట్‌ను న్యాయంగా తీర్పు చేయడానికి మరియు నిర్ణయాలు తీసుకోవడానికి మీరు ఎలా ఉపయోగిస్తారు?

నియమిత మూల్యాంకనం ముఖ్యం, ఎందుకంటే AI ఏజెంట్లు తరచుగా అనిశ్చిత (non-deterministic) ఉంటాయి మరియు(times updates or drifting model behavior) అభివృద్ధి చెందవచ్చు – మూల్యాంకన లేకుండా, మీ “స్మార్ట్ ఏజెంట్” నిజంగా మంచిగా పని చేస్తున్నదా లేదా తప్పిపోయిందో మీరు తెలుసుకోలేరు.

AI ఏజెంట్లకు రెండు వర్గాలైన మూల్యాంకనాలు ఉండి ఉంటాయి: ఆన్‌లైన్ మూల్యాంకన మరియు ఆఫ్‌లైన్ మూల్యాంకన. రెండు ముఖ్యం మరియు పరస్ఫర పరిపూరకంగా ఉంటాయి. సాధారణంగా మేము ఆఫ్‌లైన్ మూల్యాంకనతో మొదలు పెడతాం, ఎందుకంటే ఇది ఏ ఏజెంట్ ను పంపిణీ చేయడానికి ముందు కనీస అవసరమైన దశ.

ఆఫ్‌లైన్ మూల్యాంకన

Langfuseలో డేటాసెట్ అంశాలు

ఇది నియంత్రించబడిన పరిసరంలో ఏజెంట్‌ను మూల్యాంకనం చేయడాన్ని సూచిస్తుంది, సాధారణంగా పరీక్షా డేటాసెట్‌లు ఉపయోగించి, ప్రత్యక్ష వినియోగదారు ప్రశ్నలు కాకుండా. మీరు ఆశించిన అవుట్పుట్ లేదా సరైన ప్రవర్తన ఏమిటో మీకు తెలుసಿರುವ క్యూఱేటెడ్ డేటాసెట్‌లను ఉపయోగించి ఏజెంట్‌ను అమలు చేస్తారు.

ఉదాహరణకి, మీరు ఒక గణిత పద-సమస్య ఏజెంట్‌ని నిర్మించినట్లయితే, మీకోటి పరిష్కారాలతో తెలిసిన సమాధానాలని కలిగిన 100 ప్రశ్నల పరీక్షా డేటాసెట్ ఉండవచ్చు. ఆఫ్‌లైన్ మూల్యాంకనను అభివృద్ధి సమయంలో చేయడం సాధారణం (మరియు ఇది CI/CD పైప్లైన్లలో భాగంగా ఉండవచ్చు) ఇక్కడ మార్పులను తనిఖీ చేయడానికి లేదా వెనుదిరగని స్థితులను నిరోధించడానికి ఉపయోగపడుతుంది. లాభం ఏమిటంటే ఇది పునరావృతం చేయదగినది మరియు మీకు గ్రౌండ్ ట్రూత్ ఉండటం వల్ల స్పష్టమైన ఖచ్చితత్వ మీట్రిక్స్ పొందవచ్చు. మీరు వినియోగదారు ప్రశ్నలను అనుకరించి ఏజెంట్ యొక్క ప్రతిస్పందనలను ఆదర్శ సమాధానాలకోసం కొలవచ్చు లేదా పైగా వివరణలో చెప్పినట్లుగా ఆటోమేటెడ్ మీట్రిక్స్ ఉపయోగించవచ్చు.

ఆఫ్‌లైన్ ఎవల్యూషన్‌లో ప్రధాన సవాల్ మీ పరీక్షా డేటాసెట్ పూర్ణంగా ఉండేటట్లు మరియు సంబంధితంగా ఉండేటట్లు చేయడం – ఏజెంట్ ఒక నిర్దిష్ట పరీక్షా సెట్‌లో బాగా పనితీరు చూపవచ్చు కానీ ఉత్పత్తిలో చాలా వేరొక రకమైన ప్రశ్నలను ఎదుర్కొంటుంది. కాబట్టి, మీ పరీక్షా సెట్‌లను తాజా ఎడ్జ్ కేసులు మరియు వాస్తవ ప్రపంచ ఉదాహరణలతో నవీకరించాలి. ఒక చిన్న "స్మోక్ టెస్ట్" కేసులు మరియు పెద్ద ఎవల్యూషన్ సెట్‌ల మిశ్రమం ఉపయోగకరం: త్వరిత తనిఖీలు కోసం చిన్న సెట్‌లు మరియు విస్తృత పనితీరు మీట్రిక్స్ కోసం పెద్దవి.

ఆన్‌లైన్ మూల్యాంకన

ఆబ్జర్వబిలిటీ మీట్రిక్స్ అవలోకనం

ఇది లైవ్, వాస్తవ ప్రపంచ పరిసరాల్లో, అంటే ఉత్పత్తిలో వాస్తవ వినియోగంలో ఏజెంట్‌ను మూల్యాంకనం చేయడాన్ని సూచిస్తుంది. ఆన్‌లైన్ మూల్యాంకనలో నిజ జీవన వినియోగదారుల పరస్పర చర్యలపై ఏజెంట్ పనితీరును పర్యవేక్షించడం మరియు ఫలితాలను నిరంతరం విశ్లేషించడం ఉంటుంది.

ఉదాహరణకి, మీరు విజయ రేట్లు, వినియోగదారు సంతృప్తి స్కోర్లు, లేదా లైవ్ ట్రాఫిక్ పై ఇతర మీట్రిక్స్ ట్రాక్ చేయవచ్చు. ఆన్‌లైన్ మూల్యాంకన యొక్క లాభం ఏమంటే ఇది ప్రయోగశాల పరిసరంలో ఊహించని సంగతులను పట్టుకోవచ్చు – మీరు మోడల్ డ్రిఫ్ట్‌ను కాలానుగుణంగా (ఎంట్రి నమూనాలు మారినప్పుడు ఏజెంట్ యొక్క ప్రభావం తగ్గితే) గమనించవచ్చు మరియు మీ పరీక్షా డేటాలో లేనివిధంగా అనూహ్య ప్రశ్నలు లేదా పరిస్థితులను పట్టుకోవచ్చు. ఇది ఏజెంట్ అరణ్యంలో ఎలా ప్రవర్తిస్తుందో నిజమైన చిత్రం అందిస్తుంది.

ఆన్‌లైన్ మూల్యాంకనలో తరచుగా సూచనాత్మక మరియు ప్రకటనాత్మక వాడుకరి ఫీడ్‌బ్యాక్ సేకరించడం, అలాగే షాడో టెస్టులు లేదా A/B టెస్టులు నిర్వహించడం ఉంటుంది (ఇక్కడ కొత్త వెర్షన్ పాతదట్టి పోల్చడానికి ప్లే పరస్పరంగా నడుస్తుంది). సవాల్ ఏమిటంటే లైవ్ పరస్పర చర్యలకు నంబర్లైన లేబుల్స్ లేదా స్కోర్లు పొందడం కష్టం కావచ్చు – మీరు వాడుకరి ఫీడ్‌బ్యాక్ లేదా డౌన్‌స్ట్రీమ్ మీట్రిక్స్ (ఉదా. వినియోగదారు ఫలితాన్ని క్లిక్ చేశాడా) పేర్కొనాల్సి ఉంటుంది.

రెండింటిని కలిపి ఉపయోగించడం

ఆన్‌లైన్ మరియు ఆఫ్‌లైన్ మూల్యాంకనాలు పరస్పర విరుద్ధం కావు; అవి బహుళంగా పరస్ఫర పరిపూరకంగా ఉంటాయి. ఆన్‌లైన్ మానిటరింగ్ నుంచి వచ్చిన అవగాహన (ఉదా. ఏజెంట్ బలహీనంగా ప్రదర్శిస్తున్న కొత్త రకాల వినియోగదారు ప్రశ్నలు) ఆఫ్‌లైన్ పరీక్షా డేటాసెట్‌లను పెంచడానికి మరియు మెరుగుపరచడానికి ఉపయోగించవచ్చు. వీపైన, ఆఫ్‌లైన్ పరీక్షల్లో బాగా ప్రదర్శించే ఏజెంట్లు మరింత నమ్మకంగా ఉత్పత్తికి పంపబడవచ్చు మరియు ఆన్‌లైన్‌లో పర్యవేక్షించబడవచ్చు.

అసలే, అనేక టీమ్స్ ఒక లూప్‌ను అవలంబిస్తారు:

ఆఫ్‌లైన్‌లో మూల్యాంకనం -> డిప్లాయ్ -> ఆన్‌లైన్‌లో పర్యవేక్షణ -> కొత్త విఫల కేసులను సేకరించండి -> ఆఫ్‌లైన్ డేటాసెట్‌కి జత చేయండి -> ఏజెంట్‌ను మెరుగుపరుచండి -> పునరావృతం.

సాధారణ సమస్యలు

AI ఏజెంట్లను ఉత్పత్తిలో విడుదల చేస్తుండగా, మీరు వివిధ సవాళ్లను ఎదుర్కొనవచ్చు. ఇక్కడ కొన్ని సాధారణ సమస్యలు మరియు వాటి సాధ్యమైన పరిష్కారాలు ఇచ్చాయి:

సమస్యసంభవ పరిష్కారం
AI ఏజెంట్ క్రమంగా పనులు చేస్తున్నట్లుగా లేదు- AI ఏజెంట్‌కి ఇచ్చిన ప్రాంప్ట్‌ను మెరుగుపరచండి; లక్ష్యాలను స్పష్టంగా తెలియజేయండి.
- టాస్క్‌లను ఉపటాస్క్‌లుగా విభజించి బహుళ ఏజెంట్ల ద్వారా నిర్వహించడం సహాయపడుతుందా అన్నది గుర్తించండి.
AI ఏజెంట్ నిరంతర లూప్‌లలో పడిపోతున్నది- ఏజెంట్ ప్రాసెస్ ఎప్పుడు ఆపు కోవాలో స్పష్టమైన ముగింపు నిబంధనలు ఉండేలా చేయండి.
- తర్కం మరియు ప్లానింగ్ అవసరమయ్యే సంక్లిష్ట టాస్క్‌ల కోసం reasoning-specialized పెద్ద మోడల్‌ను ఉపయోగించండి.
AI ఏజెంట్ టూల్ కాల్‌లు బాగా పని చేయడం లేదు- ఏజెంట్ సిస్టమ్ బయట టూల్ యొక్క ఔట్పుట్‌ను పరీక్షించి ధృవీకరించండి.
- నిర్వచించబడిన పరామితులు, ప్రాంప్ట్‌లు మరియు టూల్‌ల పేరుల్ని మెరుగు పరచండి.
బహుళ-ఏజెంట్ సిస్టమ్ స్థిరంగా పని చేయడం లేదు- ప్రతి ఏజెంట్‌కి ఇచ్చే ప్రాంప్ట్‌లను స్పష్టమయినవి మరియు ఒకదానికొకటి భిన్నంగా ఉండేలా మెరుగు పరచండి.
- సరైన ఏజెంట్‌ను నిర్ణయించడానికి "రౌటింగ్" లేదా కంట్రోలర్ ఏజెంట్ ఉపయోగించి ఒక హైరార్కికల్ వ్యవస్థను నిర్మించండి.

ఈ సమస్యలలో చాలా వాటిని గమనీయత ఉండగా మరింత సమర్థవంతంగా గుర్తించవచ్చు. ముందుగా చర్చించిన ట్రేస్‌లు మరియు మీట్రిక్స్ ఏజెంట్ వర్క్‌ఫ్లోలో సమస్యలు ఎక్కడ సంభవిస్తున్నాయో ఖచ్చితంగా గుర్తించడంలో సహాయం చేస్తాయి, డీబగ్గింగ్ మరియు ఆప్టిమైజేషన్‌ను చాలా ఆధిక్యంగా చేస్తాయి.

ఖర్చులను నిర్వహించడం

AI ఏజెంట్లను ప్రొడక్షన్‌కి డిప్లాయ్ చేయడానికి వచ్చే ఖర్చులను నిర్వహించడానికి కొన్ని వ్యూహాలు ఇక్కడ ఉన్నాయి:

Using Smaller Models: Small Language Models (SLMs) కొన్ని agentic ఉపయోగకాలలో బాగా పనితీరు కనబరిచి ఖర్చులను గణనీయంగా తగ్గిస్తాయి. ముందుగా పేర్కొన్నట్లే, పనితీరు‌ను పెద్ద మోడల్స్‌తో పోల్చి నిర్ణయించడానికి మరియు దానిని ఒప్పిచేయడానికి ఒక మూల్యాంకన వ్యవస్థను నిర్మించడం SLM మీ వినియోగ కేసులో ఎంత బాగా పనిచేస్తుందో అర్థం చేసుకోవడానికి ఉత్తమ మార్గం. సరళమైన పనుల కోసం, ఉదాహరణకు intent classification లేదా parameter extraction వంటి వాటికి SLMs ఉపయోగించడాన్ని పరిగణనలోకి తీసుకోండి, మరియు సంక్లిష్ట reasoning కోసం పెద్ద మోడల్స్‌ను ఉంచి వేయండి.

Using a Router Model: ఒకటిలాగే వ్యూహం వివిధ మోడల్స్ మరియు పరిమాణాలను ఉపయోగించడం. మీరు LLM/SLM లేదా serverless function ఉపయోగించి, సంక్లిష్టత ఆధారంగా అభ్యర్థనలను ఉత్తమ సరిపోయే మోడల్స్‌కి రూట్ చేయవచ్చు. ఇది సరైన పనులపై పనితీరును నిర్ధారించడమే కాకుండా ఖర్చులను కూడా తగ్గించడంలో సహాయపడుతుంది. ఉదాహరణకు, సరళమైన ప్రశ్నలను చిన్న, వేగవంతమైన మోడల్స్‌కు రూట్ చేయండి, మరియు ఖరీదైన పెద్ద మోడల్స్‌ను కేవలం సంక్లిష్ట reasoning పనులకు మాత్రమే ఉపయోగించండి.

Caching Responses: సాధారణమైన అభ్యర్థనలను మరియు పనులను గుర్తించి, అవి మీ agentic సిస్టమ్ ద్వారా వెళ్లేముందే వాటికి జవాబులు అందించడం సమానమైన అభ్యర్థనల పరిమాణాన్ని తగ్గించడానికి మంచి మార్గం. కేవలం చిన్న AI మోడల్స్‌ను ఉపయోగించి ఒక ఫ్లో అమలు చేసి, ఒక అభ్యర్థి మీ క్యాష్ చేయబడిన అభ్యర్థనలతో ఎంతవరకు సమానమో గుర్తించవచ్చు. తరచుగా అడిగే ప్రశ్నలు లేదా సాధారణ వర్క్‌ఫ్లోల కోసం ఈ వ్యూహం ఖర్చులను గణనీయంగా తగ్గించగలదు.

ఇది व्यवहारంలో ఎలా పనిచేస్తుందో చూద్దాం

In the example notebook of this section, we’ll see examples of how we can use observability tools to monitor and evaluate our agent.

ప్రొడక్షన్‌లోని AI ఏజెంట్ల గురించి మరిన్ని ప్రశ్నలున్నాయా?

Join the Microsoft Foundry Discord to meet with other learners, attend office hours and get your AI Agents questions answered.

గత పాఠం

Metacognition Design Pattern

తదుపరి పాఠం

Agentic Protocols


నిరాకరణ: ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాలలో తప్పులు లేదా లోపాలు ఉండవచ్చని దయచేసి గమనించండి. దాని స్థానిక (మూల) భాషలో ఉన్న మూల పత్రాన్ని అధికారిక మూలంగా పరిగణించాలి. అత్యంత ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదాన్ని ఉపయోగించడంవల్ల కలిగిన ఏవైనా అపార్థాలు లేదా తప్పుగా అర్థమయ్యే విషయాలకు మేము బాధ్యులు కాదు.