LLM سے چلنے والی Action Planning

تعارف

Large Language Models (LLMs) جیسے GPT-4، Claude، اور Llama انسانی کمانڈز کو عملی روبوٹ اعمال میں تبدیل کر سکتے ہیں۔ LLM کو ایک "task planner" کے طور پر سوچیں جو high-level ارادوں کو قابل عمل اقدامات میں توڑتا ہے۔

کیسے کام کرتا ہے

1. صارف کمانڈ

"میز سے لال کپ لاؤ"

2. LLM تقسیم

[
  {"action": "navigate_to", "params": {"location": "table"}},
  {"action": "detect_object", "params": {"description": "red cup"}},
  {"action": "grasp_object", "params": {"object_id": "detected_cup"}},
  {"action": "navigate_to", "params": {"location": "user"}}
]

Prompt Engineering

SYSTEM_PROMPT = """
آپ ایک انسان نما روبوٹ کے لیے task decomposition expert ہیں۔

دستیاب Actions:
1. navigate_to(location: str)
2. detect_object(description: str)
3. grasp_object(object_id: str)
4. place_object(location: str)
"""

فوائد

✅ لچک: نئے کام programming کے بغیر ✅ قدرتی interface: آسان زبان میں ✅ ذہین تقسیم: پیچیدہ کام

جاری رکھیں: Whisper تقریر کی شناخت

حوالہ جات

Ahn, M., et al. (2022). Do As I Can, Not As I Say. arXiv:2204.01691.

تعارف​

کیسے کام کرتا ہے​

1. صارف کمانڈ​

2. LLM تقسیم​

Prompt Engineering​

فوائد​

حوالہ جات​