Capstone: خودکار انسان نما Architecture
تعارف
اب ہم تمام اجزاء کو ایک مکمل خودکار نظام میں integrate کرتے ہیں۔
مکمل VLA Pipeline
انسانی آواز → Whisper → LLM → Grounding → Actions
System Architecture
class AutonomousHumanoid:
def __init__(self):
self.whisper = WhisperNode()
self.llm = LLMPlanner()
self.vision = MultimodalGrounding()
def execute_command(self, audio):
text = self.whisper.transcribe(audio)
plan = self.llm.decompose(text)
for step in plan:
self.execute_action(step)
مثال: "میز صاف کرو"
صارف: "میز صاف کرو"
↓
LLM Plan:
1. navigate_to("table")
2. detect_objects("clutter")
3. grasp_and_store(each_object)
↓
Execution: روبوٹ عمل میں لاتا ہے
ROS 2 Integration
class VLAMainNode(Node):
def __init__(self):
super().__init__('vla_main')
self.voice_sub = self.create_subscription(
Audio, '/microphone', self.callback, 10
)
خلاصہ
مبارک ہو! آپ نے مکمل stack مکمل کر لیا:
- ROS 2
- سمولیشن
- AI ادراک
- Vision-Language-Action
اگلے اقدامات: حقیقی ہارڈ ویئر پر deploy کریں!
حوالہ جات
Driess, D., et al. (2023). PaLM-E. arXiv:2303.03378.