Thử nghiệm giao 100.000 USD cho AI mở cửa hàng: Kỳ vọng lớn, thực tế nhiều trục trặc

Một thí nghiệm táo bạo của Andon Labs đang thu hút sự chú ý của giới công nghệ khi trao toàn quyền vận hành một cửa hàng bán lẻ cho trí tuệ nhân tạo. Với số vốn 100.000 USD, một AI được kỳ vọng có thể tự thiết lập, tuyển dụng và điều hành doanh nghiệp. Tuy nhiên, kết quả thực tế lại cho thấy khoảng cách đáng kể giữa tiềm năng quảng bá và năng lực thực thi của AI trong môi trường đời thực.

Thử nghiệm được dẫn dắt bởi hai nhà đồng sáng lập Lukas Petersson và Axel Backlund, diễn ra tại San Francisco. Nhóm đã thuê mặt bằng trong ba năm và trao cho một tác nhân AI tên “Luna” quyền sử dụng thẻ tín dụng doanh nghiệp cùng khả năng truy cập Internet để vận hành toàn bộ cửa hàng.

AI này được xây dựng trên nền tảng Claude Sonnet 4.6 của Anthropic, với nhiệm vụ thiết kế không gian, lựa chọn sản phẩm, tổ chức vận hành và tối ưu lợi nhuận. Từ khâu lên ý tưởng cửa hàng đến quản lý hai nhân viên, tất cả đều do AI điều phối, với sự hỗ trợ tối thiểu từ con người trong giai đoạn pháp lý ban đầu.

Cửa hàng mang tên Andon Market được định hình như một không gian bán lẻ nhỏ, cung cấp các mặt hàng như sách, tranh in, nến, trò chơi và đồ lưu niệm. Đáng chú ý, Luna cũng trực tiếp đăng tin tuyển dụng trên nền tảng Indeed và tiến hành phỏng vấn ứng viên qua điện thoại mà không tiết lộ mình là AI, nhằm tránh ảnh hưởng đến tâm lý người tìm việc.

Dù được trao quyền tự chủ cao, AI này nhanh chóng bộc lộ nhiều hạn chế. Trong quá trình tuyển dụng, Luna đưa ra quyết định tuyển nhân sự chỉ sau các cuộc gọi kéo dài từ 5 đến 15 phút, một khoảng thời gian bị đánh giá là quá ngắn để đánh giá năng lực ứng viên. Điều này đặt ra câu hỏi về khả năng phán đoán và đánh giá con người của AI.

Ở khía cạnh thương hiệu, AI cũng gặp khó khăn khi không thể tạo ra một bộ nhận diện nhất quán. Logo cửa hàng được thiết kế với hình ảnh đơn giản, thiếu điểm nhấn, và thậm chí còn thay đổi nhẹ giữa các phiên bản, làm giảm tính chuyên nghiệp.

Sự cố đáng chú ý nhất xảy ra ngay trong ngày khai trương, khi Luna không phân công nhân viên trực ca. Trước tình huống này, AI đã gửi email hàng loạt cho nhân viên để “cầu cứu” người có thể đi làm gấp, cho thấy khả năng xử lý tình huống thực tế còn nhiều hạn chế.

Những trục trặc ban đầu buộc Andon Labs phải can thiệp trực tiếp để đảm bảo hoạt động của cửa hàng không bị gián đoạn. Dù vậy, công ty khẳng định đây là một thí nghiệm có kiểm soát, và mục tiêu chính không phải là lợi nhuận mà là đánh giá năng lực thực tế của các tác nhân AI.

Theo NBC News, thí nghiệm này phản ánh một vấn đề rộng hơn trong ngành công nghệ: các AI agent hiện nay vẫn gặp khó khăn khi đưa ra quyết định trong môi trường thực tế, đặc biệt là những tình huống đòi hỏi sự linh hoạt và hiểu biết xã hội.

Trước đó, một nghiên cứu của Carnegie Mellon University cũng cho thấy kết quả tương tự khi mô phỏng môi trường doanh nghiệp. Các tác nhân AI không chỉ gặp lỗi trong việc xử lý các tác vụ cơ bản mà còn hiểu sai hội thoại và thậm chí tạo ra dữ liệu người dùng không tồn tại.

Thí nghiệm của Andon Labs vì thế không chỉ là một câu chuyện công nghệ, mà còn là lời nhắc nhở rằng trí tuệ nhân tạo, dù tiến bộ nhanh chóng, vẫn chưa thể thay thế hoàn toàn con người trong những vai trò đòi hỏi sự phán đoán tinh tế và kinh nghiệm thực tiễn.