Tại sao OpenAI lỗ tiền dù doanh thu đạt $25 tỷ USD?

OpenAI dự báo lỗ ròng khoảng $14 tỷ USD trên doanh thu $25 tỷ USD năm 2026 vì chi phí cơ sở hạ tầng tính toán (cụm GPU phục vụ ChatGPT cho 100 triệu+ người dùng mỗi ngày) và chi phí dữ liệu (hợp đồng cấp phép với các hãng tin, tạo dữ liệu tổng hợp, chương trình annotation) cao hơn doanh thu thực thu ở thời điểm này.

IPO OpenAI $850 tỷ USD: Brilliant - Tại sao dữ liệu là tài sản thật sự của AI?

Q: OpenAI định giá bao nhiêu khi IPO và nộp S-1 khi nào?

OpenAI nộp hồ sơ S-1 bí mật lên U.S. Securities and Exchange Commission (SEC - Ủy ban Chứng khoán Mỹ) ngày 8/6/2026. Mức định giá nhắm tới: khoảng 850 tỷ USD. Goldman Sachs và Morgan Stanley là hai ngân hàng bảo lãnh chính. Đây sẽ là IPO công nghệ lớn nhất lịch sử nếu thành công.

Q: Dữ liệu có cấu trúc là gì và tại sao AI cần nó hơn dữ liệu thô?

Dữ liệu có cấu trúc (structured data) là dữ liệu được tổ chức theo schema nhất quán, có trường dữ liệu định kiểu, nguồn gốc xác minh, và lịch sử phiên bản. Dữ liệu thô (unstructured data) từ web có thể phong phú nhưng thiếu độ chính xác cho các ứng dụng AI nghiệp vụ. OpenAI trả phí cấp phép cho Reuters và AP (dữ liệu tin tức có cấu trúc) chính vì lý do này - không thể chỉ dựa vào Common Crawl.

Tóm tắt nhanh

OpenAI nộp hồ sơ IPO bí mật ngày 8/6/2026, nhắm định giá 850 tỷ USD - IPO công nghệ lớn nhất lịch sử.
Dự báo 2026: doanh thu $25 tỷ USD, lỗ ròng $14 tỷ USD - vì chi phí dữ liệu + tính toán còn lớn hơn doanh thu.
Nghịch lý này tiết lộ sự thật cơ bản: dữ liệu có cấu trúc là chi phí đầu vào chính của AI, không phải nhân lực kỹ thuật.
AI Việt Nam muốn cạnh tranh được cần dữ liệu Việt Nam có cấu trúc - đây là thứ DataCore đang xây dựng trên 6 miền dữ liệu.

Ngày 8/6/2026, OpenAI - công ty trí tuệ nhân tạo (AI) đứng sau ChatGPT, GPT-4o, và dòng mô hình suy luận o-series - nộp hồ sơ S-1 đăng ký bí mật lên U.S. Securities and Exchange Commission (SEC - Ủy ban Chứng khoán Mỹ), chính thức khởi động quá trình phát hành cổ phiếu lần đầu ra công chúng (IPO - Initial Public Offering). Mức định giá nhắm đến: khoảng 850 tỷ USD, với Goldman Sachs và Morgan Stanley là hai ngân hàng bảo lãnh chính.

Nếu thành công ở mức độ đó, đây sẽ là IPO công nghệ lớn nhất lịch sử thị trường chứng khoán - vượt qua IPO của Alibaba năm 2014 (huy động $25 tỷ USD, định giá $168 tỷ USD) và Saudi Aramco năm 2019 (huy động $29.4 tỷ USD, nhưng trong ngành dầu khí khác biệt). Để so sánh: toàn bộ thị trường chứng khoán Việt Nam - gồm HOSE, HNX, và UPCoM - có tổng vốn hóa khoảng $200-220 tỷ USD giữa năm 2026.

Những con số định giá nổi lên ẩn một câu hỏi đáng chú ý hơn nhiều - một câu hỏi liên quan trực tiếp đến mọi công ty, viện nghiên cứu, và cơ quan chính phủ Việt Nam đang cố gắng xây dựng hệ thống AI: tại sao việc vận hành một doanh nghiệp AI lại tốn kém đến vậy? Và điều đó có ý nghĩa gì với phát triển AI tại Việt Nam?

Hinh anh tri tue nhan tao the hien cong nghe AI va gia tri du lieu OpenAI IPO 2026 — Hình ảnh AI (Public domain). Định giá $850 tỷ USD của OpenAI phản ánh giá trị cơ sở hạ tầng dữ liệu huấn luyện AI.

Con số $850 tỷ USD phản ánh giá trị gì - và tại sao nó không chỉ là giá trị ChatGPT?

Mức định giá 850 tỷ USD không phải chủ yếu là cuộc đặt cược vào doanh thu hiện tại. Đây là cuộc đặt cược vào giá trị những thứ OpenAI đã xây dựng và kiểm soát: bộ dữ liệu huấn luyện độc quyền lớn nhất từng được lắp ráp cho một hệ thống AI đa mục đích, cơ sở hạ tầng tính toán để vận hành nó ở quy mô, và các vòng phản hồi từ hàng trăm triệu người dùng liên tục cải thiện các mô hình.

Khi nhà đầu tư nhìn vào một công ty AI và định mức bội thu nhập 30x-40x, họ đang trả tiền cho lợi thế về dữ liệu - các kho dữ liệu huấn luyện đã được tích lũy, làm sạch, gắn nhãn, và có cấu trúc mà đối thủ cạnh tranh không thể sao chép nhanh chóng dù có quy mô tài chính tương đương. Đây là logic định giá khác cơ bản so với các bội số SaaS (phần mềm theo dịch vụ) của những năm 2010 - vốn dựa trên tỷ lệ giữ chân khách hàng, tỷ lệ rời bỏ, và biên lợi nhuận gộp.

Thời đại AI đã dịch chuyển động lực tạo giá trị chính từ code sang dữ liệu. Code của OpenAI - kiến trúc transformer, pipeline fine-tuning, phương pháp RLHF (Reinforcement Learning from Human Feedback - Học tăng cường từ phản hồi của con người) - có thể được các đội có ngân sách tốt xấp xỉ. Dữ liệu của nó - hỗn hợp được tuyển chọn kỹ càng gồm văn bản web, sách được cấp phép, bài báo khoa học, kho code, và bộ dữ liệu hướng dẫn do con người tạo ra - không thể dễ dàng nhân bản trong vài tháng hay vài năm.

Tại sao OpenAI lỗ $14 tỷ USD trên doanh thu $25 tỷ USD trong cùng một năm?

Nghịch lý tài chính cốt lõi trong IPO của OpenAI: công ty dự kiến tạo ra khoảng $25 tỷ USD doanh thu trong năm dương lịch 2026, trong khi cùng thời kỳ đó lỗ ròng khoảng $14 tỷ USD. Tức là chi phí đang chạy ở mức khoảng 1.56 lần doanh thu - một cấu trúc chi phí vận hành sẽ bị loại từ vòng đầu đối với hầu hết các doanh nghiệp công nghệ, nhưng đang được các nhà đầu tư trên thị trường công khai định giá là đầu tư dài hạn vào cơ sở hạ tầng AI.

Chi phí đó đi về đâu? Hai nhóm chính:

Chi phí tính toán (compute): Vận hành suy luận (tạo phản hồi cho các truy vấn của người dùng) ở quy mô ChatGPT - ước tính 100+ triệu người dùng hoạt động mỗi ngày đầu năm 2026 - đòi hỏi hàng nghìn máy chủ GPU cao cấp hoạt động liên tục. Cụm GPU NVIDIA H100 và H200 có giá $25.000-$40.000 mỗi đơn vị, và OpenAI vận hành hàng chục nghìn chiếc. Cơ sở hạ tầng Microsoft Azure cung cấp phần lớn năng lực này, nhưng theo giá doanh nghiệp.
Chi phí dữ liệu: Huấn luyện và liên tục cập nhật các mô hình AI biên tiến đòi hỏi khối lượng lớn dữ liệu văn bản, code, và đa phương tiện có chất lượng cao, đã được cấp phép. OpenAI đã ký hợp đồng cấp phép với Associated Press (AP), Reuters, các nhà xuất bản sách lớn, và hàng chục tổ chức truyền thông. Tạo dữ liệu tổng hợp (sử dụng mô hình AI để tạo dữ liệu huấn luyện cho các mô hình AI khác) và chương trình annotation của con người (qua Scale AI, Remotasks và các nhà cung cấp tương tự) cộng thêm chi phí.

Cấu trúc chi phí này không chỉ riêng OpenAI. Google DeepMind, Anthropic, Meta AI Research, và xAI (Grok) đều đối mặt với kinh tế cơ bản tương tự. Sự khác biệt là quy mô: cơ sở chi phí của OpenAI lớn hơn vì nó đang chạy theo khả năng mô hình biên tiến cần các lần huấn luyện lớn hơn tương ứng.

Toa nha So Giao dich Chung khoan Toronto the hien thi truong IPO va tai chinh cong ty AI — Sở Giao dịch Chứng khoán Toronto. CC BY-SA 2.0, Ken Lund. Định giá thị trường cho các công ty AI thể hiện giá trị tài sản dữ liệu tương lai.

Cấu trúc chi phí của OpenAI tiết lộ gì về đầu vào thực sự của AI: dữ liệu có cấu trúc?

Cuộc thảo luận về chi phí dữ liệu thường được đơn giản hóa thành "bao nhiêu token được sử dụng để huấn luyện." Nhưng câu hỏi quan trọng hơn là chất lượng và cấu trúc dữ liệu - cụ thể là sự khác biệt giữa dữ liệu không có cấu trúc và dữ liệu có cấu trúc, và tại sao nó quan trọng đối với các ứng dụng AI thực tế.

Dữ liệu không có cấu trúc (unstructured data) - văn bản thô từ web, PDF, bài đăng mạng xã hội - phổ biến và rẻ. Common Crawl, mà OpenAI và hầu hết các nhà phát triển LLM (Large Language Model - Mô hình ngôn ngữ lớn) sử dụng làm kho corpus nền tảng, chứa petabyte văn bản. Nhưng sự phổ biến thô tạo ra một vấn đề về chất lượng: web chứa lượng lớn nội dung sai sự thật, mâu thuẫn, chất lượng thấp, và spam. Huấn luyện trên nó ở quy mô lớn tạo ra các mô hình thạo ngôn nhưng không đáng tin cậy với các khẳng định sự kiện cụ thể.

Dữ liệu có cấu trúc (structured data) - được tổ chức theo schema nhất quán, trường dữ liệu định kiểu, quan hệ xác định, và nguồn gốc được xác minh - là thành phần giúp AI đáng tin cậy cho các ứng dụng nghiệp vụ. Mô hình được huấn luyện để trả lời "Vốn điều lệ đăng ký của Công ty Cổ phần Vingroup (VIC - HOSE) là bao nhiêu?" cần dữ liệu đăng ký công ty có cấu trúc, không phải bài báo tin tức đã được scrape. Mô hình tạo phân tích tài chính cần dữ liệu chuỗi thời gian thị trường có cấu trúc, không phải cảm xúc mạng xã hội.

Đây là lý do OpenAI trả phí cấp phép cho Reuters (bộ nguồn tin tức tài chính có cấu trúc kèm metadata), không chỉ Common Crawl (văn bản web thô). Các hợp đồng cấp phép cụ thể là về việc có được dữ liệu đã được nhà xuất bản gốc cấu trúc, có dấu thời gian, có nguồn gốc, và kiểm soát chất lượng.

Hậu quả: dữ liệu giá trị nhất cho các ứng dụng AI không phải là dữ liệu phổ biến nhất. Nó là dữ liệu chính xác, cập nhật, có cấu trúc, và cụ thể cho từng miền. Đây là sự thay đổi cơ bản trong cách các nhà cung cấp dữ liệu nên nghĩ về tài sản của mình.

AI Việt Nam có cần dữ liệu Việt Nam có cấu trúc - và tại sao câu trả lời là "có, bắt buộc"?

Tham vọng phát triển AI của Việt Nam được ghi nhận rõ ràng. Quyết định 127/QĐ-TTg của Thủ tướng Chính phủ đặt mục tiêu Việt Nam trở thành trung tâm AI hàng đầu ASEAN vào năm 2030. VinAI Research (thuộc Tập đoàn Vingroup), FPT AI Research, và hệ sinh thái startup AI ngày càng phát triển đang đạt được tiến bộ thực sự trong xử lý ngôn ngữ Việt, thị giác máy tính, và các ứng dụng chuyên ngành.

Nhưng có một thách thức cơ cấu mà tài liệu IPO của OpenAI vô tình làm nổi bật: phần lớn các mô hình AI biên tiến được huấn luyện chủ yếu trên dữ liệu tiếng Anh. GPT-4o, Gemini 1.5 Pro, và Claude 3.5 Sonnet đều hoạt động tốt hơn đáng kể bằng tiếng Anh so với tiếng Việt trên các bài chuẩn tham chiếu ghi nhớ sự kiện. Lý do không phải là thiếu năng lực mô hình hóa ngôn ngữ Việt - thuật toán hoạt động tốt - mà là sự vắng mặt của dữ liệu Việt Nam có cấu trúc, chất lượng cao ở quy mô cần thiết cho các mô hình này.

Hãy xét các hậu quả thực tế:

Một công ty fintech Việt Nam xây dựng AI chấm điểm tín dụng cần dữ liệu giao dịch Việt Nam có cấu trúc, dữ liệu đăng ký công ty, và văn bản quy định tài chính Việt Nam - không phải tiêu chuẩn cũ cục tín dụng tiếng Anh đã được dịch.
Một startup legaltech Việt Nam xây dựng AI soạn thảo hợp đồng cần dữ liệu pháp luật Việt Nam có cấu trúc theo bộ luật và điều khoản, có lịch sử phiên bản - không phải mẫu hợp đồng tiếng Anh đã được dịch.
Một công ty logistics Việt Nam xây dựng AI tối ưu hóa tuyến đường cần dữ liệu địa chỉ và không gian địa lý Việt Nam có cấu trúc với quy ước tên địa danh Việt Nam - không phải phản hồi Google Maps API bằng tiếng Anh.

Câu chuyện IPO OpenAI, được dịch lại cho Việt Nam: quốc gia nào kiểm soát cơ sở hạ tầng dữ liệu có cấu trúc sẽ kiểm soát các ứng dụng AI được xây dựng trên nó. Đây không phải là mối lo ngại viễn xa - đây là thực tế vận hành mà mọi đội AI tại Việt Nam đang đối mặt ngay hôm nay.

Phong may chu trung tam du lieu cho thay co so ha tang huan luyen AI va chi phi tinh toan — Phòng máy chủ trung tâm dữ liệu. CC BY-SA 3.0, BalticServers.com. Cụm GPU là chi phí cơ sở hạ tầng chính của các mô hình AI biên tiến.

Nền tảng dữ liệu 6 miền của DataCore hỗ trợ các ứng dụng AI Việt Nam như thế nào?

DataCore là nền tảng dữ liệu có cấu trúc của Việt Nam, được tổ chức thành sáu miền dữ liệu: Kinh tế, Truyền thông, Con người, Vị trí, Tổ chức, và Thị trường. Mỗi miền được thiết kế để cung cấp loại dữ liệu có cấu trúc, được cập nhật thường xuyên, có thể truy cập qua API mà các ứng dụng AI tại Việt Nam cần - được mô hình hóa theo cơ sở hạ tầng dữ liệu tương tự bao hàm các hệ thống AI lớn trên toàn cầu.

Trong bối cảnh phân tích IPO OpenAI, ba dịch vụ của DataCore đặc biệt liên quan:

Company Intelligence Service (thuộc miền Tổ chức): Bao phủ 200.000+ công ty Việt Nam với các trường có cấu trúc bao gồm tên pháp lý, mã số thuế, vốn điều lệ, phân loại ngành nghề (cả tiêu chuẩn VSIC 2018 và 2025), ngày thành lập, người đại diện pháp lý, và địa chỉ. Đây là loại dữ liệu tổ chức có cấu trúc giúp các ứng dụng AI nghiệp vụ đáng tin cậy. Truy cập thử tại datacore.vn/vi/services/company-intelligence-service-trial.

News Service (thuộc miền Truyền thông): Kho tin tức Việt Nam có cấu trúc với metadata bao gồm ngày xuất bản, nguồn, phân loại chủ đề, tag thực thể có tên (named entity), và tham chiếu địa lý. Dữ liệu tin tức có cấu trúc là đầu vào cho phép các hệ thống AI thực hiện tra cứu sự kiện Việt Nam và biến động thị trường đáng tin cậy - không thể thực hiện với scraping web thô. Truy cập thử tại datacore.vn/vi/services/news-service-trial.

Geospatial Service (thuộc miền Vị trí): Dữ liệu địa chỉ và địa lý Việt Nam có cấu trúc với mã hành chính tiêu chuẩn hóa, tiêu chí độ chính xác tọa độ, và phạm vi chuẩn hóa địa chỉ. Dữ liệu địa chỉ Việt Nam rất khó xử lý cho các hệ thống AI vì tính không nhất quán trong cách ghi địa chỉ trên các sổ lưu trữ cơ quan, cơ sở dữ liệu bưu chính, và nguồn do người dùng tạo ra. Lớp địa lý không gian của DataCore cung cấp nền tảng có cấu trúc cho AI nhận thức vị trí. Truy cập thử tại datacore.vn/vi/services/geospatial-service-trial.

Danh mục sáu miền đầy đủ - bao phủ các chỉ số kinh tế Việt Nam, thông tin truyền thông, dữ liệu nhân khẩu học, thông tin địa lý, dữ liệu công ty/tổ chức, và dữ liệu thị trường tài chính - có sẵn tại datacore.vn/vi. Các đội AI đang đánh giá dữ liệu Việt Nam có cấu trúc cho pipeline huấn luyện hoặc RAG (Retrieval-Augmented Generation - Tạo sinh có tăng cường truy xuất), DataCore cung cấp quyền truy cập thử cho từng dịch vụ.

Duong chan troi Thanh pho Ho Chi Minh the hien he sinh thai cong nghe Viet Nam va phat trien AI voi nen tang du lieu DataCore — Đường chân trời TP. Hồ Chí Minh. CC0 via Wikimedia Commons. Khát vọng AI của Việt Nam cần dữ liệu Việt Nam có cấu trúc - nền tảng mà DataCore đang xây dựng.

Xem toàn bộ phân tích bằng tiếng Anh tại: OpenAI IPO $850 Billion Valuation: Why Data Is the Real Asset Behind Every AI Model.

Các câu hỏi thường gặp: IPO OpenAI và giá trị dữ liệu AI

OpenAI định giá bao nhiêu khi IPO và nộp S-1 khi nào?

OpenAI nộp hồ sơ S-1 bí mật lên SEC ngày 8/6/2026. Mức định giá nhắm đến: khoảng 850 tỷ USD (biên $730-852 tỷ tùy theo mô hình bảo lãnh). Goldman Sachs và Morgan Stanley là hai ngân hàng bảo lãnh chính. Đây sẽ là IPO công nghệ lớn nhất lịch sử.

Tại sao OpenAI lỗ tiền dù doanh thu dự kiến đạt $25 tỷ USD?

Mức lỗ ròng dự kiến khoảng $14 tỷ USD trên doanh thu $25 tỷ USD năm 2026 phản ánh hai nhóm chi phí chính: (1) cơ sở hạ tầng tính toán - cụm GPU phục vụ suy luận cho 100 triệu+ người dùng ChatGPT mỗi ngày - và (2) chi phí thu thập dữ liệu huấn luyện gồm hợp đồng cấp phép với các nhà xuất bản, tạo dữ liệu tổng hợp, và chương trình annotation. Các chi phí này tăng theo năng lực mô hình và quy mô người dùng, chưa được bù đắp hoàn toàn bởi doanh thu đăng ký và API ở mức giá hiện tại.

Dữ liệu có cấu trúc là gì và tại sao AI cần nó hơn dữ liệu web thô?

Dữ liệu web thô phổ biến nhưng không đáng tin cậy - chứa lỗi sự kiện, mâu thuẫn, và nhiễu làm giảm độ chính xác của mô hình trên các nhiệm vụ chuyên ngành. Dữ liệu có cấu trúc - được tổ chức với schema nhất quán, nguồn gốc đã xác minh, trường có kiểu xác định, và lịch sử phiên bản - tạo ra các mô hình AI đáng tin cậy cho tra cứu sự kiện và các ứng dụng có yêu cầu cao về độ chính xác. Đây là lý do OpenAI trả phí cấp phép cho Reuters và AP (dữ liệu tin tức tài chính có cấu trúc, có nguồn gốc) thay vì chỉ dựa vào Common Crawl (văn bản web thô).

DataCore cung cấp dữ liệu Việt Nam gì cho các ứng dụng AI?

DataCore cung cấp dữ liệu Việt Nam có cấu trúc trên 6 miền: Kinh tế, Truyền thông, Con người, Vị trí, Tổ chức, và Thị trường. Các dịch vụ chính sẵn sàng cho AI: Company Intelligence Service (200.000+ công ty Việt Nam với đầy đủ metadata), News Service (corpus tin tức Việt Nam có tag thực thể và phân loại chủ đề), và Geospatial Service (dữ liệu địa chỉ và tọa độ Việt Nam tiêu chuẩn hóa). Tất cả dịch vụ có sẵn qua API REST với quyền truy cập thử tại datacore.vn/vi/services.

Định giá $850 tỷ USD của OpenAI so sánh với thị trường chứng khoán Việt Nam như thế nào?

Mức định giá mục tiêu $850 tỷ USD của OpenAI xấp xỉ 4 lần tổng vốn hóa thị trường của tất cả các sàn giao dịch chứng khoán Việt Nam gộp lại (HOSE, HNX, và UPCoM cộng khoảng $200-220 tỷ USD giữa năm 2026). Sự so sánh này cho thấy mức phí bổ sung mà nhà đầu tư đặt ra cho các tài sản cơ sở hạ tầng AI so với các tài sản công nghiệp hoặc tài chính truyền thống - dù các tài sản AI đó hiện tại đang thua lỗ.

Nguồn tham khảo

Yahoo Finance: Thông báo nộp hồ sơ S-1 bí mật của OpenAI, ngày 8/6/2026. Goldman Sachs + Morgan Stanley bảo lãnh; biên định giá $730-852 tỷ USD. finance.yahoo.com
tech-insider.org: Dự báo doanh thu OpenAI 2026 ($25 tỷ USD) và dự báo lỗ ròng ($14 tỷ USD). Tháng 6/2026.
CMC Markets: Phân tích IPO OpenAI bao gồm dự báo doanh thu và tổn thất cho năm tài chính 2026. Tháng 6/2026.
futuresearch.ai: Phân tích xu hướng doanh thu OpenAI, giai đoạn dự báo 2025-2026.
Yahoo Finance: Tổng vốn huy động của OpenAI ($122 tỷ USD, SoftBank + Microsoft), tháng 3/2026.
Quyết định 127/QĐ-TTg: Chiến lược Quốc gia về Nghiên cứu, Phát triển và Ứng dụng Trí tuệ Nhân tạo đến năm 2025, định hướng đến năm 2030.

IPO OpenAI $850 tỷ USD: Tại sao dữ liệu mới là tài sản có lợi thế thật sự của AI?