Độ chính xác nhận dạng giọng nói tiếng Việt là bao nhiêu?

OMICX Speech2Text đạt độ chính xác trên 99% với tiếng Việt chuẩn, hỗ trợ đầy đủ giọng Bắc, Trung, Nam với tính năng nhận diện phương ngữ tự động.

Latency xử lý là bao lâu?

Speech2Text realtime có latency dưới 300ms. Text2Speech trả về âm thanh dưới 200ms với văn bản ngắn.

Chi phí sử dụng tính như thế nào?

Speech2Text tính 600 credit/phút. Text2Speech tính theo ký tự. Bắt đầu miễn phí với credit thử nghiệm, không phí cố định hàng tháng.

OMICX Voice API - Công nghệ AI Voice thuần Việt

Q: OMICX Voice API là gì?

OMICX Voice API là nền tảng xử lý giọng nói AI do OMI Technology tự phát triển, tối ưu hoàn toàn cho tiếng Việt. Bao gồm Speech2Text và Text2Speech, tích hợp qua REST API hoặc WebSocket.

Speech2Text

Nhận dạng giọng nói thuần tiếng Việt

Engine Speech2Text do OMICX tự xây dựng từ dữ liệu thực tế người Việt - không phụ thuộc model nước ngoài. Hiểu đủ 3 miền, từ chuyên ngành, giọng điện thoại và môi trường ồn ào.

Real-time Streaming - Kết quả trả từng từ, latency <500ms. Hỗ trợ WebSocket và REST API.

3 miền · Từ chuyên ngành - Giọng Bắc, Trung, Nam. Hiểu thuật ngữ y tế, pháp lý, tài chính.

On-premise & Private Cloud - Dữ liệu không rời hệ thống bạn. Tuân thủ ISO 27001.

Audio Input

Đầu vào âm thanh

Call / VoIP

Audio File

Live Stream

WebSocket Stream

Pre-processing

Tiền xử lý tín hiệu

Noise Reduction

Voice Activity Detection

Normalization

Segmentation

OMICX AI Engine

Mô hình AI tự phát triển

Acoustic Modeling

Domain Vocabulary

Language Model

Region Dialect

Recognition Engine

Bộ máy nhận dạng

Graph-based Decoding

Multi-path Search

Confidence Scoring

Accuracy Tuning

Output

Kết quả đầu ra

Transcript Text

Word Timestamps

Search & Analytics

API / Webhook

Text2Speech

Giọng đọc tự nhiên
như người thật

Tổng hợp giọng nói tiếng Việt tự nhiên với 4 giọng đọc đặc trưng. Ngữ điệu chuẩn 3 miền, phù hợp IVR, podcast, trợ lý AI và ứng dụng đọc bài.

4 giọng đọc tự nhiên

Ngọc Anh, Tiến Huy, Anh Kiệt, Khả Ngân - Bắc & Nam, Nam & Nữ.

Điều chỉnh linh hoạt

Tốc độ đọc, pitch, volume. Output MP3/WAV/OGG.

Phản hồi nhanh

Độ trễ <200ms cho đoạn ngắn. Streaming audio cho văn bản dài.

Xem bảng giá Text2Speech

Văn bản mẫu

“Kính chào quý khách! Cảm ơn bạn đã liên hệ với OMICX. Nhân viên tư vấn sẽ hỗ trợ bạn trong giây lát.”

Ngọc Anh

Miền Bắc

Anh Kiệt

Miền Bắc

Tiến Huy

Miền Nam

Khả Ngân

Miền Nam

0:00 / --:--

Độ chính xác

Tự xây dựng & fine-tune cho tiếng Việt

50,000+

Giờ âm thanh huấn luyện

Đa dạng môi trường & thiết bị

3M+

Mẫu câu có nhãn

Giọng nói thực tế người Việt

3 miền

Phương ngữ

Bắc - Trung - Nam đầy đủ

10+

Lĩnh vực chuyên ngành

Y tế, pháp lý, tài chính

Tích hợp API

Tích hợp trong 5 phút

Tài liệu tích hợp đầy đủ, rõ ràng. Đăng ký - Nhận API Key - Gọi API. Xong.

Bước 01

Đăng ký & lấy API Key

Tạo tài khoản tại omicx.one, vào Dashboard - API Keys trong 30 giây.

Bước 02

Nạp credit

1 credit = 1 VNĐ. Dùng chung Speech2Text + Text2Speech, không hết hạn.

Bước 03

Gọi API & nhận kết quả

SDK sẵn có cho Python, Node.js, Java, Go.

Speech2Text·REST API

Speech2Text - Webhook

Upload file audio, API trả về job_id ngay lập tức. Kết quả transcript được POST về webhook_url khi xử lý xong. Phù hợp file dài, batch processing.

Input

WAV / MP3 / OGG

Output

Webhook callback

Latency

Theo độ dài file

Phí

Theo giây thực tế

stt_webhook.py

# Speech2Text - REST + Webhook (async)
import requests

url = "https://api.omicx.one/v1/stt"
headers = {"Authorization": "Bearer YOUR_API_KEY"}

with open("audio.wav", "rb") as f:
    response = requests.post(
        url, headers=headers,
        files={"audio": f},
        data={
            "language":    "vi",
            "dialect":     "auto",
            "webhook_url": "https://your-server.com/cb"
        }
    )

# Returns job_id immediately
job = response.json()
print(job["job_id"])  # → "job_abc123"

# Webhook POST to your-server.com/cb when done:
# { "job_id": "job_abc123", "transcript": "Xin chào...",
#   "confidence": 0.99, "duration_sec": 4.2 }

Lấy API Key

Bảng giá

Nạp credit, dùng thoải mái

Một loại credit dùng chung cho Speech2Text và Text2Speech. Không gói cước, không phí cố định, không hết hạn.

Speech2Text

600

credit

/ phút âm thanh

Phút xử lý / ngày180 phút

5.400 phút/tháng ≈ 90 giờ

Text2Speech

100

credit

/ 1.000 ký tự

Nghìn ký tự / ngày100k ký tự

3.000k ký tự/tháng ≈ 1.800 trang A4 ≈ 60 giờ giọng đọc AI

Tổng cần nạp

3.540.000

credit / tháng

118.000 credit / ngày

Speech2Text 108.000 credit

Text2Speech 10.000 credit

Speech2Text tính đúng từng giây, không làm tròn phút.

50.000 ký tự ≈ 30 trang A4 ≈ 1 giờ giọng đọc AI = 100 credit / 1.000 ký tự.

Credit không hết hạn, tiết kiệm ≈70% so với Google / AWS.

Roadmap

Lộ trình phát triển

OMICX được xây dựng nhằm tái định nghĩa nền tảng OMICall theo hướng tinh gọn, linh hoạt và hiện đại hơn. Đây là quá trình xây dựng lại nền tảng từ cốt lõi để tối ưu trải nghiệm người dùng, khả năng mở rộng và hiệu quả vận hành lâu dài.

Đang triển khai·Quý II / 2026

Nền tảng lõi & AI Voice API

Xây dựng nền tảng lõi của OMICX bao gồm định danh người dùng, doanh nghiệp, phân quyền, thanh toán, hóa đơn tự động và các dịch vụ AI Voice API, Speech To Text, Text To Speech theo định hướng self-service.

Định danh người dùng

Gói dịch vụ & Thanh toán

AI Voice API

Sắp tới·Quý III / 2026

Hệ thống tổng đài

Phát triển nền tảng tổng đài thế hệ mới với khả năng xử lý cuộc gọi realtime, quản lý máy nhánh, hàng đợi và tích hợp AI xử lý giọng nói.

Tổng đài VOIP

Ghi âm & giám sát

Hàng đợi & máy nhánh

Kế hoạch·Quý IV / 2026

Khách hàng & Phiếu ghi

Xây dựng hệ thống quản lý khách hàng, liên hệ, phiếu ghi và nhật ký tương tác nhằm tập trung dữ liệu và tối ưu quy trình vận hành.

Chân dung khách hàng 360

Phiếu ghi

Đồng bộ dữ liệu

Tương lai·2027 trở đi

Mở rộng hệ sinh thái OMICX

Tiếp tục phát triển các chức năng đa kênh, OMIFlow, AI Agent, AI Assistant và các hệ thống tự động hóa trên nền tảng OMICX mới.

Đa kênh

OMIFlow

Marketing

Báo cáo & phân tích dữ liệu

AI Agent

FAQ

Câu hỏi thường gặp

OMICX Voice API là nền tảng xử lý giọng nói AI do OMI Technology tự phát triển, tối ưu hoàn toàn cho tiếng Việt. Bao gồm Speech2Text (nhận dạng giọng nói thành văn bản) và Text2Speech (chuyển văn bản thành giọng nói tự nhiên), có thể tích hợp qua REST API hoặc WebSocket.

OMICX Speech2Text hỗ trợ toàn bộ 3 giọng vùng miền tiếng Việt: giọng Bắc, giọng Trung và giọng Nam. Tính năng nhận diện phương ngữ tự động (dialect: auto) giúp xử lý chính xác mà không cần cấu hình thêm.

OMICX Speech2Text đạt độ chính xác trên 99% với tiếng Việt chuẩn trong điều kiện âm thanh tốt. Hệ thống được huấn luyện trên hàng triệu giờ âm thanh thực tế từ môi trường call center, chatbot và các ứng dụng doanh nghiệp tại Việt Nam.

Speech2Text realtime (streaming) có latency dưới 300ms cho mỗi partial result. Text2Speech trả về âm thanh dưới 200ms với văn bản ngắn. REST API batch xử lý file âm thanh theo job_id và trả kết quả qua webhook.

Chỉ cần đăng ký tài khoản, lấy API Key và gọi REST API qua HTTP. OMICX hỗ trợ Python, JavaScript/Node.js, cURL và mọi ngôn ngữ có thể gọi HTTP. Thời gian tích hợp cơ bản chỉ 5 phút với code mẫu có sẵn.

Speech2Text tính theo giây âm thanh xử lý (600 credit/phút). Text2Speech tính theo ký tự văn bản. Bắt đầu miễn phí với credit thử nghiệm, thanh toán theo lượng dùng thực tế, không có phí cố định hàng tháng.

Có. Toàn bộ dữ liệu truyền tải được mã hóa TLS 1.2+. Dữ liệu âm thanh và văn bản được tự động xóa trong vòng 24 giờ sau khi xử lý. OMICX không bán hoặc chia sẻ dữ liệu khách hàng với bên thứ ba.

OMICX Voice API