5991
DeepSeek định nghĩa lại hiệu suất AI với mô hình thị giác - nhận thức mới DeepSeek-OCR
307
Phòng và chống tấn công
https://doi.org/10.51199
https://api-public.tapchianninhmang.vn
https://cdn.tapchianninhmang.vn

DeepSeek định nghĩa lại hiệu suất AI với mô hình thị giác - nhận thức mới DeepSeek-OCR

Bằng cách sử dụng nhận thức thị giác như công cụ nén thông tin, mô hình DeepSeek-OCR giúp các hệ thống trí tuệ nhân tạo xử lý văn bản dài và phức tạp nhanh hơn, rẻ hơn, mà vẫn giữ nguyên độ chính xác. Đây là bước tiến tiếp theo trong hành trình DeepSeek tối ưu chi phí và nâng cao hiệu năng mô hình AI mã nguồn mở.

Công ty startup AI DeepSeek (trụ sở tại Hàng Châu, Trung Quốc) vừa công bố mô hình AI đa phương thức mới mang tên DeepSeek-OCR, có khả năng xử lý các tài liệu lớn và phức tạp bằng cách sử dụng nhận thức thị giác như một phương tiện nén thông tin, giúp giảm đáng kể số lượng “token” - đơn vị nhỏ nhất mà mô hình ngôn ngữ xử lý.

DeepSeek ra mắt mô hình AI đa phương thức sử dụng thị giác để nén dữ liệu văn bản.
DeepSeek ra mắt mô hình AI đa phương thức sử dụng thị giác để nén dữ liệu văn bản.

DeepSeek-OCR là mô hình mã nguồn mở, hiện đã được công bố trên các nền tảng dành cho nhà phát triển như Hugging Face và GitHub. Theo DeepSeek, đây là kết quả của một nghiên cứu chuyên sâu về vai trò của bộ mã hóa thị giác (vision encoder) trong việc nén văn bản cho các mô hình ngôn ngữ lớn (LLMs).

Với phương pháp này, các LLM có thể xử lý khối lượng văn bản khổng lồ mà không làm tăng chi phí tính toán tương ứng.

“Thông qua DeepSeek-OCR, chúng tôi chứng minh rằng việc nén giữa hình ảnh và văn bản có thể giúp giảm số lượng token từ 7 đến 20 lần ở các giai đoạn ngữ cảnh khác nhau, mở ra hướng đi đầy tiềm năng để giải quyết bài toán ngữ cảnh dài của LLMs.” DeepSeek cho biết trong thông cáo.

Động thái này tiếp nối nỗ lực không ngừng của DeepSeek nhằm tối ưu hiệu suất mô hình và giảm chi phí phát triển, triết lý đã giúp họ tạo ra hai mô hình mã nguồn mở gây chú ý V3 và R1, ra mắt lần lượt vào tháng 12/2024 và tháng 1/2025.

Theo blog của công ty, DeepSeek-OCR gồm hai thành phần chính:

DeepEncoder - bộ mã hóa giữ vai trò là “động cơ” của mô hình, giúp duy trì mức kích hoạt thấp ngay cả khi xử lý hình ảnh độ phân giải cao, đồng thời đạt tỷ lệ nén mạnh để giảm số lượng token.

DeepSeek3B-MoE-A570M - bộ giải mã (decoder) với kiến trúc Mixture-of-Experts (MoE) gồm 570 triệu tham số. Cấu trúc MoE chia mô hình thành các mạng con (“chuyên gia”), mỗi mạng đảm nhận một phần dữ liệu riêng biệt để cùng nhau thực hiện nhiệm vụ.

Bên cạnh các tác vụ thị giác tiêu chuẩn như mô tả hình ảnh hay nhận diện vật thể, DeepSeek-OCR còn có thể phân tích nội dung thị giác phức tạp như bảng biểu, công thức và sơ đồ hình học, đặc biệt hữu ích trong các lĩnh vực tài chính và khoa học.

DeepSeek cho biết, mô hình này có thể tạo ra hơn 200.000 trang dữ liệu huấn luyện mỗi ngày chỉ với một GPU Nvidia A100-40G - minh chứng cho hiệu suất cao và chi phí thấp.

Với DeepSeek-OCR, người dùng có thể xử lý các ngữ cảnh siêu dài theo quy mô lớn, trong đó phần nội dung mới nhất được lưu ở độ phân giải cao, còn phần ngữ cảnh cũ hơn tiêu tốn ít tài nguyên tính toán hơn. Cách tiếp cận này mở ra khả năng xây dựng kiến trúc ngữ cảnh gần như không giới hạn, cân bằng giữa hiệu quả và khả năng lưu giữ thông tin.

Trước đó, vào cuối tháng 9, DeepSeek đã ra mắt phiên bản thử nghiệm DeepSeek V3.2-Exp, cải thiện hiệu quả huấn luyện và suy luận, đồng thời giảm mạnh chi phí sử dụng API.

Lệ Thanh (theo South China Morning Post)

Bình luận

Tin bài khác

Ngân hàng tăng “hàng rào” bảo mật mobile banking, chặn thiết bị có nguy cơ rủi ro

Ngân hàng tăng “hàng rào” bảo mật mobile banking, chặn thiết bị có nguy cơ rủi ro

Các ngân hàng đang siết chặt bảo mật dịch vụ mobile banking theo quy định mới của Ngân hàng Nhà nước. Ứng dụng sẽ tự động dừng hoạt động hoặc từ chối giao dịch khi phát hiện thiết bị có dấu hiệu rủi ro cao.

Drone tấn công Amazon: Ranh giới chiến tranh bị xóa mờ

Drone tấn công Amazon: Ranh giới chiến tranh bị xóa mờ

Lần đầu tiên trong lịch sử, một cuộc chiến tranh tấn công trực tiếp hạ tầng đám mây thương mại toàn cầu. Hậu quả không chỉ là dịch vụ gián đoạn mà là câu hỏi chưa có đáp án: ranh giới nào còn lại giữa mục tiêu quân sự và dân sự?

Israel dùng công nghệ gì để biết chính xác vị trí giáo chủ Khamenei?

Israel dùng công nghệ gì để biết chính xác vị trí giáo chủ Khamenei?

Tờ Finacial Times đã hé lộ công nghệ mà tình báo Israel dùng để theo dõi của giáo chủ Khamenei, từ đó thực hiện hành động quân sự để tiêu diệt lãnh tụ tối cao của Iran.

Lỗ hổng “60 giây” đe dọa 875 triệu điện thoại Android

Lỗ hổng “60 giây” đe dọa 875 triệu điện thoại Android

Một lỗ hổng bảo mật nghiêm trọng vừa được phát hiện đang đặt khoảng 875 triệu thiết bị Android trên toàn cầu vào tình trạng rủi ro. Đáng lo ngại, kẻ tấn công có thể khai thác lỗ hổng này để truy cập dữ liệu chỉ trong chưa đầy một phút, ngay cả khi điện thoại đang tắt nguồn.

Phát hiện phần mềm gián điệp mới nhắm vào iPhone, có thể ảnh hưởng hàng trăm triệu thiết bị

Phát hiện phần mềm gián điệp mới nhắm vào iPhone, có thể ảnh hưởng hàng trăm triệu thiết bị

Một chiến dịch phát tán phần mềm gián điệp mới nhắm vào iPhone vừa được các nhà nghiên cứu an ninh mạng phát hiện, làm dấy lên lo ngại về mức độ phổ biến của các công cụ tấn công tinh vi từng chủ yếu gắn với hoạt động tình báo cấp nhà nước.

Tăng cường bảo vệ hạ tầng thông tin trọng yếu quốc gia

Tăng cường bảo vệ hạ tầng thông tin trọng yếu quốc gia

Hạ tầng thông tin trọng yếu là “xương sống” của nền kinh tế số. Sự cố an ninh mạng tại các hệ thống này không chỉ gây thiệt hại tài chính mà còn ảnh hưởng trực tiếp đến ổn định xã hội và niềm tin số quốc gia.