🐬 Dự án ViCorpora tại https://tiengviet.io.vn cung cấp khối liệu tiếng Việt với số lượng token rất lớn từ 12 triệu đơn vị văn bản (hơn 12,169,000 rows trong MySQL), cùng tính năng KWIC (Keyword in context). Dung lượng tập tin sql chưa nén trước khi index là 93.2 GB. Dữ liệu được thu thập từ các nguồn mở.
ViCorpora hỗ trợ nghiên cứu và phân tích ngôn ngữ học. KWIC giúp tìm kiếm và hiển thị các từ khóa (ngữ đoạn) trong ngữ cảnh của chúng, giúp hiểu rõ cách một từ hoặc cụm từ được sử dụng trong các văn bản thực tế. Một số ứng dụng thực tế:
Với giao diện thân thiện và khả năng xử lý dữ liệu lớn, hi vọng ViCorpora sẽ là công cụ nghiên cứu hữu ích.
🌟 Công nghệ: MySQL for initial storage, Manticore for indexing and the instant search functionality. Backend is written in Golang.
🔥 Lộ trình phát triển: Parallel corpora, exclusive corpora.
🎁 Bạn cũng có thể tham gia đóng góp vào dự án tại đây.
© Vuong Nguyen