Hotline: 0971899466 nvtruong17@gmail.com
Thuốc Biệt Dược

Làm sáng tỏ sự đa dạng ngôn ngữ và sự tiến hóa của nó

2,022 lượt xem
Làm sáng tỏ sự đa dạng ngôn ngữ và sự tiến hóa của nó

Các nhà ngôn ngữ học và các nhà khoa học máy tính hợp tác để xuất bản một cơ sở dữ liệu từ vựng Open Access toàn cầu.

Các học giả từ Viện Nhân chủng học Tiến hóa Max Planck ở Đức và Đại học Auckland ở New Zealand đã tạo ra một kho dữ liệu ngôn ngữ toàn cầu mới. Dự án được thiết kế để tạo điều kiện cho những hiểu biết mới về sự phát triển của từ và âm thanh của các ngôn ngữ được sử dụng trên toàn thế giới ngày nay. Cơ sở dữ liệu Lexibank chứa dữ liệu từ vựng được chuẩn hóa cho hơn 2000 ngôn ngữ. Đây là bộ sưu tập công khai rộng rãi nhất được biên soạn cho đến nay.

Có thật là nhiều ngôn ngữ trên thế giới sử dụng những từ tương tự như "mama" và "papa" cho "mẹ" và "cha"? Nếu một ngôn ngữ chỉ sử dụng một từ cho cả "cánh tay" và "bàn tay", thì liệu ngôn ngữ đó cũng chỉ sử dụng một từ cho cả "chân" và "chân"? Làm thế nào để các ngôn ngữ quản lý việc sử dụng một số lượng từ tương đối nhỏ để diễn đạt nhiều khái niệm như vậy? Một nhóm liên ngành gồm các nhà ngôn ngữ học, nhà khoa học tính toán và nhà tâm lý học đã tạo ra một cơ sở dữ liệu công cộng lớn có thể được sử dụng để nghiên cứu những câu hỏi này và nhiều câu hỏi khác với sự trợ giúp của các phương pháp tính toán.

"Khi Khoa Tiến hóa Ngôn ngữ và Văn hóa của chúng tôi được thành lập vào năm 2014, tôi đã giới thiệu với các đồng nghiệp của mình một mục tiêu đầy tham vọng: có hơn 7000 ngôn ngữ trên thế giới. Tạo cơ sở dữ liệu với tài liệu phong phú nhất về sự đa dạng ngôn ngữ càng tốt", Max nói Giám đốc Planck Russell Grey. “Nguồn cảm hứng của chúng tôi đến từ Genbank - một cơ sở dữ liệu di truyền lớn, nơi các nhà sinh vật học từ khắp nơi trên thế giới đã lưu trữ dữ liệu hệ gen,” Gray tiếp tục. "Ngân hàng gen là người thay đổi cuộc chơi. Số lượng lớn dữ liệu trình tự có sẵn miễn phí đã cách mạng hóa cách chúng ta có thể phân tích sự đa dạng sinh học. Chúng tôi hy vọng rằng cơ sở dữ liệu ngôn ngữ toàn cầu đầu tiên của chúng tôi, Lexibank, sẽ giúp bắt đầu cách mạng hóa kiến ​​thức của chúng ta về sự đa dạng ngôn ngữ theo cách tương tự đường."

(adv)

Các tiêu chuẩn mới và phần mềm mới

Kho lưu trữ Lexibank cung cấp dữ liệu dưới dạng danh sách từ được chuẩn hóa cho hơn 2000 loại ngôn ngữ. Robert Forkel, người đứng đầu nhóm tính toán cho biết: "Công việc của Lexibank đồng thời là sự thúc đẩy hướng tới các định dạng dữ liệu nhất quán hơn trong cơ sở dữ liệu ngôn ngữ. một phần của bộ sưu tập dữ liệu. "Chúng tôi quyết định tạo ra các tiêu chuẩn của riêng mình, được gọi là Định dạng dữ liệu đa ngôn ngữ , hiện đã được sử dụng thành công trong vô số dự án mà bộ phận của chúng tôi tham gia."

Các tiêu chuẩn mới do nhóm đề xuất đi kèm với các công cụ phần mềm mới tạo điều kiện thuận lợi đáng kể cho quy trình làm việc của các nhà ngôn ngữ học. Johann-Mattis List, người dẫn đầu phần thực hành của quá trình quản lý dữ liệu cho biết: “Chúng tôi đã thiết kế quy trình làm việc mới có sự hỗ trợ của máy tính cho phép các bộ dữ liệu ngôn ngữ hiện có có thể so sánh được. "Với những quy trình làm việc này, chúng tôi đã tăng đáng kể hiệu quả của việc chuẩn hóa dữ liệu và quản lý dữ liệu."

Xác định các mô hình phát triển ngôn ngữ

Ngoài việc thu thập và chia sẻ dữ liệu ngôn ngữ chuẩn hóa, các tác giả cũng thiết kế các kỹ thuật tính toán mới để trả lời các câu hỏi về sự phát triển của đa dạng ngôn ngữ. Chúng minh họa cách các phương pháp này có thể được sử dụng bằng cách tính toán các ngôn ngữ khác nhau hoặc thống nhất như thế nào đối với sáu mươi tính năng khác nhau.

Báo cáo của List cho biết: "Nhờ cách trình bày dữ liệu ngôn ngữ được chuẩn hóa của chúng tôi, giờ đây có thể dễ dàng kiểm tra xem có bao nhiêu ngôn ngữ sử dụng các từ như'mama 'và' papa 'cho" mother "và" father ". Simon J. Greenhill, một trong những người sáng lập dự án Lexibank, cho biết: “Hóa ra mẫu này thực sự có thể được tìm thấy ở nhiều ngôn ngữ trên thế giới và ở các khu vực rất khác nhau. "Vì tất cả các ngôn ngữ có khuôn mẫu này không liên quan chặt chẽ với nhau, nó phản ánh sự tiến hóa song song độc lập, giống như nhà ngôn ngữ học vĩ đại Roman Jakobson đã đề xuất vào năm 1968."

Mở rộng dữ liệu và phát triển các phương pháp mới

Việc thu thập dữ liệu mới và các tính năng ngôn ngữ được tính toán tự động sẽ góp phần mang lại những hiểu biết mới về các câu hỏi mở về sự đa dạng ngôn ngữ và sự phát triển của ngôn ngữ. List nói: “Không ai nghĩ rằng việc phân tích phải dừng lại với những ví dụ mà chúng tôi đưa ra trong bài báo của mình. "Ngược lại, chúng tôi hy vọng rằng các nhà ngôn ngữ học, nhà tâm lý học và nhà khoa học tiến hóa sẽ cảm thấy được khuyến khích xây dựng dựa trên ví dụ của chúng tôi bằng cách mở rộng dữ liệu và phát triển các phương pháp mới", Forkel nói thêm.

Ngay cả trong nghiên cứu hiện tại của họ, các tác giả cũng đưa ra những phát hiện đảm bảo cho các cuộc điều tra trong tương lai. "Khi điều tra những ngôn ngữ nào sử dụng cùng một từ cho 'arm' và 'hand', chúng tôi nhận thấy rằng những ngôn ngữ này thường cũng sử dụng cùng một từ cho 'leg' và 'foot'," List báo cáo. "Mặc dù đây có vẻ là một sự trùng hợp ngớ ngẩn, nhưng nó cho thấy từ vựng của ngôn ngữ con người thường có cấu trúc hơn nhiều so với những gì người ta có thể nghĩ khi điều tra một ngôn ngữ riêng lẻ."

Nguồn Viện Nhân chủng học Tiến hóa Max Planck
Chia sẻ bài viết:

Bình luận (0)

Gửi bình luận của bạn

Bình luận của bạn sẽ được kiểm duyệt trước khi hiển thị. Không được chèn link hoặc nội dung spam.

Chưa có bình luận nào

Hãy là người đầu tiên bình luận về nội dung này!

Gọi Zalo Facebook