Corpus Là Gì

Để cung cấp người học trong quá trình học collocation, bài viết dưới đây vẫn cung cấp cho tất cả những người học hướng dẫn áp dụng một công cụ có tên gọi là ngữ liệu giờ Anh (được hotline là Corpus), với tên là Corpus of Contemporary American English – trong số những công rứa tìm collocations hữu ích trong tiếng Anh.
Bạn đang xem: Corpus là gì
Tìm phát âm thêm về Collocations là gì tại bài xích viết: Collocation là gì?
Khái niệm của corpus
Theo Oxford Dictionary of Linguistics, corpus được xem như là “một tủ chứa đồ những văn bản hoặc tiếng nói mang tính khối hệ thống của một ngôn ngữ hoặc nhiều ngôn ngữ khác nhau”. Một corpus đang thường chứa không ít các văn bạn dạng hoặc lời nói, có thể lên tới hàng triệu từ chỉ trong một corpus.
Điểm quan trọng của corpus là đây không chỉ là là bộ sưu tập ngôn ngữ với mục tiêu trưng bày, mà toàn bộ thông tin vào một corpus đã mọi được phân nhiều loại và đánh dấu một bí quyết khoa học tập và bao gồm hệ thống. Điều này sẽ giúp người sử dụng corpus đạt được cái nhìn cụ thể hơn về ngôn ngữ mà người ta đang nghiên cứu, cũng giống như là họ giành được cái quan sát khách quan liêu hơn về cách mà ngôn ngữ được áp dụng trong ngữ cảnh không tính đời thật.
Corpus được sử dụng có tên là Corpus of Contemporary American English. Đây là một trong những corpus lớn số 1 trên nạm giới, với tổng cộng hơn 1 tỷ từ giờ đồng hồ Anh-Mỹ được lưu lại trữ. Các từ được lấy từ không ít thể loại nhiều chủng loại như kịch bản phim, ngôn ngữ nói, thành tựu văn học, báo và các văn bản học thuật. Vày vậy, corpus này (được điện thoại tư vấn tắt COCA) bao gồm thể cho những người đọc cái nhìn đúng chuẩn về cách sử dụng tiếng Anh trong thực tế. Rộng nữa, trên đây cũng là một trong những corpus được sử dụng rộng thoải mái bởi các phân tích viên về ngữ điệu trên khắp rứa giới. Vày vậy nên tín đồ học có thể hoàn toàn tin cậy về độ đúng chuẩn và độ có lợi của lý lẽ này.
Các bước sử dụng COCA để xác minh collocations
Sau đây, nội dung bài viết sẽ phía dẫn người học cách áp dụng COCA như một qui định tìm collocations.
Bước 1: xác minh một số tin tức ban đầu
Trước khi đi vào tò mò các collocation, bạn học thứ 1 phải xác minh rõ bố thứ:
Từ (hoặc các từ) gốc.
Vị trí của dạng từ đối với từ cội là gì (tức là dạng từ này đứng trước hay thua cuộc từ/cụm từ gốc)
Ví dụ:
Người đọc xác minh từ cội là analyze
Người học ao ước tìm các danh tự thường xuất hiện thêm nhất cùng với từ gốc analyze này.
Danh từ bỏ này đứng sau từ nơi bắt đầu analyze.
Bước 2: truy cập vào trang web và đk tài khoản.
Trong bước này, fan học phải truy cập https://www.english-corpora.org/coca/.
Trang chủ sẽ tiến hành hiển thị dưới dạng bên dưới đây:

Sau đó, fan học nhấp vào nút Log In.
Tiếp đó, fan học đang được đưa đến một trang tất cả dạng như dưới:

Tiếp theo, người học nhấn vào nút REGISTER để triển khai tạo tài khoản.
Sau đó, bạn học sẽ được mang lại trang đăng ký tài khoản. Fan học cần điền không thiếu thông tin vào trong toàn bộ mục để rất có thể truy cập được vào trang web COCA.

(Các mục của trang REGISTER bên trên COCA)
Bước 3: nhấn vào mục các mục trên trang chủ của COCA
Sau khi đang đăng ký, bạn học hoàn toàn có thể sẽ được đưa về home có dạng:

(Trang nhà của COCA – đang đăng ký)
Người hiểu nên đảm bảo rằng ở trình đối chọi bên trái, mục đang được lựa chọn là LIST.
Bước 4: Gõ từ cội và dạng từ cần tìm vào ô kiếm tìm kiếm.
Trong mục LIST, fan đọc gõ trường đoản cú gốc bạn thích tìm vào ô search kiếm.
Ví dụ:Nếu fan đọc xác định từ cội là analyze, thì bạn đọc gõ từ “analyze” vào ô search kiếm.
Tiếp theo, tín đồ đọc hãy chọn dạng từ của tự đi cùng từ gốc.
Để biết được danh sách ký hiệu dạng từ bằng cách nhấn nút
Sau đó, người học đang thấy một trình 1-1 thả xuống xuất hiện.
Trong trình solo này thì người học đã thấy ký kết hiệu viết tắt tương đối đầy đủ của những dạng trường đoản cú mà bạn muốn tìm kiếm.
Dưới đây đã là tên vừa đủ của từng ký kết hiệu quan trọng đặc biệt mà tín đồ đọc cần biết:

Để lựa chọn dạng trường đoản cú phù hợp, tín đồ học chọn ký kết hiệu của dạng từ mình thích tìm tìm trong trình 1-1 thả xuống, hoặc hoàn toàn có thể tham khảo cột thứ nhất của bảng trên.
Sau đó, fan đọc đặt ký hiệu của dạng trường đoản cú vào vị trí của nó khớp ứng với từ gốc.
Ví dụ:Nếu fan học ao ước tìm các danh tự đi sau từ cội analyze, thì tín đồ đọc gõ vào thanh kiếm tìm kiếm cụm từ gồm cú pháp như sau:
analyze NOUN
Trong đó:
analyze là từ gốc
NOUN là ký hiệu cho danh từ
Do tín đồ đọc muốn tìm những danh từ theo sau từ gốc, yêu cầu ký hiệu NOUN được đặt sau tự “analyze”

(Minh hoạ cú pháp được giới thiệu ở ví dụ 1)
Ví dụ 2: Nếu bạn học ý muốn tìm những tính trường đoản cú đứng trước từ analysis, thì tín đồ đọc gõ vào thanh search kiếm cụm từ bao gồm cú pháp như sau:
ADJ analysis
analysis là trường đoản cú gốc
ADJ là ký kết hiệu mang đến tính từ
Do tín đồ đọc muốn tìm những danh từ theo sau từ bỏ gốc, buộc phải ký hiệu ADJ được đặt trước tự “analysis”

(Minh hoạ cú pháp được giới thiệu ở ví dụ 2)
Người đọc nhấn vào nút “Find matching strings” để tìm được kết quả.
Bước 5: khám nghiệm kết quả

(Kết quả cho ví dụ 1: analyze NOUN)
Nếu tín đồ đọc nhập đúng cú pháp, hiệu quả như trên đã hiển thị.
Ở cột đầu tiên là lắp thêm tự của những từ. Thường thì những cụm trường đoản cú đứng sống 5 địa chỉ đầu đã là những nhiều từ được sử dụng liên tục nhất, theo ngữ liệu của COCA.
Cột trang bị hai đang chứa các hộp để fan đọc tick vào. Khi fan đọc tick vào hộp tương xứng với một các từ thì nhiều từ này đang được bóc thành 2 trường đoản cú riêng. Bạn đọc rất có thể nhấn vào từng từ giúp xem thống kê chi tiết của từ đó.

(Minh hoạ công dụng sẽ xảy ra khi nhấn vào hộp sinh hoạt cột 2. Tín đồ học có thể nhấn vào nhì ô tất cả chứa từ mới được hiển thị new ở cột 3 để biết chi tiết về từng từ một)
Cột thứ ba là cột chứa thông tin người đọc phải tìm. Điều này có nghĩa là cột này có chứa những cụm từ dưới dạng mà bạn đọc gắn vào thanh tra cứu kiếm.

Ví dụ như trong hình hình ảnh ở trên, do tín đồ đọc sẽ nhập “analyze NOUN”, yêu cầu các hiệu quả ở cột ba sẽ là những cụm từ bước đầu bằng từ analyze và dứt bằng một danh từ, như thể từ “analyze data”.
Như đã nhắc tới ở trên, danh sách những cụm tự được bố trí theo lắp thêm tự sút dần về tần suất xuất hiện. Điều này tức là những cụm từ đứng đầu danh sách sẽ là những các từ thường gặp mặt nhất, và cũng chính là những nhiều từ thường được người sử dụng Anh Mỹ dùng liên tiếp nhất.
Trong ví dụ trên, có thể thấy rằng danh từ thường xuyên đi cùng rất từ “analyze” tốt nhất là danh trường đoản cú “data”. Theo kế tiếp là danh từ “site” với “information”.
Xem thêm: Thủy Triều Là Gì - Nguyên Nhân & Hiện Tượng Thủy Triều Lên Khi Nào
Người đọc hoàn toàn có thể nhấn vào nhiều từ giúp thấy được ví dụ cụ thể cho từng các từ 1 trong các cột ba.
Khi nhấn vào trong 1 cụm từ trong cột 3, tín đồ đọc sẽ tiến hành chuyển đến trang gồm dạng như dưới:

Trong trang này, fan đọc rất có thể thấy được
Ngày xây dừng văn bản ở cột 2.
Dạng văn bản ở cột 3.
Các dạng văn bản:
MAG – Tạp chí
ACAD – Văn phiên bản học thuật
SPOK – Kịch phiên bản nói
NEWS – Tin tức
TV – Kịch phiên bản TV
MOV – Kịch bản phim
WEB – Trang web
BLOG – các trang blog cá nhân
Nguồn của văn bản ở cột 4. Người đọc hoàn toàn có thể nhấn vào thương hiệu của nguồn giúp xem được thông tin về đoạn trích.
Bản dịch của đoạn trích văn phiên bản ở cột 5 cùng 6. Bạn đọc sẽ được chuyển tới trang Google Translate.
Cột 7 sẽ bóc từng từ trong đoạn trích thành một ô mà người đọc hoàn toàn có thể nhấn vào. Khi tín đồ đọc nhấp vào thì tín đồ đọc đang được mang tới một trang tất cả chứa thông tin chi tiết về trường đoản cú này.

(Điều sẽ xẩy ra khi fan đọc bấm vào cột 8 – cột có biểu tượng kính lúp)
Cột 8 có chứa đoạn trích từ bỏ nguồn, trong đó bao gồm cụm từ bỏ mà tín đồ học đang chọn.

(Đoạn trích nguồn gồm chứa các từ “analyze data”. Cụm từ ”analyze data” đã có được in đậm và đánh dấu xanh)
Quay quay trở về trang cho tác dụng chính.

Hai cột cuối cùng của trang công dụng chính này cho biết thêm tần suất xuất hiện của các từ được hiển thị ngơi nghỉ cột 3. Nhỏ số càng tốt thì tần suất mở ra càng lớn.
Thông thường thì các cụm từ xuất hiện thêm với tần suất nhiều hơn thế nữa 50 rất có thể được xem như là những các từ liên tiếp đi cùng nhau. Tuy nhiên, bạn học cũng bắt buộc kiểm tra kỹ lưỡng các từ mà lại mình quyết định dùng để bảo đảm an toàn cụm trường đoản cú này được thực hiện đúng ngữ cảnh.
Ví dụ: Đối với từ bỏ ANALYZE SITE, fan đọc hoàn toàn có thể thấy rằng tự ANALYZE thực ra đi thuộc với nhiều từ SITE USAGE, chứ không những có SITE như công dụng ở ảnh trên đã mang lại thấy. Thế nên nên tín đồ đọc đề nghị cảnh giác về vấn đề sử dụng xuất phát từ 1 cách chuẩn xác bằng vấn đề kiểm tra kỹ tự mình chuẩn bị dùng.

(Hình minh hoạ cho tác dụng mà bạn học đã đạt được khi fan học nhấp vào từ ANALYZE SITE)
Những cách xác định collocation không giống trong COCA
Ngoài phương thức đã chỉ dẫn ở trên, bạn đọc có thể sử dụng một số các bí quyết khác để có thể xác định collocation.
Sử dụng tính năng Word để tìm collocations
Thay do chọn List, người đọc rất có thể nhấn vào mục Word để có thể tìm kiếm nhanh phần lớn collocation thường gặp mặt nhất của một tự duy nhất.

(Hình minh hoạ chọn tài năng Word)
Khi nhấp vào phần này, bạn đọc có thể nhập một từ bỏ bất kỳ. Để mang ví dụ, hình minh hoạ ở bên dưới đã lựa chọn từ mong tìm là Analyze.

Người đọc tiếp nối nhấn nút “See detailed info for word” để tiến hành tìm kiếm.
Sau đó, tín đồ đọc sẽ thấy được bảng thông tin như sống dưới.

Trong đó, mục Collocates có chứa những Danh từ, Động từ, Tính từ và Trạng từ thường xuyên đi cùng rất từ gốc mà bạn đọc đã nhập.

Người đọc có thế nhấp vào nút (more) để biết được thêm thông tin. Sau đó, tín đồ đọc rất có thể thấy thông tin như dưới.

Tương từ như giải pháp đọc các bảng của trang List, phần nhiều từ được in đậm với đứng đầu danh sách là đầy đủ từ mở ra cùng cùng với từ nơi bắt đầu một cách thường xuyên nhất. Các từ được in với màu càng đậm thì bọn chúng càng xuất hiện thêm thường xuyên với tự mà tín đồ đọc đang nhập nhất.
Sử dụng chức năng Collocates để tìm collocations
Ngoài việc sử dụng kỹ năng của mục menu và mục Word, fan đọc cũng hoàn toàn có thể sử dụng hào kiệt chuyên biệt nhằm tìm kiếm các collocation của COCA. Tuy nhiên, COCA khuyến cáo người đọc đề xuất sử dụng công dụng List hoặc Word nếu tín đồ đọc ý muốn tìm các collocation cho một từ. Nguyên nhân là vì tuấn kiệt Collocates rất chuyên biệt, cùng có thời hạn xử lý dài lâu rất những so với hai kỹ năng đã nhắc trên. Do vậy nên tín đồ đọc chỉ nên sử dụng khả năng khi fan đọc hy vọng biết những collocation của các cụm từ.
Trước hết, bạn đọc phải nhấp vào dấu cộng nằm sát nút Browse.
Khi bấm nút đó, một danh sách các tính năng mới vẫn hiện lên.

(Danh sách tính năng mở ra khi dấn dấu +)
Sau đó, người đọc chọn Collocations.
Khi bấm vào Collocations, bạn đọc sẽ thấy được một mục tất cả dạng như dưới:

Trong mục Word/phrase, tín đồ đọc chỉ điền trường đoản cú hoặc nhiều từ gốc. Ở mục Collocates, người học điền dạng trường đoản cú đi cùng rất từ/cụm từ cội mà bạn đọc mong muốn tìm.
Ở ví dụ làm việc dưới, cụm từ gốc sẽ là “fascinated by”, và tín đồ đọc ao ước tìm hầu như danh từ bỏ đi với từ/cụm từ bỏ này.

Sau đó, bạn đọc hãy nhấn vào dòng số ở bên dưới mục collocates để cho COCA biết rằng khoảng cách giữa từ bỏ (hoặc từ trước tiên trong cụm từ) cùng với dạng từ đã khẳng định ở ô Collocates là bao nhiêu. Sau đó, người đọc nhấn Find collocates.
Ví dụ 1: nếu fan đọc điền từ cội là “fascinated”, và những Collocates là NOUN, thì nếu fan đọc chọn số 1, COCA đã hiện các kết quả như:
fascinated people
fascinated horror
trong đó, những từ “people” với “horror” biện pháp từ gốc “fascinated” khoảng cách là 1 từ.
Ví dụ 2: Tương tự, nếu fan đọc điền từ nơi bắt đầu là “fascinated by” và những Collocates là danh từ, thì nếu bạn đọc chọn số 1 thì sẽ hiện thông tin lỗi. Điều này xảy ra vì tính năng khẳng định khoảng bí quyết này được tính từ từ thứ nhất trong nhiều từ sẽ nhập sinh sống mục Collocations. Mặc dù nhiên, trong cụm từ “fascinated by” thì từ “by” sẽ nằm ở khoảng cách 1 từ với từ gốc. Bởi vì vậy tin tức người phát âm yêu mong đã trùng cùng với dạng của trường đoản cú gốc.
Vậy, để tìm thông tin về các danh tự đứng sau cụm từ “fascinated by”, tín đồ đọc lựa chọn ô tiên phong hàng đầu và số 2 sống phía bên buộc phải của ô color xanh. Sau đó, COCA đã tìm những danh trường đoản cú nằm cách từ cội “fascinated” 2 tự về phía bên phải, và bí quyết cụm từ “fascinated by” 1 trường đoản cú về phía mặt phải. Tức là các tác dụng sẽ tất cả dạng:
fascinated by people
fascinated by history
fascinated by science
trong đó, những danh tự “people”, “history”, với “science” đứng bí quyết từ cội “fascinated by” khoảng cách 1 tự về phía mặt phải, và nằm giải pháp từ cội “fascinated” 2 tự về phía bên phải.

(Kết quả có đươc khi người đọc làm theo hướng dẫn được giới thiệu ở VD2)
Cách người đọc sử dụng kết quả trong trang hiệu quả này giống như hướng dẫn đã giới thiệu ở bước 5 trong mục công việc sử dụng COCA để xác minh collocation.
Xem thêm: Giới Showbiz Là Gì, Viết Tắt Của Chữ Gì? Showbiz Là Gì
Tổng kết
Bài viết trên đã trình bày cụ thể cách tín đồ học hoàn toàn có thể sử dụng COCA để không những tìm phần nhiều tất cả phần lớn collocation cho rất nhiều từ cơ mà mình muốn, mà rất có thể khai thác được không ít thông tin bổ ích cho quá trình học hơn. Trải qua việc này, tín đồ học tất cả thể nâng cao độ đúng đắn trong việc áp dụng ngôn ngữ, rồi từ đó giúp bạn học cải thiện hiệu quả áp dụng tiếng Anh của mình.