Data warehouse là gì

     

Tomorrow Marketers – Data Warehouse là gì? – Data warehouse (Kho dữ liệu) là một hệ thống lưu trữ dữ liệu phối kết hợp từ những nguồn không giống nhau. Data warehouse giúp cục bộ dữ liệu doanh nghiệp được triệu tập về một nơi tàng trữ duy nhất, không biến thành phân miếng rời rạc, nhờ vậy góp doanh nghiệp dễ dãi khai thác tài liệu và cung ứng các báo cáo, dashboard đến nội cỗ sử dụng.

Bạn đang xem: Data warehouse là gì

1. Xu thế xây dựng Data Warehouse hiện tại đại

Cloud computing (Điện toán đám mây) là một mô hình làm chuyển đổi rất nhiều khía cạnh trong phong cách thiết kế IT trong thời hạn gần đây, cùng data warehouse cũng ko nằm ngoại lệ.

Nhiều doanh nghiệp lớn thay bởi vì sử dụng bề ngoài on premise truyền thống lịch sử đã dịch rời sang thương mại & dịch vụ cloud-based data warehouse. Giải thích cụ thể, on premise là việc tổng thể dữ liệu sẽ nằm tại vị trí server (máy chủ) mà doanh nghiệp sở hữu. Trong những lúc đó, khi thực hiện cloud-based data warehouse, tổng thể dữ liệu sẽ nằm ở server (máy chủ) mà bọn họ không sở hữu – thuê hệ thống một mặt thứ ba. Thời điểm này, công ty lớn sẽ không phải mất thừa nhiều ngân sách chi tiêu vào câu hỏi xây dựng, gia hạn và sửa chữa server, một khoản đầu tư chi tiêu không hề nhỏ và thậm chí còn là trọng trách tài chính với rất nhiều doanh nghiệp.

Base.vn

2. Đặc điểm của Data Warehouse

Nhà khoa học laptop Bill Inmon – người được coi là cha đẻ của Data Warehouse, đã khái niệm Data warehouse cần phải có 3 điểm lưu ý sau:

Subject-oriented (dữ liệu hướng tới đối tượng cụ thể): Nhân sự thuộc các phòng ban không giống nhau trong doanh nghiệp (Finance/ Sales/ Marketing…), rất có thể được truy cập vào các vùng dữ liệu khác nhau trong data warehouse, để lấy dữ liệu cùng phân tích.Time-variant (dữ liệu được gán thời gian): Dữ liệu vào data warehouse là tài liệu được thu thập trong khoảng thời hạn dài cùng được gán thời gian. Data warehouse lưu trữ dữ liệu đông đảo historical data, thay vị chỉ lưu giữ trữ những dữ liệu thời gian ngắn như các transactional system.Non-volatile (dữ liệu không trở thành đổi): Dữ liệu một khi sẽ được tàng trữ trong data warehouse thì ko nên đổi khác hoặc chỉnh sửa. Ngôi trường hợp sau thời điểm tổng hợp dữ liệu mà dữ liệu ở trong nguồn bị cố kỉnh đổi, lúc ấy doanh nghiệp cần tiến hành lại quy trình ETL để download lại tài liệu từ nguồn vào Data Warehouse. Đặc điểm này nhằm bảo tồn tài liệu lịch sử, phản bội ánh chính xác những gì đã xảy ra trong quá trình vận hành.

3. 06 yếu hèn tố suy nghĩ khi sàng lọc Data Warehouse

3.1. Data Type: bạn có nhu cầu lưu trữ loại dữ liệu nào?

Bước đầu tiên là xác minh loại dữ liệu bạn có nhu cầu lưu trữ. Với data warehouse, có 2 loại dữ liệu chính: dữ liệu có cấu trúc (structured) và dữ liệu phi cấu tạo (unstructured).

Relational database sẽ vận động tốt với tài liệu có cấu trúc, hoặc tài liệu vừa khớp với những hàng, những cột. Nếu như dữ liệu rất có thể được bố trí thành một bảng tính lớn, thì relational data warehouse sẽ rất cân xứng cho doanh nghiệp của bạn.Non-relational database kèm theo với lượng lớn dữ liệu nửa cấu trúc (semi-structured data). Một số ví dụ tiêu biểu vượt trội của dữ liệu nửa cấu trúc có thể nói đến emails, sách, bài xích đăng trên mạng thôn hội, hình ảnh, music và dữ liệu địa lý. Ví như bạn thao tác làm việc với lượng lớn tài liệu phi cấu trúc như nuốm này, chúng ta nên suy xét tới một data lake thay vì data warehouse.
*
Nguồn ảnh: Segment.com

Giải mê thích thuật ngữ:

Structured data: Đây là một số loại dữ liệu dễ dãi tìm tìm và thu xếp nhất, bởi vì nó thường được hàm chứa trong những cột với hàng, và các thành phần của chúng rất có thể được liên kết bằng gần như trường được định sẵn từ trước. Hãy suy nghĩ về gần như dữ liệu bạn cũng có thể lưu trữ vào một tệp Excel và chúng ta sẽ thấy tức thì được ví dụ như về dữ liệu có cấu trúc. Dữ liệu có cấu tạo có thể bám theo một quy mô dữ liệu nhưng mà người thi công cơ sở dữ liệu (CSDL) tạo ra — ví như các phiên bản thống kê bán sản phẩm theo vùng miền, xếp theo loại mặt hàng hoặc theo khách hàng… tựa như như vấn đề bạn mang đến một tủ sách sách, sống thư viện có các ngăn và khu vực sách giáo khoa, sách về marketing, tè thuyết… Khi bạn có nhu cầu tìm nhiều loại nào thì chỉ việc tới khoanh vùng đó lựa chọn.Unstructured data: Loại tài liệu này là nhiều loại không thể chứa trong csdl dạng hàng cùng cột, cùng nó cũng không tồn tại mô hình tài liệu nào liên quan. Một số ví dụ của unstructured data gồm: hình ảnh, phim và những tệp âm thanh, các tệp đựng chữ cái, các nội dung từ bỏ mạng làng mạc hội, hình ảnh từ vệ tinh, những bài thuyết trình, tệp PDF, các câu trả lời từ phiên bản khảo sát câu hỏi mở, các trang web và phiên bản thu từ các cuộc gọi hỗ trợ khách hàng.Relational database: Sử dụng các bảng để tàng trữ dữ liệu. Một bảng là một tập hợp các dữ liệu có liên quan và chứa những hàng và những cột nhằm lưu dữ liệu.Non – relational database: Cơ sở tài liệu chỉ tàng trữ dữ liệu mà không tồn tại cơ chế ví dụ và có cấu trúc để link dữ liệu từ các nhóm khác biệt với nhau.

Xem thêm: Hành Khách Ngồi Trên Một Toa Tàu Đang Rời Ga, Hành Khách Ngồi Trên Toa Tàu Đang Rời Khỏi Ga

3.2. Scalability – khả năng mở rộng quy mô

Điều cần cân nhắc tiếp theo là bạn muốn truy cập bao nhiêu dữ liệu và quy mô dữ liệu mà data warehouse buộc phải hỗ trợ? Relational cloud-data warehouses có thể lưu trữ một lượng lớn dữ liệu mà ko tốn nhiều bỏ ra phí. Bạn cũng có thể sẽ ko cần nhiều hơn thế những gì chúng ta cung cấp, đặc biệt quan trọng nếu chúng ta chỉ áp dụng với mục đích chính là phân tích.

Tuy nhiên, vào trường hợp nên quy mô cực đại (lớn hơn 2 terabyte dữ liệu), non-relational warehouse thường sẽ tương xứng hơn, vày nó không áp đặt những hạn chế so với incoming data, chất nhận được bạn write cấp tốc hơn.

Bạn hoàn toàn có thể muốn xem xét những kho chứa dữ liệu scales như như thế nào trong thời gian mong muốn cao. Ví dụ: Redshift hoàn toàn có thể hỗ trợ lượng lớn dữ liệu nhưng đã yêu cầu các bạn thêm nodes theo cách thủ công bằng tay (để tăng thêm dung lượng lưu trữ và sức mạnh tính toán). Mặt khác, Snowflake cung cấp tính năng auto-scale nhằm xoay cluster một biện pháp linh hoạt.

3.3. Performance – Hiệu suất

Điều tiếp theo sau cần chăm chú là các bạn sẽ cần dữ liệu của chính bản thân mình nhanh đến cả nào. Điều này dựa vào vào vận tốc các truy nã vấn (query) rất có thể chạy và bảo trì tốc độ kia trong thời điểm nhu cầu cao. Như bạn cũng có thể tưởng tượng, hiệu suất (performance) cùng quy mô (scale) tất cả mối liên hệ nghiêm ngặt với nhau. Hiệu suất sẽ tăng lên khi chúng ta mở rộng quy mô kho dữ liệu của chính bản thân mình hoặc thêm các nodes bổ sung theo cách thủ công bằng tay (ví dụ: Amazon Redshift).

Mặc cho dù real-time analytics rất đặc trưng đối với một vài trường hợp sử dụng, nhưng phần lớn các đối chiếu không yêu ước realtime data hoặc insight ngay lập tức. Khi bạn trả lời những câu hỏi như “điều gì khiến người cần sử dụng rời bỏ sản phẩm?” hoặc “mọi người chuyển từ tiện ích sang web như thế nào?”, thì việc truy cập dữ liệu vẫn ổn định nếu tất cả độ trễ vơi (slight lag). Dữ liệu đó ko bị thay đổi theo từng phút với các xu thế lớn sẽ không bị ảnh hưởng.

3.4. Maintenance 

Công ty của khách hàng càng nhỏ, càng có nhiều khả năng các bạn sẽ cần các kỹ sư của chính bản thân mình tập trung vào bài toán xây dựng thành phầm hơn là lo ngại về các đường ống ETL và quản lý data warehouse sản phẩm ngày. Đối với các kho tài liệu không tự buổi tối ưu hóa, bạn sẽ cần một fan nào đó dành riêng thời gian duy trì, tính toán để đảm bảo an toàn hiệu suất mạnh dạn mẽ.

Tuy nhiên, việc duy trì data warehouse theo cách bằng tay cho phép các bạn tối ưu hóa nó một cách đúng đắn theo nhu cầu của người sử dụng bạn. Nhiều thời gian hơn giành cho việc kiểm soát và điều chỉnh và không ngừng mở rộng kho dữ liệu theo cách thủ công, tức là bạn tất cả quyền kiểm soát điều hành tốt hơn đối với hiệu suất và đưa ra phí. Đối với cùng 1 admin tất cả kinh nghiệm, “bảo trì những hơn” đồng nghĩa với việc điều hành và kiểm soát và linh động hơn.

3.5. Availability – Tính chuẩn bị của dữ liệu

Bất nói kho dữ liệu bạn chọn là khối hệ thống tại vị trí hay dịch vụ thương mại đám mây, tính gồm sẵn luôn phải là mối thân thương hàng đầu. Việc nhắm đến phân tích dữ liệu thời hạn thực và sự phụ thuộc ngày càng những vào tài liệu để ra đưa ra quyết định yêu cầu khối hệ thống phải luôn bảo đảm mức độ sẵn sàng của dữ liệu.

Doanh nghiệp cần xác định rõ nhu cầu là họ bắt buộc cập nhật report theo chu kì nào, theo từng giây, từng phút, từng ngày hay theo ngày, và phẳng phiu với ngân sách chi tiêu doanh nghiệp hoàn toàn có thể đáp ứng. Chu kì càng ngắn thì ngân sách càng lớn. Vày để ra được một phiên bản báo cáo, hầu như yếu tố trường đoản cú Data collector, Data Pipeline liên kết với Data Warehouse, đến cả các công chũm Data Visualization cũng đều yêu cầu được cập nhật. Ví như việc một sàn kinh doanh chứng khoán phải đề xuất đến vài ba trăm IT cùng quản lý và vận hành mới có thể đáp ứng nhu cầu theo dõi số theo từng phút. Hay báo cáo của PowerBI tính giá thành 10$/tháng cùng với 8 lần cập nhật dữ liệu trong thời gian ngày và 5000$/tháng đến 48 lần cập nhật dữ liệu vào ngày. Hãy phẳng phiu chi chi phí và nhu yếu về gia tốc xem báo cáo để lựa chọn lựa cách làm phù hợp.

3.6. Cost – chi phí

Với on-premise data warehouse (toàn bộ dữ liệu nằm tại máy chủ doanh nghiệp sở hữu), túi tiền xây dựng một kho dữ liệu rất có thể lên tới hàng vạn đô la. Đó là còn chưa tính đến đưa ra phí làm chủ và quản lý để bảo trì các hệ thống này hoạt động.

Với cloud-based data warehouse, giá thành có thể xê dịch nhiều giữa các nhà hỗ trợ khác nhau. Các bạn sẽ khó kị khỏi hồi hộp khi đứng trước quá nhiều kết cấu giá từ nhiều nhà cung cấp. Chẳng hạn, Amazon Redshift tính phí dựa vào loại phiên bản máy tính nhưng mà bạn thực hiện để đựng dữ liệu. Trong những khi Google BigQuery tính phí cho từng truy vấn, vấn đề đó yêu mong doanh nghiệp kiểm soát và chuyển quy định nghiêm ngặt cho những lần truy vấn để điều hành và kiểm soát giá. Tốt nhất là chọn cơ cấu chi phí minh bạch nhất cân xứng với chi tiêu của doanh nghiệp bạn.

4. Một vài nhà cung ứng Data Warehouse nhằm bạn dễ ợt so sánh

*
Nguồn ảnh: Segment.com

Tạm kết

Lựa chọn technology áp dụng không hẳn bước tốt nhất trong thừa trình biến đổi số. Trước khi tiến mang đến phần công nghệ, doanh nghiệp lớn cần khẳng định rõ:

Mục đích sử dụng dữ liệu: Doanh nghiệp đề xuất theo dõi với phân tích gì?Với mục tiêu đó, đâu là những chỉ số quan trọng đặc biệt cần theo dõi trong team?Thu thập những tài liệu đó bởi công cụ/phần mượt nào? có những tiêu chuẩn chỉnh nào trong công ty lớn yêu ước công cụ yêu cầu đáp ứng?Thiết kế kho dữ liệu và đường truyền dữ liệu như thế nào để dữ liệu luôn được cập nhật liên tục?

Đó cũng là bốn duy mà khoá học Data System của Tomorrow Marketers mong mỏi truyền tải, sẽ giúp đỡ các doanh nghiệp xây dừng văn hoá tài liệu và khai thác những tiềm năng lớn lên ngay từ dữ liệu nội bộ. Khóa đào tạo và huấn luyện Data System sẽ giúp bạn hiểu rõ:

Tầm đặc biệt quan trọng của hệ thống dữ liệu nội bộ so với sự tăng trưởng lâu dài của doanh nghiệp.Cấu trúc của khối hệ thống dữ liệu nội bộ: làm rõ các yếu tố của một hệ thống dữ liệu hoàn chỉnh.Tư duy xây dựng quy trình và số hoá quy trình sale nhằm tích lũy được tài liệu qua thời gianTư duy sản xuất đường ống tài liệu và công ty kho dữ liệu, góp doanh nghiệp chuẩn hoá dữ liệu từ sớm.Tư duy khai quật dữ liệu để xây dựng các dashboard & báo cáo quản trị, cung ứng bức tranh toàn cảnh của sale và đo lường hoạt động.

Xem thêm: Cách Tìm Txđ Của Hàm Số Lượng Giác, Tìm Tập Xác Định Của Hàm Số Lượng Giác

Tìm đọc thêm về khoá học tại đây.

*

Bài viết thuộc bản quyền của Tomorrow Marketers, xin vui miệng không sao chép dưới hầu hết hình thức!